数据标签:我们就像人工智能的“幼儿园老师”

  • 2020-09-01 14:49
  • 科技日报

“据说数据是人工智能时代的石油。我们的工作是把原油提炼成汽油。”

“我们就像一个‘学前教育’,教人工智能更好地理解数据。”

……

谈到数据注释者这一职业,90后李玉龙尤为激动。虽然他只工作了4年,但他已经是一名资深的数据注释者了。

数据标注员是随着人工智能的发展而出现的一个新职业。人工智能需要大量的标注数据来实践认知,而数据标注最早是由人工智能工程师完成的。随着人工智能所需数据量的增加,数据标注逐渐成为一种独立的新型工作。

"数据标记有时就像玩游戏."最近,李玉龙正在做一个自动驾驶的数据标注项目,比较一张2D街景照片,并在相应的3D点云图片上选择一些点。

"看,把车框起来,使它变成白色,这意味着它是一个障碍."随着鼠标的快速滑动,屏幕上的点云图片不断翻转,带有大针尖的数据点被标记在图片中的不同对象上。蓝色是路面,绿色是绿色植物,红色是路边,白色是障碍。

李玉龙说,像这样的普通点云地图需要标注大约180,000个点,一个熟练的数据标注员只需半个多小时就可以完成。"这样,每天200万积分就不成问题了."。

李玉龙曾在一家外资印刷电路板企业工作,但他偶然接触到数据标签行业,并加入其中。他说,与传统行业相比,这个行业有一种“科幻感”:传统行业的原材料和产品是看得见摸得着的,而数据标注者只需要一台电脑和一根网线,原材料是数据,产品也是数据。

然而,这种“科幻”职业实际上已经改变了现实生活。自动驾驶、面对面支付、智能医疗、智能家居.人工智能给生活带来了越来越多的便利,这都归功于数据标注器。

“虽然我们从事的是人工智能领域最基础的工作,但我们经常会感受到价值感。”李玉龙说,在新冠肺炎肺炎流行期间,他和他的同事们做了一个医学项目,就是在肺部的ct片上标记病变数据,以提高人工智能识别病毒的能力。“医生看一部电脑断层片需要几分钟。如果使用改进的人工智能算法作为辅助,可以在几秒钟内初步判断CT上是否有可疑病毒。”

从事数据标注需要每天面对电脑,这不可避免地让人感到无聊。然而,李玉龙说,数据标签为他打开了一个更大的世界,因为他经常接触不同的项目,每个项目涉及不同的领域,这往往带来新奇。

“更重要的是,这将是一个可持续发展的行业。”李玉龙表示,随着人工智能进入越来越多的行业,对数据标注的要求也越来越高,数据标注行业将有无限的发展前景。

如今,只有李玉龙所在的百度(陕西)人工智能基础数据产业基地拥有35家数据标注企业和2300多名数据标注工程师。百度智能云数据众包拥有5万多名线下收集者和2000多万众包互联网用户。

“每当有人问起我的职业,当我回答数据注释者时,另一个人的脸上总是挂满问号。”李玉龙说,越来越多的人希望了解这个行业。“我希望有一天,每个人都会提到数据标注,就像提到老师和医生一样。”(记者马梁)

头条推荐
图文推荐