GPT风口下的数据标注员:人工智能背后的“老师”和AI局外人

新京报   2023-05-07 09:13:42

数据标注员正在工作。受访者供图

ChatGPT大火后,数据标注员迅速进入大众视野,也成了就业新风口。他们有的年薪百万,有的日结两百,但在ChatGPT风口上,作为人工智能背后“老师”的他们却也是局外人,存在被替代的风险。

所谓数据标注员即指,对人工智能原始数据集进行标注、分类、分析和清洗来帮助训练机器学习算法和人工智能模型的职业。数据标注员以入行门槛低,上手快,薪资待遇好也广受县城青年欢迎,目前全国已经建立起多座超千人数据标注基地。


【资料图】

然而,数据标注行业这一新风口同样存在“教会徒弟,饿死师傅”的可能,随着人工智能大模型的迭代这一职业可能面临被替代的风险。目前国外已经出现AI自动标注替代人工标注的案例。那么,在人工智能行业飞速发展的当下,对普通人来说数据标注员是一份好工作吗?数据标注这一细分赛道发展前景如何?目前正面临哪些问题?未来,数据标注行业会被AI标注颠覆吗?

对此,新京报贝壳财经记者采访了数位数据标注员、数据标注行业创业者以及人工智能领域有标注需求的甲方公司负责人、学界人士,试图解答上述问题。

4分钱一个框,每天拉够2500个,数据标注成就业新风口

作为人工智能背后的“老师”,小雷并不十分明白“什么是人工智能”,也不是很理解“自己是怎么教人工智能学习的”。从每天早上9点上班开始,他的脑子里就只有一件事——怎么完成单日2500个框,达到95%合格率的要求。

几个月前,小雷辞去了工厂车间的工作,应聘成为了一名数据标注员。相较于制造业的灰尘、酷暑和严寒,新工作办公室内有空调和暖气,整洁干净的办公桌上还摆放着新鲜的绿植。

宽敞明亮的办公室里聚集了包括小雷在内的50多名20-30岁的年轻人,他们大多具备大专院校及以上教育水平,乘着人工智能的风口成为了行业基层的数据标注员,每天的工作就是对海量数据进行清洗、分类、画框、注释、标记等操作,转换成符合算法工程师要求的标准交付。

以自动驾驶领域的3D点云标注为例,小雷的单位规定单日标注任务量为2500个框,底薪2500元,合计每个框4分钱,超额完成任务还有绩效工资,这对学历不高,身处河南县城的青年来说,已经算是一份薪资中等偏上的工作。

所谓数据标注即指对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。数据标注是人工智能获取训练数据的主要渠道,应用场景广泛。从语音转录、人脸识别、自动驾驶到AI聊天,人工智能模型训练所需要的海量数据目前几乎全部依赖数据标注员手工标注。

不过,与大众印象中高新技术行业往往需要高学历人才不同,2021年版的《人工智能训练师国家职业技能标准》对该职业的能力特征描述为“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普通受教育程度则为“初中毕业(或相当文化程度)”。

高需求量、低用工门槛为学历层次相对较低的普通人提供了进入办公室工作的机会。2018年,山西转型综合改革示范区与百度合作,建造了基地占地面积超1万平米,数据标注员超2000多名的数据标注基地;在新疆和田,有4000人在当地的数字经济产业园从事数据标注工作;在山东的第一个数据标注基地,已经有1500名从业者。

数据标注员正在工作。受访者供图

基层数据标注员层层外包下有的到手薪资千余元,人员流动频繁

结束上一份电商工作后,高小贝回到太原老家,在朋友的介绍下开始接触数据标注行业。付费后,高小贝进入培训公司的3D点云项目组,从0基础到逐渐上手再到开始接单,高小贝用了40多天,项目标注单价则为1毛8分钱。

第一次项目回款,高小贝收到了三千四百多元,除去培训费用,还有少部分结余。

与高小贝相比,小雷入职前并未参加任何培训,从完全不懂到单日完成2500个框且正确率95%,单位只给了小雷一周不到的时间,由于从事时间较短,熟练度欠佳,再加上经常返工重标,即使每天多加班2-3个小时,小雷效率最高的时候,单日工作量也只有2000个框左右。

所谓3D点云项目单日2500个框,并不意味着仅是圈出图片中的障碍物,实际上,标注员在工作时还要注意障碍物的尺寸、ID、方向,以及点云是否框全,是否漏框了轮胎点,是否框入了地面点,同时还要判断车在高速行驶时出现的残影是否框选等。小雷认为3D点云标注工作并不算难,但具体操作要求比较复杂,所以很难在单日内大批量标注。

“标注本身就是个重复性的工作。上手不难,难的是都不愿意培养,都喜欢直接能干的。”前数据标注员田先生如此告诉贝壳财经记者。由于缺乏培养机制,再加上职业发展天花板有限,从事数据标注行业接近一年后,本科毕业的田先生选择了辞职。

同为3D点云标注项目,小雷公司开出的标注单价为每个框4分钱,而高小贝所在的培训公司单价则为1毛8分钱,为何会出现如此大的单价差异?

实际上,多位数据标注行业受访者向记者证实,行业内层层外包的现象比较严重,从有标注需求的甲方公司到中标的乙方公司,再到框架下的二包、三包,甚至四包公司,每层都会抽取一定的费用,最后落到标注员身上,标注单价4分钱并不罕见。一位有标注需求的甲方公司项目负责人向贝壳财经记者透露,自家公司的视频事件描述标注,报价一条9毛,最后分到标注员手中单价可能只有几分钱。

此外,由于标注工作的层层外包,标注公司交付时的沟通成本也随之变高,甲方的需求经过层层传达后经常出现沟通不及时,标注标准来回变化的情况,因此返工重标也是大多数基层数据标注员不得不面对的问题之一。

数据标注员低入门门槛的同时也意味着低竞争力,所谓的数据标注行业在中低端市场正逐渐演变为传统的人力资源密集行业。

在每天加班的情况下,小雷一个月到手薪资也只有一千多元,且要忍受由于长时间操作电脑、鼠标而带来的眼睛干涩、手部酸痛感。目前,小雷选择了辞职寻找新的工作。

层层外包模式下,也有原来的从业者,选择了创业。

考虑到从事数据标注工作个人产出有限,且行业表现为多劳多得,高小贝选择了复制裂变,自己投资开办了一家数据标注公司。不到一年的时间内,她的标注公司全职人数达到了20人,公司标注部门每月净营收在2.5万-4万元之间。

此外,从自己的创业经历出发,高小贝的公司还开发了标注孵化业务,提供对个人以及团队的数据标注培训,目前公司已经孵化分公司3家,孵化人数则达到了16人。“市场上割韭菜的公司居多,高额加盟费、分包转包各种情况搞得整体市场乌烟瘴气。但总的来看,行业本身很适合小资本创业、赔率低,如果创业者能接到优质订单,在团队管理、培训流程上得到指导,行业前景还是不错的。”高小贝说。

收入两极分化高素质人才年薪百万背后?

林霖(化名)也是数据标注行业的头部玩家,他以传统人力资源行业起家,后转型数据标注行业。

“今年人工智能生成赛道爆发,我们公司已经接到了大批量数据标注外包需求,预计今年可以做到十倍营收增长。”林霖对贝壳财经记者表示。

他认为,数据标注行业发展潜力巨大,不断扩张团队规模,提升团队整体素质才能接到一手优质的标注项目。林霖的团队目前全职员工人数上千,其中本科生占比较大,公司在河南、湖南、重庆等多地均设有数据标注基地,服务的客户主要是头部的互联网和人工智能企业。

2020年转型数据标注行业,经历了行业非线性增长的几年,林霖的公司抢占了数据标注行业的小风口,在生成式人工智能标注领域已是业内最大团队之一。

林霖向贝壳财经记者透露,数据标注员的平均薪资一般略高于公司当地平均薪资,尤其是高素质标注人才,薪资待遇则更高。“目前我知道最高的,纯粹做数据标注,不参与算法、研发等,差不多在90-100(万年薪)。”

普通数据标注员月薪两三千,高级数据标注从业者年薪百万,为何会有如此大的薪资差距?

林霖向贝壳财经记者解释,普通数据标注员仅需要对一个标注题目负责,高级数据标注从业者则需要对一个标注环节,甚至对整个标注需求负责;此外,标注业务也根据难易程度分为不同等级,例如在自动售货机订单审核项目,人工仅需抽查机器判断的已售商品是否准确即可,如是否将果粒橙识别为可口可乐,对标注员个人能力要求不高,而在ChatGPT问答规则设计项目中,好的标注员在回答“背诵苏轼《水调歌头》”提问时,不仅会给出诗词全文,还会揣摩提问者提问意图,给出苏轼在中国诗词史上地位如何、此首诗词相关的背景、诗词衍生的其他内容等等。“一个优秀的数据标注员能通过关键词,识别出提问者背后的真实需求是什么,进而设计规则。”在林霖的公司不乏中科院博士从事数据标注工作。

与大部分人印象中数据标注员低门槛好上手不同,林霖透露,数据标注行业其实不乏对高素质人才的需求,例如医药行业、金融行业相关的标注更倾向于寻找有相关教育经历或从业背景的人才标注,ChatGPT人机对话项目则倾向于寻找文字理解能力好的人才操作。

教会徒弟饿死师傅”数据标注员会AI标注替代吗?

随着人工智能自主学习能力的不断加强,人工智能研究者们已经开始尝试向机器“喂养”未标注的数据与部分半标注的数据,不依赖人工标注的自监督学习和数据标注也已在业界出现。来自苏黎世大学的一篇名为《在文本注释任务上,ChatGPT优于众包工人》的论文显示,用ChatGPT给文本做数据标注的成本不到0.003美元一条,显著低于人力成本。

“教会徒弟,饿死师傅”的传言正在弥漫,数据标注员最终会被AI标注替代吗?

多位学界人士对贝壳财经记者表示,低门槛的数据标注工作的确会被人工智能标注取代,如果大模型的性能已经满足需求,那么直接用大模型的预测作为标签,来蒸馏小模型即可,如ChatGPT已经能够成熟地自动识别和分类文本,并对文本的情感进行分析和评估。不过,也有学界人士告诉记者,虽然自动标注发展越来越成熟,但正确率并未达到100%,而是普遍集中在50-70%。此外,不少数据标注项目其实稍有门槛,对于某些特定领域的标注,人工智能暂时还不能取代人类。

林霖则表示,自己非常看好数据标注行业未来的发展。他认为,人工智能行业的发展无穷无尽:从语音标注到人脸标注,再到自动驾驶领域的3D点云标注,以及近几年大热的ChatGPT类标注。

“与其担心没有项目可接,不如提高自己与时俱进的能力”。高小贝则告诉记者,人工智能领域有一句流传甚广的老话非常适用,即“人工智能行业,有多少人工就有多少智能”。

新京报贝壳财经记者 李梦涵 罗东骏

编辑 岳彩周

校对 卢茜