文 | Tech 星球 王琳
郑雯至今觉得记得几个月的下午,那天,她一个小时就赚了 2 毛钱。她毕业于湖南的一所专科学校,是一名大模型数据标注师,每天的工作并不复杂 —— 给自己领取的原始数据(如图像、视频、文本等)添加标签。
但大模型对于数据的质量要求很高,那天当时一张图片被要求反复修改了 8 次才通过,整个修改过程花费了一个 1 小时。也就是说,她这一个小时只赚了 2 毛钱,而正常情况下可以赚到 12 块,可以拉 600 个框。“钱并不好赚”,她反复强调。
这几乎是所有数据标注从业者的共识。数据标注的一端承载着从业者们不足 5000 元的月薪,他们如蚂蚁雄兵般构建起大模型的基石。而另一端则是互联网大厂们的 AI 梦想,他们希望借此超越 Chat GPT 4。
数据标注采用最原始的计件制算工资,并不存在职场上的勾心斗角。唯一的苦恼这份过于枯燥的工作,让他们中的大部分很难坚持完 3 个月。并且,几乎所有人都告诉 Tech 星球,你最好别去。
可他们不知道的是,要不了多久,他们中的大部分可能会失去这份枯燥的工作。因为,那些简单的数据标注将会被 AI 取代。
从 5 毛到 4 分,价格暴跌
林双在 2017 年赚到了一笔 “快钱”:15 天 6000 多元。对于专科毕业的林双来说,这个收入着实可观。那是人们对 AI 期望爆棚的时候,几乎没有人怀疑过它的未来,所有的投资机构都坚信这里可以诞生十亿、百亿甚至千亿规模的企业。
几乎所有 AI 技术的背后都是算法、算力、算据的竞争,庞大的数据是技术优劣的底层。背景光鲜的程序员们坐在 “北上广” 的办公室里,通过代码迭代算法描绘 AI 蓝图,而大专生、宝妈等在三四线城市的格子间处理庞大数据包中的图片、文字、语音等。
ChatGPT 也不例外。一位百度文心一言项目组的员工称,大模型本身并没有什么新技术,也没有太高的技术壁垒,关键的问题是算力壁垒形成的参数壁垒。
大模型时代的数据标注员和以前的也并没有特别大区别,为数不多的差距可能是更加舒适的办公环境和对标注质量的更高要求。一位数据标注的从业者向 Tech 星球介绍,一般刚刚入行时,他们会组建一个 10 人左右的团队,这其中有一个人承担质检工作,如果不合格,就要员工打回去重做。而数据的质量则决定着大模型的优劣。
数据民工们也并不关心,AI 技术又有什么新的分支,他们更在意的是单价,因为这里是计件算工资。
“那会儿单价高的时候,拉一个 2D 框就有 1 毛多,我最高的时候干了 10 多个小时,一天就赚了 600 多元”,林双回忆道。不过,这不是最高的,一位标注人员称,早期 2D 拉框的价格最高能达到 5 毛钱。
拉框是数据标注中常见的一种操作,标注员根据要求对图片中的物体,如车辆、红路灯、障碍物等画框标注。拉框分为 2D 和 3D,后者的价格会更贵一些。
但这种热度并没有持续多少,伴随着越来越多人涌入以及 AI 行业整体发展的不够顺利,标注一个图片的单价越来越低,林双称现在最低的只有 4 分钱。
“如果是拉框,行业的平均单价是在 0.15 元左右,但还是要看项目,如果自己可以接到单,接到一手单的最低要求应该是 100 个入职员工,那规模挺大,3D 的框有可能达到 3 毛钱一个,不过很少可以有达到 5 毛的。”
当然,如果你本身具备医疗、金融方面的专业知识,那么单价则会更高。比如,很多医疗大模型会要求标注员有是临床专业,且有相关从业经验。
大部分从业者每个月的收入都不过 5000 元,其中也不乏少数的幸运儿。杨硕本来在四川经营一家服装店,但疫情影响了他的生意,他在今年转型做大模型数据标注,现在,他每个月有 8000 元收入,“我是和公司签了合同,交了 9500 元的加盟费,合同里写着每个月最低收益是 7000 元。”
究竟谁赚到了钱
阿里、腾讯、字节这样的互联网大厂,以及上汽、领克等车企是数据标注业务分发的源头,想要以最好的价格直接从源头获取订单,数据标注公司们需要具备一定的规模。
一位数据标注公司员工对 Tech 星球称,他们直接从大厂拿到订单,但是大厂要求他们得有 500 人,因此他们会选择通过加盟或者子公司的方式来达到人员要求。
二者的区别是加盟适用于初入行的人组建工作室,如果要成立子公司,一般一个区域就只有一家。小白工作室需要收加盟费,2.5 万或者 3 万。子公司是一个区域的独家代理商,需要缴纳 5 万费用。而他们可以三年以内保证订单的充足,并负责 3 年内的技术培训,这些工作室或者子公司们组成一个大的工会,几百到几千不等。
上述数据标注公司员工称,大模型的火热再次将数据标注行业推上热潮,现在几乎每天都有人去他们公司拜访。
但事实上,经营一个数据标注公司并不容易。数据标注公司告诉你的是,这个行业前 1 到 2 个月比较难做,因为员工需要爬坡期,前期只需要 5-8 个人就够了,40 多岁的阿姨都没有问题的。
稳定是数据标注公司或者工作室最重要的因素。但是 Tech 星球接触的大部分标注员工往往都因为枯燥无趣在 3 个月内 “光速” 离职,新员工并不是马上可以到岗实操,人员流动性大的结果就是数据标注的质量和周期不够稳定。缺钱的宝妈是数据标注工作室最喜欢招纳的人群。
“找兼职肯定不行的,会有空档期,房租和电脑投入了,会亏钱,最好的方式是全员坐班”,开过数据标注工作室的人魏铭向 Tech 星球介绍。
大部分数据标注公司的回款周期是 3 个月起步,最多半年,但他们需要以月付的方式给员工工资,这需要一定程度的资金储备,“一个人 3500,100 个人,3 个月就是 105 万。”
张建曾经加入过一个又 200 多号员工的工会。第一年,他们赶上行业的爆发期,2D 拉框的单价高达 5 毛,那一年他所在的工会赚了 400 多万。
但是第二年,行情急转直下。标注的单价变低,员工的流动性更快,空档期增加,再加上两个大项目都没有结算,一整年过去,他们亏了 300 多万。“老板都说短时间内坚决不碰数据标注”,张建表示,“他们现在正在和上游打官司。”
这是利润微薄的生意。海天瑞声是目前数据标注行业内首家主板上市公司,去年这家公司有 2.63 亿元营收,利润只有 2945 万元,净利润率刚刚超过 10%。但今年上半年,由于客户数量减少,这家公司便陷入了亏损。
随时可能被替代的 “螺丝钉”
依靠着肯尼亚工人蚂蚁搬家式的积累,最终 OpenAI 的语言对话大模型能力脱颖而出。这些被称为数据民工的普通人支撑起了山姆・奥特曼(OpenAI 创始人)的 AI 梦,但如果不出意外,他们手中的大部分工作,很快就会被自己参与创造的新产品所取代。
在国外,Open AI 前员工于 2021 年成立的 Anthropic 今年已经融资 51.5 亿美元,是其过去两年融资总额的 7 倍还多。这家公司提供了一种新的方法,可在较少人工参与的情况下,便训练出模型。
今年,AI 初创公司 refuel 推出了一个名为 Autolabel 的开源工具,可以使用市面上主流的大模型来对数据集进行标注。该公司的测试结果称,Autolabel 的标注效率相比人工标注提高了 100 倍,成本仅为人工成本的 1/7。
在国内,一家名为视智未来的公司也在打造标注大模型。他们在接受采访时表示,有些项目已经用 GPT 交付了,准确率方面达到了 80% 多,与人工接近。
不过,海天瑞声认为,AI 一定不会实现完全的自动化标注,因为机器如果想要持续演进,使其更接近于人类的判断和理解,就一定需要人类作为引导。
几乎所有从事过数据标注的人员,都向 Tech 星球透露着同一个观点:数据标注是一个没有门槛的工作,只需要你熟练使用电脑即可。
但事实上,如果简单的标注可以用 AI 来完成,那么人工参与的将是难度更高的数据筛选和标准工作,这也意味着行业的门槛将会不断提高,尤其是 ChatGPT、文心一言类的大语言模型。
作为对照,早在 ChatGPT 走红前,OpenAI 就组建十几位博士生来 “打标”。而百度在海口的数据标注基地拥有数百名专职大模型数据标注师,标注师的本科率达到 100%。
这类大语言模型的特点是,标注员需要具备一定的知识储备和逻辑分析能力。根据《财经十一人》报道,标注师们需要判断问题类型,随后给 5 个回答分别打分并排序,分数区间为 0-5 分,如果打分低于 3 分,还要标注出具体原因,例如 “答非所问(0 分)”、“严重跑题(1 分)”、“存在逻辑问题,存在事实性错误,比例较小给 2 分” 等。
数据标注的另一个热门领域是自动驾驶。据德勤的报告显示,2022 年自动驾驶领域的标注需求占整个 AI 下游应用的 38%,预计到 2027 年,比例将上涨到 52%。相较于大语言模型,对于自动驾驶领域的模型而言,那些简单的拉框操作依然有着较为宽松的学历要求。
标注员们是人类从移动互联网时代到人工智能时代的基石,Tech 星球接触到的大部分从业者大多不清楚 AI 将带给他们那些改变,也不知道他们为了 AI 的发展做出的贡献,他们只是互联网时代的新一代螺丝钉,而且随时可能被替代。
(备注:文中人物皆为化名。)
来源:Tech 星球