最近,苦逼的AI数据标注行业火了,是由于以下三则融资:
1. ScaleAI:被Meta 300亿美金估值收购49%股权,28岁创始人Alexander加入Meta
2. Mercor:创立两年估值20亿美金,据说还拒了100亿美金估值的投资,其印度创始人Foody只有21岁
3. SurgeAI:行业老二也爆出来要融资10亿美金,估值150亿
其实,AI数据标注的商业模式非常的简单:攒人+作业平台+标数据,是一个1/3智力密集型+2/3劳动密集型的生意。一般来讲,这样的生意很适合中国,美国做这行的也都是华人或印度人。但市场现状上,中美差距很大:
美国:25年Scale AI 15-20亿美金收入,Surge/Mercor/turing都在2-4亿美金
中国:最大的也就1-2亿人民币人收入。海天瑞声是语音,小咖帮主要供人头,还有一堆16年做自动驾驶标注起家的。目前没有任何一家能和scaleAI对标的。
问题来了,为什么中国没有ScaleAI呢?
核心原因有三个:
1. 中国模型厂都是蒸馏厂。能轻松的蒸馏别人现成的,干嘛还要费时费力做human-data呢?尤其在Deepseek R1证明了longcot蒸馏路线可行后,国内大厂的蒸馏已经到了非常夸张的程度。主打一个等待OpenAI更新,你更新一次,我就刷一次数据。一个有趣的例子,24年O1发布前,GPT4一直没更新,直接导致某家模型一直原地踏步。
2. 中国大厂自建了human-data团队,吃掉了三方服务商的市场。互联网大厂倾向啥都干,本来就有规模化的运营团队,比如抖音内容审核,所以很自然生长出内部的human-data团队。规模大的自建团队在1-2千人,支出在3-4亿,几个大厂合计有10亿,那自然外部就没生意了。
3. 数据安全。ScaleAI给OpenAI标的数据会不会卖给Google?答案是不会,靠的是法律约束。但国内公司能不能抵住一份数据卖多家的诱惑呢?很难。你能做到,大厂也不信,因为他们自己就在不合规的蒸馏别人模型。即便数据本身保护住了,数据knowhow也无可避免的会传播出去。ScaleAI能在一个壁垒不够高的赛道,做到第二名的5x规模,核心原因是大家想找它学习OpenAI的经验。所以国内大厂一定会自己做,甚至meta都开始收购scaleai了。
以上三个原因导致了市场需求的萎缩,而优秀的数据标注公司是需要和大厂紧密合作才能不断打磨工艺的,这反过来导致市场没有优秀的供给。即便现在大厂想找外部公司做,也找不到合格的供应商。
所以中国目前没有ScaleAI,只剩下做低端自动驾驶/语音标注的公司以及供人头的服务商。
那么往后看,会有变化吗?
1. 蒸馏的比例会下降,留出human-data的空间。不夸张的讲国内post-train数据99%都是蒸馏的,几乎不能再提升了,这有两个问题:
一是合规,老美也不傻,这样的明牌抄袭可能随时被监管。
二是天花板,蒸馏只能follow别人,不能明显超过别人,拓展模型能力边界还是要蒸馏更高质量的人类专家。
2. 数据需求越来越难,大厂传统的自建模式会逐步萎缩。现在大模型高考数学都140了,普通人已经没法给大模型标数据了。目前模型需要的是物化生的竞赛题、金融/法律/医疗的专业数据,但不可能招聘几百个竞赛金牌选手、券商分析师、律师来做全职。但兼职是可以的,整个行业会像海外一样,从全职主导向兼职主导发展。当然大厂也可以转型兼职模式,字节已经在做了。
3. 数据安全的诉求不会有变化。三方服务商要么卖成品数据集,要么在大厂的平台上作业,可能不会让三方服务商独立完成数据任务。
总的来说,中国会有AI数据标注的市场,但受制于以上的种种原因,最多就能长出1/10的ScaleAI。(30亿美金也不小?)
最后,不确定的是human-data的需求到底有多少,延伸的三个问题供大家讨论:
1. 对智能的需求是无止境的,所以对数据的需求也是无止境的?
2. Scaling law下对数据的需求是指数增加的,对human data的需求也是指数增加的吗?
3. 数据需求方除了foundation model大厂,还有没有别人?垂直模型是否有价值和数据需求?
We’ll see
来源:皮皮鹏

微信扫一扫打赏
支付宝扫一扫打赏:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/20/xWo9wC6udfgHkiX.webp)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/20/kyublC4qeiWP8HX.png)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/20/iBdVx9reHE1Cjva.png)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/19/k8bJfunlCajh2cL.jpg)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/19/jJUtEHKFzpmZGwC.jpg)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/19/Pu2dpYDkWIBbvx9.png)
