站点图标 博海拾贝

当所有人都宣称自己是第一名的时候,定义“谁是第一”的权力,才是最值钱的生意

212.webp

@董指导挤出俩酒窝:一个页面简洁、像20年前BBS论坛的网站,
值17亿美金,你会愿意买吗?
但LMArena就成功了。

刚刚宣布完成了1.5亿美金融资,成为AI领域最新的独角兽,而且投资方还有a16z这种大佬。

你肯定知道,说淘金子不如卖铲子,
但LMArena既不是研发大模型来淘金,
也不造芯片卖铲子,
而是制定金子的“纯度标准”,给每个大模型打分、排名。

当所有人都宣称自己是第一名的时候,定义“谁是第一”的权力,才是最值钱的生意。

当然,最关键的要素是,公信力哪里来。

AI排名榜单也不是新鲜事儿了,之前就有。
但是,传统的测试集方法已经失效了。
因为很多模型为了跑高分,就专门去“背题库”,
用死记硬背冒充智商过人,也没有真实场景。
而 LMArena 就不一样了,它做的是“盲测竞技场”:

不让模型做题库,而是让模型之间,匿名打PK。最后,由真实用户来投票。

这种基于Elo埃洛积分系统的排名,
可以让评测结果更贴近真实用户交互体验,
也是目前公认最难造假的方式。

但你可能有疑问,就发个榜单,怎么赚钱呢?
投资人也不傻。LMArena的价值在于数据。
每次用户在竞技场里投票,都是在告诉机器:

“这才是人类喜欢的答案”。
这些海量的人类偏好数据,是目前训练大模型最稀缺的燃料!
大模型要进化,必须通过人类反馈强化学习来对齐。

所以,以前,LMArena 是大家的游乐场;
现在,成了大模型公司必须付费的“考官”和“数据供应商”。

退出移动版