@阑夕:大模型在各种基准测试里刷题刷到满分的现象越来越普遍了,于是就有很多新的测试标准被搬出来,下面虽然未必完全科学,但整活绝对是一流的。
这个测试环境叫Prophet Arena(先知竞技场),应该是参考了市场预测平台PolyMarket,运行原理是把真实世界里还没有产生结果的事件当作「考题」,让大模型发挥自己的智能去预测走向,当真实结果出来后再来对比核查是否说对了,最后叠加多次测验的对错得出分数。
我罗列一下题目你们感受一下:
– 2025年美联储会有几次降息?
– 第98届奥斯卡最佳导演将是谁?
– 以太坊今年的涨幅能达到多少?
– 川普内阁里第一个离职的人会是谁?
– 美国职业棒球联盟的冠军将是哪支队伍?
嘛,感觉这很适合在未来对接到实时的金融市场里,让各家AI上阵对比操盘能力,公开它们的收益率,看看成色到底如何。
目前根据已经开盘的结果累计测算下来,GPT-5的预测准确度排在第一,没有Claude好像因为是后加进来的,样本量还不足,还需要一段时间之后才能进榜。

微信扫一扫打赏
支付宝扫一扫打赏:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/25/rRhZDwN8g7QczKF.jpg)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/25/rFfLvuJeUj8DgAz.jpg)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/25/nUyrFh6E5WTe2Ns.jpg)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/25/BDmz5XoZt71ibHG.png)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/25/LVb4HK3IdYZ2Nhj.webp)
:format(webp):quality(80)/https://img.bohaishibei.com/2025/08/25/sEhFkBXig4nMj29.webp)
