苹果刚刚证明了AI“推理”模型根本不具备推理能力

@信号与噪声：苹果刚刚证明了像Claude、DeepSeek-R1和o3-mini这样的AI“推理”模型根本不具备推理能力。

它们只是在非常擅长记忆模式。

以下是苹果的10个发现：

1）AI看似详细的“思考过程”更像一种复杂的模式匹配，而非真正的逻辑推理。这种“思考”在压力下会失效，只是一种幻觉。

2）AI的失败不是因为“脑容量”不够。它们在远未达到token或思考长度上限时就已崩溃，这暴露了其核心能力的根本局限。

3）即使是最强的“会思考”的AI，在解谜问题稍微复杂一点后，正确率会突然从很高降到零，而不是逐渐变差。

4）面对难题，AI会先努力多想，但一旦问题难到某个临界点，它反而会“放弃”，思考的计算量不增反降。

5）存在三个性能区间：简单问题上，普通AI更高效；中等难度问题，“思考型”AI才显现优势；高难度下两者都会彻底失败。

6）在简单问题上，AI常常很早就找到了正确答案，但之后仍会继续探索错误的思路，造成“过度思考”和计算浪费。

7）AI的瓶颈在于执行而非规划。即使把解题步骤直接喂给它，它依然在同样的复杂度下失败，说明它连照着做都做不好。

8）AI的推理能力很不稳定。它可能解出需要上百步的难题，却搞不定一个仅需十几步但逻辑不同的谜题，这不像通用智能。

9）当前很多AI推理能力的测试（如数学题）是有问题的，因为AI可能在训练中见过答案或类似问题，导致其能力被高估。

10）AI的自我纠错能力非常有限。随着问题变难，它在一条路走错后，能再找到正确道路的可能性急剧下降。

“一甲顶三弩，三甲进地府”