小赖子的英国生活和资讯

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”

阅读 桌面完整版

近日,苹果机器学习研究团队发布了一项引人关注的研究,指出当前所谓的大型推理模型(LRM,如 OpenAI、Anthropic、Google 等推出的模型)在面对难度不断提升的逻辑类问题时,会出现准确率骤降至 0、推理努力减少的现象,表明这些模型并没有真正具备稳定的“思考”能力。

研究背景与核心发现

实验设计:复杂性可控的逻辑谜题

研究团队采用了像 河流过渡 和 汉诺塔(Tower of Hanoi) 等经典谜题,通过可控手段系统增加问题复杂度,同时观察模型的“思考过程”和最终结果,避免传统数学或编程基准可能的数据泄露问题。

模型推理能力的“崩溃”与“偷懒”

  1. 在复杂度临界点,模型的有效 token 使用量明显下降,表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时,这些模型伴随着有效 tokens 使用量骤降(即前几步还在思考,後面却“偷懒”了),表现出类似“放弃继续解题”的行为 。
  2. 即使研究者直接给出解题算法,模型仍无法有效利用,说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法,研究者在汉诺塔问题中提供了解题算法,但这些模型依然无法提升准确率,表明它们并不能用“听懂并执行算法”的思维方式,而是纯粹靠训练数据中的“模式匹配” 。

研究实验示意表

复杂度等级 模型类型 表现趋势 备注
普通大语言模型 准确率较好 推理模型表现一般
推理模型(含链式思考) 准确率提升 链式思考开始有效
所有模型 准确率急剧下降至0 模型推理“崩溃”并“放弃”

专家观点与行业影响

苹果的AI发展战略解读

未来方向与思考

总结

相关引用示例代码(伪代码展示算法示意)

以下是汉诺依塔(Hanoi)的递归算法:

function solveTowerOfHanoi(n, from, to, via) {
  if (n == 0) return;
  solveTowerOfHanoi(n-1, from, via, to);
  moveDisk(from, to);
  solveTowerOfHanoi(n-1, via, to, from);
}

评论

缺乏物理世界的规律认知。

Meta的那个scientist一直说现在的LLM不能理解物理世界,所欲AGI肯定不是llm。

其实你想想ai的底层逻辑是建立在token上的就很反直觉。莫拉维克悖论。

when it scales.. 会出现 智能”涌现”的现像,就是一个黑箱。

脑科学,涌现。其实想想人脑真挺厉害的,而且人脑是那么一丁点大的基因表达出来的一个器官。每个正常成年人都可以精确控制自己的肢体动作,例如抓取杯子喝水啥的。但是机器人确需要精准的算法设计和大量训练,也许正确的道路是战锤里面的湿件,血肉苦弱,机械飞升。

lecun说的没问题 目前的llm就还是统计模型 物理世界数据太少了所以无法理解。

也有人质疑这个论文,说不是推理不出来,是token限制。数据太少了无法大量训练。它论文里有一块,说模型在不同puzzle中的表现不一致,可能跟训练数据中puzzle在网络上的曝光度有关。但实际上论文里没提供训练数据分析或者数据增强实验这种证据,只是单纯的假设了一下。我感觉有点不严谨。

脑科学和ai有很多内联。脑科学没有完全研究明白之前也可以从自上而下的角度来逼近。就像海马体的空间导航功能来启发类脑slam。虽然内部神经元的连接细节还不明确。人脑用很小的物理世界数据就能训练完成。

人脑带宽就10bit,但这是真推理,人脑做决策,计算量很小,但是每秒能处理很多大量的工作。我的脑子这么屌,为什么一个月才值 3000。

但是人脑有预训练权重啊。刚生下来的小孩就已经有很多牛逼的功能了。也对。是不是说明,训练需要几百万年,做推理的时候计算量很小,利好边缘AI部署。这个就是脉冲神经网络的一个应用方向。

人类有集体潜意识 是训练几百万年 通过遗传留下来的weight。

脉冲很稀疏,虽然也还只是特别粗糙的模拟,但是也有一些应用价值。

计算机就是靠易经发明的 所以得回到道教里面去找灵感怎么搞AI。

参考文献

新闻/实事/经济

人工智能 / Artificial Intelligence

强烈推荐

微信公众号: 小赖子的英国生活和资讯 JustYYUK

阅读 桌面完整版
Exit mobile version