苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”

JustYY.com 小赖子的英国生活和资讯

1 year ago

近日，苹果机器学习研究团队发布了一项引人关注的研究，指出当前所谓的大型推理模型（LRM，如 OpenAI、Anthropic、Google 等推出的模型）在面对难度不断提升的逻辑类问题时，会出现准确率骤降至 0、推理努力减少的现象，表明这些模型并没有真正具备稳定的“思考”能力。

研究背景与核心发现

实验设计：复杂性可控的逻辑谜题

研究团队采用了像河流过渡和汉诺塔（Tower of Hanoi）等经典谜题，通过可控手段系统增加问题复杂度，同时观察模型的“思考过程”和最终结果，避免传统数学或编程基准可能的数据泄露问题。

苹果机器学习团队最新发布研究，指出当前大型推理模型（LRM）在面对高复杂度逻辑题时，准确率骤降至零，且推理过程中的计算量急剧下降，表现出“放弃思考”的现象。
研究用经典谜题如河流过渡和汉诺塔，通过逐步增加难度控制变量，观察模型的表现和推理行为，规避了训练数据泄露的影响。
结果显示，低复杂度时普通大语言模型LLM表现更好，中等难度下推理模型依赖“链式思考”提升表现，但高复杂度下所有模型准确率急剧崩溃。

模型推理能力的“崩溃”与“偷懒”

在复杂度临界点，模型的有效 token 使用量明显下降，表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时，这些模型伴随着有效 tokens 使用量骤降（即前几步还在思考，後面却“偷懒”了），表现出类似“放弃继续解题”的行为。
即使研究者直接给出解题算法，模型仍无法有效利用，说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法，研究者在汉诺塔问题中提供了解题算法，但这些模型依然无法提升准确率，表明它们并不能用“听懂并执行算法”的思维方式，而是纯粹靠训练数据中的“模式匹配” 。

研究实验示意表

复杂度等级	模型类型	表现趋势	备注
低	普通大语言模型	准确率较好	推理模型表现一般
中	推理模型（含链式思考）	准确率提升	链式思考开始有效
高	所有模型	准确率急剧下降至0	模型推理“崩溃”并“放弃”

专家观点与行业影响

Gary Marcus：该研究“毁灭性”，打破了大语言模型快速通向通用人工智能的幻想。
Andrew Rogoyski：当前推理模型已遇瓶颈，现有方法或进入“死胡同”。

苹果的AI发展战略解读

此次研究发布正值 WWDC 2025 前夕，体现苹果强调“设备端效率”和“实际应用价值”，反对盲目追求模型规模和复杂度。
苹果去年推出的“Apple Intelligence”基于 ChatGPT 技术，但表现平平，此次研究进一步证明稳扎稳打才是长远之计。

未来方向与思考

建立无数据泄露风险的逻辑谜题评测基准，避免传统 benchmark 偏差。评估基准的重塑：苹果强调使用无训练数据泄露、谁都无法“抄答案”的可控逻辑谜题来测试 AI，以避免传统 benchmark 的偏差。
引入符号逻辑和神经符号混合技术，突破纯统计学习的限制。融合思维范式：当前 LLM 的“链式思考”是统计学习，并不是真正的推理。未来可能引入符号逻辑、神经符号混合等技术路径。
结合专用推理子系统，提升模型对复杂算法的理解与执行能力。专用推理系统搭配神经网络：苹果研究者曾指出，搭配专门的数学/推理子系统能弥补大语言模型的机制性思维不足。

总结

链式思考并不等于真正的思考。当前推理模型在复杂问题面前容易“崩溃”和“放弃”。
未来AI发展需要超越纯数据驱动的模式匹配，向可解释、可操作的逻辑机制进化。
苹果此次研究为业界敲响警钟，也明确了其在AI道路上的稳健路线。

相关引用示例代码（伪代码展示算法示意）

以下是汉诺依塔（Hanoi）的递归算法：

function solveTowerOfHanoi(n, from, to, via) {
  if (n == 0) return;
  solveTowerOfHanoi(n-1, from, via, to);
  moveDisk(from, to);
  solveTowerOfHanoi(n-1, via, to, from);
}

缺乏物理世界的规律认知。

Meta的那个scientist一直说现在的LLM不能理解物理世界，所欲AGI肯定不是llm。

其实你想想ai的底层逻辑是建立在token上的就很反直觉。莫拉维克悖论。

when it scales.. 会出现智能”涌现”的现像，就是一个黑箱。

脑科学，涌现。其实想想人脑真挺厉害的，而且人脑是那么一丁点大的基因表达出来的一个器官。每个正常成年人都可以精确控制自己的肢体动作，例如抓取杯子喝水啥的。但是机器人确需要精准的算法设计和大量训练，也许正确的道路是战锤里面的湿件，血肉苦弱，机械飞升。

lecun说的没问题目前的llm就还是统计模型物理世界数据太少了所以无法理解。

也有人质疑这个论文，说不是推理不出来，是token限制。数据太少了无法大量训练。它论文里有一块，说模型在不同puzzle中的表现不一致，可能跟训练数据中puzzle在网络上的曝光度有关。但实际上论文里没提供训练数据分析或者数据增强实验这种证据，只是单纯的假设了一下。我感觉有点不严谨。

脑科学和ai有很多内联。脑科学没有完全研究明白之前也可以从自上而下的角度来逼近。就像海马体的空间导航功能来启发类脑slam。虽然内部神经元的连接细节还不明确。人脑用很小的物理世界数据就能训练完成。

人脑带宽就10bit，但这是真推理，人脑做决策，计算量很小，但是每秒能处理很多大量的工作。我的脑子这么屌，为什么一个月才值 3000。

但是人脑有预训练权重啊。刚生下来的小孩就已经有很多牛逼的功能了。也对。是不是说明，训练需要几百万年，做推理的时候计算量很小，利好边缘AI部署。这个就是脉冲神经网络的一个应用方向。

人类有集体潜意识是训练几百万年通过遗传留下来的weight。

脉冲很稀疏，虽然也还只是特别粗糙的模拟，但是也有一些应用价值。

计算机就是靠易经发明的所以得回到道教里面去找灵感怎么搞AI。

参考文献

苹果发表的文章：The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
‘The illusion of thinking’: Apple research finds AI models collapse and give up with hard puzzles

新闻/实事/经济

人工智能 / Artificial Intelligence

强烈推荐

英国代购-畅购英伦
TopCashBack 返现 (英国购物必备, 积少成多, 我2年来一共得了3000多英镑)
Quidco 返现 (也是很不错的英国返现网站, 返现率高)
注册就送10美元, 免费使用2个月的 DigitalOcean 云主机(性价比超高, 每月只需5美元)
注册就送10美元, 免费使用4个月的 Vultr 云主机(性价比超高, 每月只需2.5美元)
注册就送10美元, 免费使用2个月的阿里云主机(性价比超高, 每月只需4.5美元)
注册就送20美元, 免费使用4个月的 Linode 云主机(性价比超高, 每月只需5美元) (折扣码: PodCastInit2022)
PlusNet 英国光纤(超快, 超划算! 用户名 doctorlai)
刷了美国运通信用卡一年得到的积分换了 485英镑
注册就送50英镑 – 英国最便宜最划算的电气提供商
能把比特币莱特币变现的银行卡! 不需要手续费就可以把虚拟货币法币兑换

微信公众号: 小赖子的英国生活和资讯 JustYYUK

阅读 桌面完整版