逻辑谜题 | 小赖子的英国生活和资讯

Tag: 逻辑谜题

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”

2025年6月9日人工智能 (AI), 新闻, 科技, 资讯 No Comments

近日，苹果机器学习研究团队发布了一项引人关注的研究，指出当前所谓的大型推理模型（LRM，如 OpenAI、Anthropic、Google 等推出的模型）在面对难度不断提升的逻辑类问题时，会出现准确率骤降至 0、推理努力减少的现象，表明这些模型并没有真正具备稳定的“思考”能力。研究背景与核心发现实验设计：复杂性可控的逻辑谜题研究团队采用了像河流过渡和汉诺塔（Tower of Hanoi）等经典谜题，通过可控手段系统增加问题复杂度，同时观察模型的“思考过程”和最终结果，避免传统数学或编程基准可能的数据泄露问题。苹果机器学习团队最新发布研究，指出当前大型推理模型（LRM）在面对高复杂度逻辑题时，准确率骤降至零，且推理过程中的计算量急剧下降，表现出“放弃思考”的现象。研究用经典谜题如河流过渡和汉诺塔，通过逐步增加难度控制变量，观察模型的表现和推理行为，规避了训练数据泄露的影响。结果显示，低复杂度时普通大语言模型LLM表现更好，中等难度下推理模型依赖“链式思考”提升表现，但高复杂度下所有模型准确率急剧崩溃。模型推理能力的“崩溃”与“偷懒” 在复杂度临界点，模型的有效 token 使用量明显下降，表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时，这些模型伴随着有效 tokens 使用量骤降（即前几步还在思考，後面却“偷懒”了），表现出类似“放弃继续解题”的行为。即使研究者直接给出解题算法，模型仍无法有效利用，说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法，研究者在汉诺塔问题中提供了解题算法，但这些模型依然无法提升准确率，表明它们并不能用“听懂并执行算法”的思维方式，而是纯粹靠训练数据中的“模式匹配” 。研究实验示意表复杂度等级模型类型表现趋势 …

[继续阅读……]