Tag: 机器学习
强化学习(Reinforcement Learning, RL)是一种让智能体/Agent通过与环境交互、试错学习来获得最优行为策略的机器学习方法。本文用一个简单的 Q-learning 迷宫示例,帮助你快速理解强化学习的基本原理。 强化学习入门:从试错中学习的艺术 Reinforcement Learning 101: The Art of Learning by Trial and Error 深度解析强化学习:Q-Learning算法详解 Deep Dive into Reinforcement Learning: Understanding the Q-Learning Algorithm 机器如何学会自己做决定?强化学习告诉你答案 How …
argmax:从未来推理现在 整个机器学习(最优化),背后的根本数学原理是下面这个公式: arg_max_{x∈X} F(x) 它的含义是:在所有可能的输入 x ∈ X 中,找出让目标函数 F(x) 最大的那个 x。这个公式返回的是最优解 x,而不是最大值本身。 这个公式代表【从未来推理出现在的最佳选择】,因为所有的x有哪些,实际上是没办法穷尽的,以及F有哪些,是未来才知道的。代表一种完全信息视角。 这个和“传统”的数学递推公式是反过来的,传统的递推公式是,利用过去的推理未来的,例如斐波那契额数列 ,假设的是F(n-1)和F(n-2)我们已经知道,我们就可以推理F(n)(这也是动态规划算法的核心)。这个是【利用过去的信息推理未来的】。 因此,机器学习/最优化,本质是预测未来。实际上,arg_max 公式,如果用编程语言来表达,非常好理解: 这个思维方式代表的是“从未来反推现在”:F(x) 是未来某种评估函数,我们假设它存在,并试图找到现在该做什么(x)才能让它最大。 def arg_max(X, F): best_x = None best_score = float('-inf') …
莫拉维克悖论是什么? 莫拉维克悖论(Moravec’s Paradox)是人工智能与机器人学中的一个重要观察结果。 一句话总结 “对于人类来说简单的事情,对机器却很难;而人类觉得复杂的事情,机器却往往很容易。” 悖论的由来 由 Hans Moravec、Rodney Brooks、Marvin Minsky 等人在 1980 年代提出 他们注意到:计算机能轻松完成逻辑推理,却难以感知与运动:让计算机进行高等数学、下棋、逻辑推理等任务相对容易;但让计算机像人类一样“感知世界”和“移动身体”——比如走路、抓取物体、识别人脸——却非常困难。 为什么会出现这种现象? 进化时间差 人类的感知与运动系统经过数亿年进化,极度复杂;抽象思维是最近几千年才发展出的新能力。感知与运动能力(比如视觉处理、走路、抓握)是人类在数亿年的进化中逐步发展出来的,极其高效而复杂。抽象逻辑和符号推理(比如数学、象棋)则是人类近几千年才发展出的“新技能”,反而对人类来说相对“费力”。 神经资源分配不同 大脑的大部分区域用于处理感知与运动,只有小部分用于逻辑与推理:大脑皮层中,有大量区域用于视觉、听觉、运动控制等感知与行动;相比之下,用于抽象思维的区域相对较小。 我们低估了“本能”的复杂性 比如走路、看东西、抓杯子——这些能力虽然自动完成,但对机器来说极其复杂:因为感知与行动是无意识自动完成的(比如:走路时你不需要思考每一步如何移动),人类通常低估了这些任务的复杂性。 经典对比案例 任务 人类 机器 玩象棋 难 容易(如 …
近日,苹果机器学习研究团队发布了一项引人关注的研究,指出当前所谓的大型推理模型(LRM,如 OpenAI、Anthropic、Google 等推出的模型)在面对难度不断提升的逻辑类问题时,会出现准确率骤降至 0、推理努力减少的现象,表明这些模型并没有真正具备稳定的“思考”能力。 研究背景与核心发现 实验设计:复杂性可控的逻辑谜题 研究团队采用了像 河流过渡 和 汉诺塔(Tower of Hanoi) 等经典谜题,通过可控手段系统增加问题复杂度,同时观察模型的“思考过程”和最终结果,避免传统数学或编程基准可能的数据泄露问题。 苹果机器学习团队最新发布研究,指出当前大型推理模型(LRM)在面对高复杂度逻辑题时,准确率骤降至零,且推理过程中的计算量急剧下降,表现出“放弃思考”的现象。 研究用经典谜题如河流过渡和汉诺塔,通过逐步增加难度控制变量,观察模型的表现和推理行为,规避了训练数据泄露的影响。 结果显示,低复杂度时普通大语言模型LLM表现更好,中等难度下推理模型依赖“链式思考”提升表现,但高复杂度下所有模型准确率急剧崩溃。 模型推理能力的“崩溃”与“偷懒” 在复杂度临界点,模型的有效 token 使用量明显下降,表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时,这些模型伴随着有效 tokens 使用量骤降(即前几步还在思考,後面却“偷懒”了),表现出类似“放弃继续解题”的行为 。 即使研究者直接给出解题算法,模型仍无法有效利用,说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法,研究者在汉诺塔问题中提供了解题算法,但这些模型依然无法提升准确率,表明它们并不能用“听懂并执行算法”的思维方式,而是纯粹靠训练数据中的“模式匹配” 。 研究实验示意表 复杂度等级 模型类型 表现趋势 …
2025年2月,Deepseek——一家来自中国杭州的人工智能实验室——开源了一个能够比肩ChatGPT的AI模型,而其训练成本远低于当前行业标准。这一突破引发了市场震动,尤其是对GPU需求的预期发生了剧烈变化。投资者一度认为,随着AI训练成本的下降,对高性能GPU的需求可能会减少,从而导致Nvidia的股价暴跌。然而,仅仅几周后,Nvidia的股价就强势反弹,重新回到高点。 这种市场反应看似矛盾,实则可以用Jevons悖论(Jevons Paradox)来解释。 什么是Jevons悖论? Jevons悖论由19世纪英国经济学家William Stanley Jevons提出,最早是针对煤炭消耗的观察:当蒸汽机技术进步提高了燃煤效率后,人们原以为煤炭消耗会减少,结果却适得其反——因为更高的效率让煤炭的使用成本下降,从而促进了更多行业和领域采用蒸汽机,最终煤炭消耗总量大幅增长。 同样的逻辑适用于AI和GPU市场: 训练成本下降 → AI更易普及 Deepseek的成功证明了AI训练可以以更低的成本完成,这意味着更多企业、创业公司甚至个人研究者可以负担得起大规模AI模型的训练和部署。 AI需求激增 → GPU需求扩大 低成本AI的普及不会减少GPU的需求,反而会催生更多的AI应用场景。例如,更多企业可能会投入人工智能/AI研发,个人开发者也可能利用更廉价的算力进行实验,从而推动GPU(计算机图形加速卡)需求增长。 推理需求大增 → 继续依赖高端GPU 除了模型训练,模型推理(Inference)仍然需要大量算力,尤其是面对全球范围内激增的AI应用需求,云计算平台、企业数据中心等仍然需要大量高端GPU支持高效推理。 Nvidia股价为何回升? 市场最初的恐慌源于对GPU需求减少的误判,但随着Deepseek的开源,人们很快意识到AI生态的整体扩张才是核心趋势: AI变得更便宜 → 更多公司加入AI赛道 → 算力需求总量上升 AI的推理需求飙升,尤其是企业级和消费级市场扩展 → …
视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 大型语言模型(LLMs)如 DeepSeek R1-8B 正在革新自然语言处理,使强大的 AI 驱动应用成为可能。然而,设置这些模型往往是一项艰巨的任务,需要复杂的配置。幸运的是,仅需两条简单的命令,您就可以使用 Ollama 在本地系统上轻松部署和运行 DeepSeek R1-8B——Ollama 是一个用于管理和运行开源 LLMs 的简化工具。 步骤 1:安装 Ollama …
几天前中午和同事一起吃饭,聊到了AI(人工智能),特别是过去两三年间非常火热的ChatGPT大语言模型。他提到,有一次他在火车站打算去机场,结果火车停运了,于是他用手机查询了一下Uber去机场的费用,大概是80英镑。碰巧旁边有一位女士也要去机场,他便询问能否拼车以平摊车费。神奇的是,那位女士也查了一下Uber的价格,结果她的报价是50英镑。 同事不明白为什么仅相隔几分钟,价格会有这么大的差异。我解释道,这可能是因为Uber知道你在微软工作,觉得你有支付能力。 其实一些公司早就有算法(甚至不用AI)来实施差别定价。如果判断你是老客户,可能认为你更有可能会下单,于是就提高价格。甚至公司还会根据用户所在地区显示不同的价格,因此有时使用VPN更换地区,可能会获得更便宜的报价。 随着AI技术的引入,AI对你的了解也在增加(如性别、年龄、兴趣爱好等),模型会预测你能接受的最高价格,从而为公司带来最大化利润。当然,最简单的避免入坑的方法就是多比价(货比三家)。 Uber打车在不同手机上显示不同的价格 一位同事最近在两部不同的手机上同时预订了 Uber 车,从同一个上车点到同一个下车点。他想提高在高峰时段搭车的几率。 在 Android 上,车费为 < 290.79 – 在 iPhone 上,车费为 342.47。这是怎么回事? 这不是故障,而是设计思维在起作用,由数据和用户洞察驱动: 用户行为:iPhone 用户通常被视为”高级客户” 数据显示他们更愿意支付更高的价格。 平台费用:Apple 对应用内购买收取高达 30% 的佣金,微妙地影响定价决策。 动态个性化:应用程序越来越多地使用基于用户行为和个人资料的动态定价。您选择的设备可能会影响您的收费。 真正的问题是: 个性化何时改善用户体验,何时开始让人觉得它是一种剥削? …