Tag: 大语言模型

教娃编程 vLog: Harness Engineering – 指挥 AI 干活

这篇文章记录了一次教孩子用 VS Code AI Agent 修改 GitHub Pages 个人主页的经历。相比传统手写代码,AI 时代的编程教育更重要的是学会描述需求、指挥 Agent、理解 GitHub 工作流,并能审核 AI 生成的代码。文章借此引出 Harness Engineering 的概念:大模型是“大脑”,而围绕模型的工具调用、文件编辑、工作流和验证机制,才是真正让 AI 干活的 Harness。 去年弟弟学了一些 GitHub、Markdown 和 HTML,也在 GitHub 上搭了自己的个人主页。虽然页面已经能跑起来了,但整体看起来还是比较乱:有些排版不统一,有些内容结构不清楚,代码也有点像“想到哪里写到哪里”。 这次我就借这个机会,给弟弟演示了一下如何在 VS …

AI图: CCTV 5体育比赛直播美女图

AI加点 CCTV 就显得真实 AI 文生图技术越来越成熟,从早期略带“AI 味”的 Midjourney,到如今更逼真的 ChatGPT 图像生成和 Google Nano Banana,AI 图片已经越来越难以分辨真假。文章以 AI 生成的 CCTV 5 体育直播美女图为例,讨论了真实感、镜头语言和平台标识如何增强图片的可信度,也提醒人们未来在网上看到的图片未必都是真的。 自从人工智能、AI 大语言模型和文生图技术越来越成熟之后,每隔一段时间,就会有某种 AI 图片风格突然爆火。 我记得最早让我印象深刻的是 Midjourney。那时候生成出来的图片虽然已经很惊艳,但多少还是能看出一点“AI 味”。现在不一样了,无论是 ChatGPT 的图像生成,还是 Google 的 …

从电话亭到大语言模型: 古法编程的黄昏

电话亭里的 C++:一个旧时代的回声 当电话亭变成图书馆,当编程变成提示词 那些电话亭里的编程书,和即将远去的手写代码 从一英镑电话到 AI 编程:时代真的变了 古法编程:从 C++ 入门书说起 那天和家人散步,路过一个被改造成社区图书馆的英国电话亭,里面竟然放着 HTML 和 C++ 编程书。电话亭曾经承载着昂贵而珍贵的通信记忆,如今成了知识共享的小角落。而随着 AI 和大语言模型的发展,手写代码也许终将像电话亭和算盘一样,成为一个时代的回声。 古法编程: 村里有C++/HTML程序员 那天,我和家人一起散步,来回走了 5 公里。回村里的路上,我注意到一个废弃改造后的电话亭,里面放了很多书,其中竟然还有 HTML 和 C++ 的编程书。 这种路边的红色电话亭算是英国的一大特色,已经有二三十年的历史了。如今,随着手机、互联网和 5G 通信的发展,大部分电话亭早已停止使用。人与人之间的联系变得越来越方便,也越来越便宜。 …

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”

近日,苹果机器学习研究团队发布了一项引人关注的研究,指出当前所谓的大型推理模型(LRM,如 OpenAI、Anthropic、Google 等推出的模型)在面对难度不断提升的逻辑类问题时,会出现准确率骤降至 0、推理努力减少的现象,表明这些模型并没有真正具备稳定的“思考”能力。 研究背景与核心发现 实验设计:复杂性可控的逻辑谜题 研究团队采用了像 河流过渡 和 汉诺塔(Tower of Hanoi) 等经典谜题,通过可控手段系统增加问题复杂度,同时观察模型的“思考过程”和最终结果,避免传统数学或编程基准可能的数据泄露问题。 苹果机器学习团队最新发布研究,指出当前大型推理模型(LRM)在面对高复杂度逻辑题时,准确率骤降至零,且推理过程中的计算量急剧下降,表现出“放弃思考”的现象。 研究用经典谜题如河流过渡和汉诺塔,通过逐步增加难度控制变量,观察模型的表现和推理行为,规避了训练数据泄露的影响。 结果显示,低复杂度时普通大语言模型LLM表现更好,中等难度下推理模型依赖“链式思考”提升表现,但高复杂度下所有模型准确率急剧崩溃。 模型推理能力的“崩溃”与“偷懒” 在复杂度临界点,模型的有效 token 使用量明显下降,表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时,这些模型伴随着有效 tokens 使用量骤降(即前几步还在思考,後面却“偷懒”了),表现出类似“放弃继续解题”的行为 。 即使研究者直接给出解题算法,模型仍无法有效利用,说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法,研究者在汉诺塔问题中提供了解题算法,但这些模型依然无法提升准确率,表明它们并不能用“听懂并执行算法”的思维方式,而是纯粹靠训练数据中的“模式匹配” 。 研究实验示意表 复杂度等级 模型类型 表现趋势 …

Jevons悖论: Deepseek崛起为何最终推动Nvidia股价回升?

2025年2月,Deepseek——一家来自中国杭州的人工智能实验室——开源了一个能够比肩ChatGPT的AI模型,而其训练成本远低于当前行业标准。这一突破引发了市场震动,尤其是对GPU需求的预期发生了剧烈变化。投资者一度认为,随着AI训练成本的下降,对高性能GPU的需求可能会减少,从而导致Nvidia的股价暴跌。然而,仅仅几周后,Nvidia的股价就强势反弹,重新回到高点。 这种市场反应看似矛盾,实则可以用Jevons悖论(Jevons Paradox)来解释。 什么是Jevons悖论? Jevons悖论由19世纪英国经济学家William Stanley Jevons提出,最早是针对煤炭消耗的观察:当蒸汽机技术进步提高了燃煤效率后,人们原以为煤炭消耗会减少,结果却适得其反——因为更高的效率让煤炭的使用成本下降,从而促进了更多行业和领域采用蒸汽机,最终煤炭消耗总量大幅增长。 同样的逻辑适用于AI和GPU市场: 训练成本下降 → AI更易普及 Deepseek的成功证明了AI训练可以以更低的成本完成,这意味着更多企业、创业公司甚至个人研究者可以负担得起大规模AI模型的训练和部署。 AI需求激增 → GPU需求扩大 低成本AI的普及不会减少GPU的需求,反而会催生更多的AI应用场景。例如,更多企业可能会投入人工智能/AI研发,个人开发者也可能利用更廉价的算力进行实验,从而推动GPU(计算机图形加速卡)需求增长。 推理需求大增 → 继续依赖高端GPU 除了模型训练,模型推理(Inference)仍然需要大量算力,尤其是面对全球范围内激增的AI应用需求,云计算平台、企业数据中心等仍然需要大量高端GPU支持高效推理。 Nvidia股价为何回升? 市场最初的恐慌源于对GPU需求减少的误判,但随着Deepseek的开源,人们很快意识到AI生态的整体扩张才是核心趋势: AI变得更便宜 → 更多公司加入AI赛道 → 算力需求总量上升 AI的推理需求飙升,尤其是企业级和消费级市场扩展 → …

硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你

这几天微信视频号上刷到一个在美国美女UP主(程序媛)的视频,很搞笑,于是好奇的查了一下啥是硅谷娇妻。 听说,在硅谷,竞争激烈。华人之间比的是谁的Offer更高,谁的级别更高,谁的妻子更年轻(“娇妻”一词也常被提及)。而女性则比的是老公的职级、收入,甚至家庭的整体实力。这种内卷不仅体现在职场,还延伸到生活的方方面面。从学区房的选择到孩子的教育资源,再到投资理财,甚至是社交圈层,硅谷的华人圈总是充满着无形的较量。这种竞争有时让人充满动力,但有时也让人不堪重负,仿佛一刻松懈就会被时代的浪潮甩在身后。 “硅谷娇妻”是一个带有调侃或刻板印象的标签,通常指向在硅谷科技行业高薪人士(如程序员、高管等)的配偶或伴侣。 硅谷娇妻:让四个大语言模型AI来告诉你 我这次问了四大语言模型LLM(Large Language Model):包括 ChatGPT、Google Gemini、Anthropic Claude、还有Grok 3。感觉Claude AI生成的抽像图最好,让人眼睛一亮。我还试了DeepSeek,只不过它没法直接生成图。 我还听说,硅谷的竞争异常激烈,以至于男程序员们很难在当地找到对象。许多人选择在国内找媳妇,然后迅速结婚、办理签证,将妻子接到国外。婚后,男方往往希望女方尽快怀孕、生子,成为家庭主妇,否则可能面临被更优秀的男性“拐走”的风险。毕竟,在硅谷,女性的“溢价”更高,选择更多,这一点真假难辨,但确实是一个广为流传的现象。 与此同时,也有不少女性在硅谷站稳脚跟,依靠自身能力进入科技行业,甚至反向选择伴侣。相比国内的传统婚姻模式,硅谷的婚恋市场充满了变量,既有精打细算的现实考量,也有跨文化的碰撞和融合。 ChatGPT眼中的硅谷娇妻 Google Gemini眼中的硅谷娇妻 Grok 3眼中的硅谷娇妻 Elon Musk老马说Grok 3是最聪明/Smartest的AI: Claude眼中的硅谷娇妻 Anthropic Claude AI确实与众不同: DeepSeek眼中的硅谷娇妻 Deepseek无法像其它AI模型可以直接画图,这一点有待改进。 硅谷娇妻是怎么样的?画几张人像 …

教娃编程之: ChatGPT写了一个Python交互程序调用x.ai的Grok大语言模型

视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 马斯克的x.ai到年底有免费的25美元的credit可以使用Grok大语言模型 前不久(今年初),伊隆·马斯克/Elon Musk的X公司开源了Grok大语言模型,并且给免费提供了25美元的credit可以调用。可以在其官网x.ai注册一个帐号,申请API KEY即可,官网还贴心的的给出了调用的例子。 curl https://api.x.ai/v1/chat/completions -H "Content-Type: application/json" -H "Authorization: Bearer xai-......" -d '{ "messages": …