Tag: 大语言模型

教娃编程 vLog: Harness Engineering – 指挥 AI 干活

2026年5月30日 Harness Engineering, Prompt/提示词, 人工智能 (AI), 教娃, 教程, 教育, 程序员, 计算机, 计算机, 软件工程 No Comments

这篇文章记录了一次教孩子用 VS Code AI Agent 修改 GitHub Pages 个人主页的经历。相比传统手写代码，AI 时代的编程教育更重要的是学会描述需求、指挥 Agent、理解 GitHub 工作流，并能审核 AI 生成的代码。文章借此引出 Harness Engineering 的概念：大模型是“大脑”，而围绕模型的工具调用、文件编辑、工作流和验证机制，才是真正让 AI 干活的 Harness。去年弟弟学了一些 GitHub、Markdown 和 HTML，也在 GitHub 上搭了自己的个人主页。虽然页面已经能跑起来了，但整体看起来还是比较乱：有些排版不统一，有些内容结构不清楚，代码也有点像“想到哪里写到哪里”。这次我就借这个机会，给弟弟演示了一下如何在 VS …

[继续阅读……]

AI图: CCTV 5体育比赛直播美女图

2026年5月14日 AIGC-图片, Prompt/提示词, 人工智能 (AI), 人物, 女人 2 Comments

AI加点 CCTV 就显得真实 AI 文生图技术越来越成熟，从早期略带“AI 味”的 Midjourney，到如今更逼真的 ChatGPT 图像生成和 Google Nano Banana，AI 图片已经越来越难以分辨真假。文章以 AI 生成的 CCTV 5 体育直播美女图为例，讨论了真实感、镜头语言和平台标识如何增强图片的可信度，也提醒人们未来在网上看到的图片未必都是真的。自从人工智能、AI 大语言模型和文生图技术越来越成熟之后，每隔一段时间，就会有某种 AI 图片风格突然爆火。我记得最早让我印象深刻的是 Midjourney。那时候生成出来的图片虽然已经很惊艳，但多少还是能看出一点“AI 味”。现在不一样了，无论是 ChatGPT 的图像生成，还是 Google 的 …

[继续阅读……]

从电话亭到大语言模型: 古法编程的黄昏

2026年5月9日 C++, 人工智能 (AI), 程序员, 编程 No Comments

电话亭里的 C++：一个旧时代的回声当电话亭变成图书馆，当编程变成提示词那些电话亭里的编程书，和即将远去的手写代码从一英镑电话到 AI 编程：时代真的变了古法编程：从 C++ 入门书说起那天和家人散步，路过一个被改造成社区图书馆的英国电话亭，里面竟然放着 HTML 和 C++ 编程书。电话亭曾经承载着昂贵而珍贵的通信记忆，如今成了知识共享的小角落。而随着 AI 和大语言模型的发展，手写代码也许终将像电话亭和算盘一样，成为一个时代的回声。古法编程: 村里有C++/HTML程序员那天，我和家人一起散步，来回走了 5 公里。回村里的路上，我注意到一个废弃改造后的电话亭，里面放了很多书，其中竟然还有 HTML 和 C++ 的编程书。这种路边的红色电话亭算是英国的一大特色，已经有二三十年的历史了。如今，随着手机、互联网和 5G 通信的发展，大部分电话亭早已停止使用。人与人之间的联系变得越来越方便，也越来越便宜。 …

[继续阅读……]

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”

2025年6月9日人工智能 (AI), 新闻, 科技, 资讯 No Comments

近日，苹果机器学习研究团队发布了一项引人关注的研究，指出当前所谓的大型推理模型（LRM，如 OpenAI、Anthropic、Google 等推出的模型）在面对难度不断提升的逻辑类问题时，会出现准确率骤降至 0、推理努力减少的现象，表明这些模型并没有真正具备稳定的“思考”能力。研究背景与核心发现实验设计：复杂性可控的逻辑谜题研究团队采用了像河流过渡和汉诺塔（Tower of Hanoi）等经典谜题，通过可控手段系统增加问题复杂度，同时观察模型的“思考过程”和最终结果，避免传统数学或编程基准可能的数据泄露问题。苹果机器学习团队最新发布研究，指出当前大型推理模型（LRM）在面对高复杂度逻辑题时，准确率骤降至零，且推理过程中的计算量急剧下降，表现出“放弃思考”的现象。研究用经典谜题如河流过渡和汉诺塔，通过逐步增加难度控制变量，观察模型的表现和推理行为，规避了训练数据泄露的影响。结果显示，低复杂度时普通大语言模型LLM表现更好，中等难度下推理模型依赖“链式思考”提升表现，但高复杂度下所有模型准确率急剧崩溃。模型推理能力的“崩溃”与“偷懒” 在复杂度临界点，模型的有效 token 使用量明显下降，表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时，这些模型伴随着有效 tokens 使用量骤降（即前几步还在思考，後面却“偷懒”了），表现出类似“放弃继续解题”的行为。即使研究者直接给出解题算法，模型仍无法有效利用，说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法，研究者在汉诺塔问题中提供了解题算法，但这些模型依然无法提升准确率，表明它们并不能用“听懂并执行算法”的思维方式，而是纯粹靠训练数据中的“模式匹配” 。研究实验示意表复杂度等级模型类型表现趋势 …

[继续阅读……]

Jevons悖论: Deepseek崛起为何最终推动Nvidia股价回升?

2025年3月2日 DeepSeek, Nvidia 英伟达, 人工智能 (AI), 经济学, 逻辑测试 No Comments

2025年2月，Deepseek——一家来自中国杭州的人工智能实验室——开源了一个能够比肩ChatGPT的AI模型，而其训练成本远低于当前行业标准。这一突破引发了市场震动，尤其是对GPU需求的预期发生了剧烈变化。投资者一度认为，随着AI训练成本的下降，对高性能GPU的需求可能会减少，从而导致Nvidia的股价暴跌。然而，仅仅几周后，Nvidia的股价就强势反弹，重新回到高点。这种市场反应看似矛盾，实则可以用Jevons悖论（Jevons Paradox）来解释。什么是Jevons悖论？ Jevons悖论由19世纪英国经济学家William Stanley Jevons提出，最早是针对煤炭消耗的观察：当蒸汽机技术进步提高了燃煤效率后，人们原以为煤炭消耗会减少，结果却适得其反——因为更高的效率让煤炭的使用成本下降，从而促进了更多行业和领域采用蒸汽机，最终煤炭消耗总量大幅增长。同样的逻辑适用于AI和GPU市场：训练成本下降 → AI更易普及 Deepseek的成功证明了AI训练可以以更低的成本完成，这意味着更多企业、创业公司甚至个人研究者可以负担得起大规模AI模型的训练和部署。 AI需求激增 → GPU需求扩大低成本AI的普及不会减少GPU的需求，反而会催生更多的AI应用场景。例如，更多企业可能会投入人工智能/AI研发，个人开发者也可能利用更廉价的算力进行实验，从而推动GPU（计算机图形加速卡）需求增长。推理需求大增 → 继续依赖高端GPU 除了模型训练，模型推理（Inference）仍然需要大量算力，尤其是面对全球范围内激增的AI应用需求，云计算平台、企业数据中心等仍然需要大量高端GPU支持高效推理。 Nvidia股价为何回升？市场最初的恐慌源于对GPU需求减少的误判，但随着Deepseek的开源，人们很快意识到AI生态的整体扩张才是核心趋势： AI变得更便宜 → 更多公司加入AI赛道 → 算力需求总量上升 AI的推理需求飙升，尤其是企业级和消费级市场扩展 → …

[继续阅读……]

硅谷娇妻是怎么样的? 让四个大语言模型AI来告诉你

2025年2月24日 AIGC-图片, ChatGPT (OpenAI), Claude, DeepSeek, Google Gemini, Grok (X.AI), 人工智能 (AI) 2 Comments

这几天微信视频号上刷到一个在美国美女UP主（程序媛）的视频，很搞笑，于是好奇的查了一下啥是硅谷娇妻。听说，在硅谷，竞争激烈。华人之间比的是谁的Offer更高，谁的级别更高，谁的妻子更年轻（“娇妻”一词也常被提及）。而女性则比的是老公的职级、收入，甚至家庭的整体实力。这种内卷不仅体现在职场，还延伸到生活的方方面面。从学区房的选择到孩子的教育资源，再到投资理财，甚至是社交圈层，硅谷的华人圈总是充满着无形的较量。这种竞争有时让人充满动力，但有时也让人不堪重负，仿佛一刻松懈就会被时代的浪潮甩在身后。 “硅谷娇妻”是一个带有调侃或刻板印象的标签，通常指向在硅谷科技行业高薪人士（如程序员、高管等）的配偶或伴侣。硅谷娇妻：让四个大语言模型AI来告诉你我这次问了四大语言模型LLM（Large Language Model）：包括 ChatGPT、Google Gemini、Anthropic Claude、还有Grok 3。感觉Claude AI生成的抽像图最好，让人眼睛一亮。我还试了DeepSeek，只不过它没法直接生成图。我还听说，硅谷的竞争异常激烈，以至于男程序员们很难在当地找到对象。许多人选择在国内找媳妇，然后迅速结婚、办理签证，将妻子接到国外。婚后，男方往往希望女方尽快怀孕、生子，成为家庭主妇，否则可能面临被更优秀的男性“拐走”的风险。毕竟，在硅谷，女性的“溢价”更高，选择更多，这一点真假难辨，但确实是一个广为流传的现象。与此同时，也有不少女性在硅谷站稳脚跟，依靠自身能力进入科技行业，甚至反向选择伴侣。相比国内的传统婚姻模式，硅谷的婚恋市场充满了变量，既有精打细算的现实考量，也有跨文化的碰撞和融合。 ChatGPT眼中的硅谷娇妻 Google Gemini眼中的硅谷娇妻 Grok 3眼中的硅谷娇妻 Elon Musk老马说Grok 3是最聪明/Smartest的AI： Claude眼中的硅谷娇妻 Anthropic Claude AI确实与众不同： DeepSeek眼中的硅谷娇妻 Deepseek无法像其它AI模型可以直接画图，这一点有待改进。硅谷娇妻是怎么样的？画几张人像 …

[继续阅读……]

教娃编程之: ChatGPT写了一个Python交互程序调用x.ai的Grok大语言模型

2024年12月1日 ChatGPT (OpenAI), Grok (X.AI), Python, 人工智能 (AI), 折腾, 教娃, 教程, 教育, 程序员, 程序设计 1 Comment

视频：油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书马斯克的x.ai到年底有免费的25美元的credit可以使用Grok大语言模型前不久（今年初），伊隆·马斯克/Elon Musk的X公司开源了Grok大语言模型，并且给免费提供了25美元的credit可以调用。可以在其官网x.ai注册一个帐号，申请API KEY即可，官网还贴心的的给出了调用的例子。 curl https://api.x.ai/v1/chat/completions -H "Content-Type: application/json" -H "Authorization: Bearer xai-......" -d '{ "messages": …

[继续阅读……]