Tag: 人工智能

AI手办图真好玩: 如何生成高质量AI手办图(内含提示词/Prompt)

最近 AI 手办图(Action Figure)特别火,尤其是 Google 推出的 Nano Banana 模型,网上已经能看到一大堆相关作品。相比之前流行的 Ghibli 风格,AI 生成的一致性和真实感提升很大。毕竟手办图是三维效果,看起来要比平面的卡通风格要真实好看得多。Ghibli(吉卜力)风格虽然在前阵子很火,但因为画面过于卡通和平面,看久了难免有点审美疲劳,容易显得千篇一律。 现在,不光是在 ChatGPT,PolloAI、Google AI Studio、PrintVerse,甚至 Grok 上,都能轻松生成类似的手办风格图片。只需要上传一张照片,再加上一点提示词就行。ChatGPT 免费版虽然一天只能上传三张照片,但它支持对已经生成的图继续修改,相当于“加提示词让 AI 做二次 PS”。 更有意思的是,这些 AI 生成的手办图几乎能做到以假乱真,甚至还能生成动态视频。想象一下,如果真能把照片或模型变成实体手办,那绝对是个有潜力的市场。比如在办公桌上摆个大美女手办,不光养眼,还能每天给点“情绪价值”,心情肯定愉快不少。 PolloAI这工具真强大,只需要一张图+提示词,就可以进行文生图、文生视频。 PS:AI生成的图质量参差不齐,有时候生成的图太难看太假了,得多试。 生成手办的提示词 仅供参考:当然还有一小技巧,你可以把你看到的好看的手办图扔给AI,问它提示词。 …

iPhone 17 Pro AI图? 以假乱真

每年九月,苹果的发布会总能吸引大家的目光。今年苹果推出了 iPhone 17,但不少人说是在“挤牙膏” ——亮点不多但价格依旧偏高。今年又出了一个大桔色(Cosmic Orange),真是艳得让人挪不开眼。我无意中看到一张图:背景有位大美女,前面一个人手捧着最新款的 iPhone 17 Pro。我本以为又是哪位有钱人用手机换美女倾心,结果后来听说那是 AI 合成图,这也太以假乱真了吧。 iPhone 17 系列 / 价格简介 以下是 iPhone 17 系列在英国 /部分地区的主要型号、参数和价格情况: iPhone 17 系列 / 价格简介(UK 起始价格,示例性摘要) 型号 主要特色 起始价格(UK) …

用Copilot AI来审核区块链钱包代码

我发现可以利用 AI 来审查代码安全性。比如我最近一直在用的一个支持 STEEM 和 Blurt 的钱包插件,突然不能用了。我平时都是从 GitHub 上 clone 源码,然后在本地通过 “Load Unpacked Extension” 的方式加载插件,这样比较安全,因为不用担心 Chrome 插件自动更新时被加入恶意代码,比如偷偷上传用户私钥。 这次插件失效的原因是 Chrome 已经不再支持 Manifest V2 的扩展。虽然之前还有一段时间可以手动加载 V2 插件,但估计只是过渡期。我于是从 GitHub 上下载了 Whale Vault …

为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec’s Paradox)

莫拉维克悖论是什么? 莫拉维克悖论(Moravec’s Paradox)是人工智能与机器人学中的一个重要观察结果。 一句话总结 “对于人类来说简单的事情,对机器却很难;而人类觉得复杂的事情,机器却往往很容易。” 悖论的由来 由 Hans Moravec、Rodney Brooks、Marvin Minsky 等人在 1980 年代提出 他们注意到:计算机能轻松完成逻辑推理,却难以感知与运动:让计算机进行高等数学、下棋、逻辑推理等任务相对容易;但让计算机像人类一样“感知世界”和“移动身体”——比如走路、抓取物体、识别人脸——却非常困难。 为什么会出现这种现象? 进化时间差 人类的感知与运动系统经过数亿年进化,极度复杂;抽象思维是最近几千年才发展出的新能力。感知与运动能力(比如视觉处理、走路、抓握)是人类在数亿年的进化中逐步发展出来的,极其高效而复杂。抽象逻辑和符号推理(比如数学、象棋)则是人类近几千年才发展出的“新技能”,反而对人类来说相对“费力”。 神经资源分配不同 大脑的大部分区域用于处理感知与运动,只有小部分用于逻辑与推理:大脑皮层中,有大量区域用于视觉、听觉、运动控制等感知与行动;相比之下,用于抽象思维的区域相对较小。 我们低估了“本能”的复杂性 比如走路、看东西、抓杯子——这些能力虽然自动完成,但对机器来说极其复杂:因为感知与行动是无意识自动完成的(比如:走路时你不需要思考每一步如何移动),人类通常低估了这些任务的复杂性。 经典对比案例 任务 人类 机器 玩象棋 难 容易(如 …

苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”

近日,苹果机器学习研究团队发布了一项引人关注的研究,指出当前所谓的大型推理模型(LRM,如 OpenAI、Anthropic、Google 等推出的模型)在面对难度不断提升的逻辑类问题时,会出现准确率骤降至 0、推理努力减少的现象,表明这些模型并没有真正具备稳定的“思考”能力。 研究背景与核心发现 实验设计:复杂性可控的逻辑谜题 研究团队采用了像 河流过渡 和 汉诺塔(Tower of Hanoi) 等经典谜题,通过可控手段系统增加问题复杂度,同时观察模型的“思考过程”和最终结果,避免传统数学或编程基准可能的数据泄露问题。 苹果机器学习团队最新发布研究,指出当前大型推理模型(LRM)在面对高复杂度逻辑题时,准确率骤降至零,且推理过程中的计算量急剧下降,表现出“放弃思考”的现象。 研究用经典谜题如河流过渡和汉诺塔,通过逐步增加难度控制变量,观察模型的表现和推理行为,规避了训练数据泄露的影响。 结果显示,低复杂度时普通大语言模型LLM表现更好,中等难度下推理模型依赖“链式思考”提升表现,但高复杂度下所有模型准确率急剧崩溃。 模型推理能力的“崩溃”与“偷懒” 在复杂度临界点,模型的有效 token 使用量明显下降,表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时,这些模型伴随着有效 tokens 使用量骤降(即前几步还在思考,後面却“偷懒”了),表现出类似“放弃继续解题”的行为 。 即使研究者直接给出解题算法,模型仍无法有效利用,说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法,研究者在汉诺塔问题中提供了解题算法,但这些模型依然无法提升准确率,表明它们并不能用“听懂并执行算法”的思维方式,而是纯粹靠训练数据中的“模式匹配” 。 研究实验示意表 复杂度等级 模型类型 表现趋势 …

借助AI快速开源了N个小工具: 写代码越来越像做产品了, AI 真把我宠坏了(Vibe Coding)

程序员的未来?Vibe Coding + AI 一起上! 借助 AI 快速开源了三个小工具 最近,我利用 ChatGPT-4o 和 o4-mini 快速开发并开源了几个小工具。起因其实很简单——每次想转换 YAML/JSON 或进行 Base64 编码时,我总是得去 Google 搜索在线工具。时间一久,我不禁开始思考:既然每次都要用,为什么不自己动手实现一个呢?正好我也在学习 React,把这个过程当作练习岂不是一举两得? 于是我开始“扮演”产品经理,向 ChatGPT 提出需求,它很快就为我搭建好了基础框架。包括项目结构、CI 工具(单元测试、ESLint——后来我换成了 Prettier)、README 文档,甚至是 GitHub Actions 上的自动化测试和部署流程,全部一气呵成。 …

字节豆包AI还是比较懂男性: 可能和抖音数据有关?

今天在一个群里看到四张由字节的豆包(Doubao AI)生成的美女图,着实震撼。现在的AI技术已经发展到这种程度了吗? 刚开始我还以为是真人照片,直到注意到右下角写着“豆包AI”。不得不说,字节的这波操作真是让不少男性同胞“受益”匪浅(字节豆包模型训练数据很可能有来自其抖音和Tiktok平台,所以更懂男性)。AI的进化速度之快令人惊叹,各大模型之间也越来越“内卷”。很多行业都在被AI渗透:程序员、设计师、律师、医生……并不是说这些岗位会因此消失,但竞争会更加激烈,岗位需求可能也会减少。尤其是对那些懂得使用AI工具的高级从业者来说,卷得只会更厉害。 这四张图完全击中了我的审美:美女站在镜子前自拍,高跟鞋、短裙、长发、身材丰满,每一处细节都恰到好处,而且看起来毫无“AI感”。 注意美女脚上的青筋,还有手机闪光,阴影等,细节很细致。 其实我已经很久没有关注AI生成美女图了,之前总觉得那些图风格千篇一律,容易审美疲劳,也可能是提示词的问题。 这种效果可能在ChatGPT、Grok、Midjourney等平台上未必能生成,毕竟这种尺度对某些AI来说可能有些“越界”,系统可能直接提示:“不符合规定,无法生成”。 吉卜力风格/Ghibli 把上面这四张的高挑美女图,让ChatGPT来生成吉卜力风格的照片,尽可能保留细节:只需一张图, AI就能拍大片: Pollo引爆短视频创作革命 最后这一张生成的有点胖(丰满)了,因为ChatGPT生成的内容也会有点随机,当然你可以让它改,直接和它说需求即可。ChatGPT相当于一个设计师/PS大师,你是甲方,你只需要和它说需求即可。 让它改了“有点胖了,改瘦一点,大长腿一点”,不过感觉还是上面第一版本比较好,丰满一些好看一下。 本文一共 683 个汉字, 你数一下对不对. 字节豆包AI还是比较懂男性: 可能和抖音数据有关?. (AMP 移动加速版本) 赞赏我的几个理由. ¥ 打赏支持 扫描二维码,分享本文到微信朋友圈