Tag: 强化学习

用 Python 学强化学习: Q-Learning 迷宫示例

强化学习(Reinforcement Learning, RL)是一种让智能体/Agent通过与环境交互、试错学习来获得最优行为策略的机器学习方法。本文用一个简单的 Q-learning 迷宫示例,帮助你快速理解强化学习的基本原理。 强化学习入门:从试错中学习的艺术 Reinforcement Learning 101: The Art of Learning by Trial and Error 深度解析强化学习:Q-Learning算法详解 Deep Dive into Reinforcement Learning: Understanding the Q-Learning Algorithm 机器如何学会自己做决定?强化学习告诉你答案 How …

Alpha Arena: AI 在真实市场的实盘对决与深度分析

Alpha Arena:AI 在真实Crypto市场的表现 这几天国内外都在关注的一个有意思的事情, 就是 nof1.ai 搞了一个各大AI在虚拟货币市场投资/操盘能力。此刻,有人正让6个顶级AI模型,真金白银地炒币,看谁赚得多,不是模拟盘,是直钱实战。现在DeepSeek移居第一,已经赚了3000多刀。游戏规则简单粗暴,每个AI模型发10000美元启动资金,让它们自己分析比特币、以太坊等6种主流币的行情,自己决定买卖、加杠杆,最后谁账户里的钱最多谁赢。这个比赛非常有看头,用得都是通用AI,不是专门为了炒币训练的,能看出AI到底行不行。也不让AI组队商量,就是看每个AI自己的本事。如果AI真能炒币赚钱,以后可以用来自动管理投资池,帮DAO做决策,捕捉套利机会。 Alpha Arena 是首个使用真实资金测试 AI 投资能力的平台。更多信息见 Nof1 / Alpha Arena。 每个模型获得 10,000 美元真实资金,交易标的为加密货币永续合约(Hyperliquid)。本文结合最新交易流水,给出策略风格、风险表现与可改进点的分析。 DeepSeek 曾一度领跑,但现在暂时被阿里的千问(Qwen 3 Max)反超。GPT-5 操作太频繁了,几乎是“手痒型”交易员,频繁进出导致手续费都交了不少。事实再次证明:折腾得越多,亏得越快。市场里,少操作往往意味着少风险。 我在想——如果 AI 什么都不做,拿着那 1 万美元静静不动,岂不是既不亏也不赚?不过估计在提示词(prompt)里早就规定了不能一直“躺平”HODL,否则这比赛就没意思了。 …