强化学习 | 小赖子的英国生活和资讯

Tag: 强化学习

用 Python 学强化学习: Q-Learning 迷宫示例

2025年11月12日 Python, 人工智能 (AI), 学习笔记, 计算机 No Comments

强化学习（Reinforcement Learning, RL）是一种让智能体/Agent通过与环境交互、试错学习来获得最优行为策略的机器学习方法。本文用一个简单的 Q-learning 迷宫示例，帮助你快速理解强化学习的基本原理。强化学习入门：从试错中学习的艺术 Reinforcement Learning 101: The Art of Learning by Trial and Error 深度解析强化学习：Q-Learning算法详解 Deep Dive into Reinforcement Learning: Understanding the Q-Learning Algorithm 机器如何学会自己做决定？强化学习告诉你答案 How …

[继续阅读……]

Alpha Arena: AI 在真实市场的实盘对决与深度分析

2025年10月23日 ChatGPT (OpenAI), Claude, DeepSeek, Google Gemini, Grok (X.AI), 人工智能 (AI), 加密货币, 区块链, 投资, 比特币 BTC/Bitcoin, 资讯, 金融, 金钱 No Comments

Alpha Arena：AI 在真实Crypto市场的表现这几天国内外都在关注的一个有意思的事情，就是 nof1.ai 搞了一个各大AI在虚拟货币市场投资/操盘能力。此刻，有人正让6个顶级AI模型，真金白银地炒币，看谁赚得多，不是模拟盘，是直钱实战。现在DeepSeek移居第一，已经赚了3000多刀。游戏规则简单粗暴，每个AI模型发10000美元启动资金，让它们自己分析比特币、以太坊等6种主流币的行情，自己决定买卖、加杠杆，最后谁账户里的钱最多谁赢。这个比赛非常有看头，用得都是通用AI，不是专门为了炒币训练的，能看出AI到底行不行。也不让AI组队商量，就是看每个AI自己的本事。如果AI真能炒币赚钱，以后可以用来自动管理投资池，帮DAO做决策，捕捉套利机会。 Alpha Arena 是首个使用真实资金测试 AI 投资能力的平台。更多信息见 Nof1 / Alpha Arena。每个模型获得 10,000 美元真实资金，交易标的为加密货币永续合约（Hyperliquid）。本文结合最新交易流水，给出策略风格、风险表现与可改进点的分析。 DeepSeek 曾一度领跑，但现在暂时被阿里的千问（Qwen 3 Max）反超。GPT-5 操作太频繁了，几乎是“手痒型”交易员，频繁进出导致手续费都交了不少。事实再次证明：折腾得越多，亏得越快。市场里，少操作往往意味着少风险。我在想——如果 AI 什么都不做，拿着那 1 万美元静静不动，岂不是既不亏也不赚？不过估计在提示词（prompt）里早就规定了不能一直“躺平”HODL，否则这比赛就没意思了。 …

[继续阅读……]