Bojie Li

Agent 的持续学习能力

2025年10月24日

真正的 Agent 必须具备高效的持续学习能力，即超越当前仅依赖稀疏奖励和上下文检索的“推理者”模式，转而高效地从丰富的**环境反馈（Observation）中学习世界模型（World Model）**并不断进化。

持续学习能力是“真正的 Agent”与“推理者（Reasoner）”的核心区别。它不仅仅是关于更大的模型，更是指 Agent 作为一个系统，能够在现实世界中长期交互、适应和进化的能力。

大世界假设（Large World Hypothesis）：文章认同 Richard Sutton 的观点，即现实世界是“大世界”，无论模型预训练的知识库多大，在面对具体的、非公开的场景（如公司特定规范、行业隐性知识、个人工作习惯）时，仍然必须不断学习。
当前方法的致命缺陷：Sutton 指出，当前的强化学习（RL）方法（如 PPO）样本效率极低，且致命地“只能从稀疏的 reward（奖励）中学习，无法从环境的直接反馈（observation）中学习”。

上下文学习（In-Context Learning）：这是目前的主要方式之一，但文章认为这是一个“误解”。Context 的本质更像是“检索”（RAG），而不是“总结”或“推理”。知识没有被提炼，Agent 只是在庞大的上下文中重复低效地扫描和检索原始信息，导致效率低下且容易出错。
Model-Free 强化学习：如上所述，这种方法无法利用环境给出的明确反馈（例如，客服说“我需要你的信用卡后四位”），Agent 不知道“怎么做才是对的”，只能通过海量尝试偶然成功，这在现实任务中是不可接受的。

技术层面：从 Model-Free 转向 Model-Based
- 未来的 Agent 需要进行双重学习：同时学习“Policy Learning”（选择行动）和“World Model Learning”（预测结果）。
- 这能让 Agent 像人类一样，从环境的直接反馈（Observation）中学习，而不仅仅是依赖稀疏的 Reward，从而形成“预测—行动—评价”的高效学习闭环。
三种协同机制：
1. 参数学习：通过更新 Policy 和 World Model，直接从环境反馈中学习，提升样本效率。
2. 上下文学习（改进版）：不再是简单堆积信息，而是要强制压缩（如使用 linear attention 或跨模态编码），迫使模型提炼出可推理的知识。
3. 外部化记忆：利用额外算力进行知识的总结和压缩，存入知识库，并将重复流程封装成可复用的工具。
架构层面：从 ReAct 循环转向事件驱动（Event-Driven），实现边听、边想、边说的实时交互。
模型层面：采用 Karpathy 提出的“认知内核（Cognitive Core）”概念，使用更小的模型（如 1B-3B）作为核心，小模型“记忆差”的特性会迫使它学习规律而非死记硬背，从而获得更好的泛化能力。

对环境反馈的利用：
- 人类：当被告知“需要信用卡信息”时，会立即记住这条规则，并应用到下一次。
- 当前 Agent：只能感知到“任务失败”（reward=0），但无法理解失败的原因来自客服的反馈，因此无法从环境中学习。
记忆与总结：
- 人类：精确记忆能力差，但这迫使人类必须“提取关键知识，用结构化方式总结和记忆”。（Karpathy 观点：记忆差是 Feature 不是 Bug）
- 当前 Agent：依赖 Long Context，倾向于“背诵”所有原始数据，而不是自动提炼和总结规律。
多样性来源：
- 人类：从外部环境的“噪声（Noise）”和“熵（Entropy）”中自然地获得多样性。
- 当前 Agent：目前需要人为地为其增加 Entropy（例如，每次提供不同的参考案例）来提高输出的多样性。