Skip to content

Bojie Li

1 posts by Bojie Li

Agent 的持续学习能力

真正的 Agent 必须具备高效的持续学习能力,即超越当前仅依赖稀疏奖励上下文检索的“推理者”模式,转而高效地从丰富的**环境反馈(Observation)中学习世界模型(World Model)**并不断进化。

持续学习能力是“真正的 Agent”与“推理者(Reasoner)”的核心区别。它不仅仅是关于更大的模型,更是指 Agent 作为一个系统,能够在现实世界中长期交互、适应和进化的能力。

二. 为什么 Agent 需要持续学习?
Section titled “二. 为什么 Agent 需要持续学习?”
  • 大世界假设(Large World Hypothesis):文章认同 Richard Sutton 的观点,即现实世界是“大世界”,无论模型预训练的知识库多大,在面对具体的、非公开的场景(如公司特定规范、行业隐性知识、个人工作习惯)时,仍然必须不断学习。
  • 当前方法的致命缺陷:Sutton 指出,当前的强化学习(RL)方法(如 PPO)样本效率极低,且致命地“只能从稀疏的 reward(奖励)中学习,无法从环境的直接反馈(observation)中学习”。
  • 上下文学习(In-Context Learning):这是目前的主要方式之一,但文章认为这是一个“误解”。Context 的本质更像是“检索”(RAG),而不是“总结”或“推理”。知识没有被提炼,Agent 只是在庞大的上下文中重复低效地扫描和检索原始信息,导致效率低下且容易出错。
  • Model-Free 强化学习:如上所述,这种方法无法利用环境给出的明确反馈(例如,客服说“我需要你的信用卡后四位”),Agent 不知道“怎么做才是对的”,只能通过海量尝试偶然成功,这在现实任务中是不可接受的。
四. Agent 未来如何更好的持续学习?
Section titled “四. Agent 未来如何更好的持续学习?”
  • 技术层面:从 Model-Free 转向 Model-Based
    • 未来的 Agent 需要进行双重学习:同时学习“Policy Learning”(选择行动)和“World Model Learning”(预测结果)。
    • 这能让 Agent 像人类一样,从环境的直接反馈(Observation)中学习,而不仅仅是依赖稀疏的 Reward,从而形成“预测—行动—评价”的高效学习闭环。
  • 三种协同机制
    1. 参数学习:通过更新 Policy 和 World Model,直接从环境反馈中学习,提升样本效率。
    2. 上下文学习(改进版):不再是简单堆积信息,而是要强制压缩(如使用 linear attention 或跨模态编码),迫使模型提炼出可推理的知识。
    3. 外部化记忆:利用额外算力进行知识的总结和压缩,存入知识库,并将重复流程封装成可复用的工具。
  • 架构层面:从 ReAct 循环转向事件驱动(Event-Driven),实现边听、边想、边说的实时交互。
  • 模型层面:采用 Karpathy 提出的“认知内核(Cognitive Core)”概念,使用更小的模型(如 1B-3B)作为核心,小模型“记忆差”的特性会迫使它学习规律而非死记硬背,从而获得更好的泛化能力。
五. Agent 与人类持续学习的区别?
Section titled “五. Agent 与人类持续学习的区别?”
  • 对环境反馈的利用
    • 人类:当被告知“需要信用卡信息”时,会立即记住这条规则,并应用到下一次。
    • 当前 Agent:只能感知到“任务失败”(reward=0),但无法理解失败的原因来自客服的反馈,因此无法从环境中学习。
  • 记忆与总结
    • 人类:精确记忆能力差,但这迫使人类必须“提取关键知识,用结构化方式总结和记忆”。(Karpathy 观点:记忆差是 Feature 不是 Bug)
    • 当前 Agent:依赖 Long Context,倾向于“背诵”所有原始数据,而不是自动提炼和总结规律。
  • 多样性来源
    • 人类:从外部环境的“噪声(Noise)”和“熵(Entropy)”中自然地获得多样性。
    • 当前 Agent:目前需要人为地为其增加 Entropy(例如,每次提供不同的参考案例)来提高输出的多样性。