Skip to content

AI Agent

3 篇带有「AI Agent」标签的文章

OpenClaw:爆红全网的 AI 智能体

Lex Fridman 是麻省理工学院 AI 研究员,以主持同名播客著称,累计采访了 Elon Musk、Sam Altman、Mark Zuckerberg 等数百位科技、科学与哲学领域顶尖人物,节目拥有近 500 万订阅者,是全球最具影响力的 AI 与科技类播客之一。

Peter Steinberger 是奥地利裔连续创业者,2011 年创立 PDF 技术公司 PSPDFKit(后更名 Nutrient,产品装机量逾 10 亿台),出售公司后"退休"三年,2025 年重出江湖,仅用一小时原型便孵化出 OpenClaw —— GitHub 史上增长最快的开源项目,随后加入 OpenAI 推动下一代个人 AI 智能体。

我对它不存在感到恼火,于是就把它 prompt 进了现实。—— Peter Steinberger 论 OpenClaw 的诞生动机

Agent 设计依然困难

Armin Ronacher 是著名的开源软件工程师,Flask Web 框架、Jinja2 模板引擎及 Click 命令行工具的创造者,其作品定义了现代 Python 开发的简洁范式,并对全球开源生态产生了深远影响。

Agent 设计的本质并非简单的循环,而是对模型差异、显式缓存控制与强化信息的极致平衡,在这个领域,过于通用的 SDK 往往是灵活性的枷锁。

Agent design is still hard

AI Agent 的十年之路

Andrej Karpathy 认为实现功能完善的 AI Agent (智能体) 还需十年的时间,他反对业界“2025 年就是 Agent 之年”的过度乐观,认为目前的 Agent 还像“聪明的实习生”,距离真正能独立完成复杂任务的 Agent 差距很大。

现状与问题: 目前的 Agent 缺乏有效的记忆机制。Karpathy 将 LLM 的权重比作“模糊的记忆”,而将 KV 缓存(上下文窗口)比作“工作记忆”。问题在于,模型缺乏一个类似人类的“记忆蒸馏”机制(如睡眠中巩固记忆),无法将工作记忆中的经验分析、反思,并整合回权重中。

十年方向: 未来十年需发展持续记忆与个体化权重系统,如外部记忆系统、稀疏注意力机制、LoRA 微调的个体模型,使 Agent 形成真正的长期认知与个性。


现状与问题: Agent 在操作计算机(如键盘、鼠标、网页)时表现笨拙,无法像人类一样灵活交互。

早期 OpenAI 的 Universe 项目尝试让智能体通过鼠标键盘操作网页,但失败了,因为强化学习在稀疏奖励环境下几乎无法学习。Karpathy 认为,当时的智能体“太早了”,缺乏强表征能力(representation power),无法理解屏幕内容或执行目标导向操作。

十年方向: 必须先建立强大的语言模型和世界表征,再叠加具身操作系统。未来的计算机 Agent 将基于 LLM 表征层,在此之上发展出行动接口与工具使用能力


现状与问题: Karpathy 明确指出当前模型存在严重的“认知缺陷”(cognitive deficits)。

  • 无法理解代码或情境背后的结构逻辑。
  • 过度依赖互联网上的“默认模式”,无法适应非标准风格。
  • 不能自我反思或形成一致的世界模型。

十年方向: 下一阶段需要发展“认知内核(cognitive core)”——一种去除多余知识、保留推理与策略机制的智能体核心。即“少记忆的更聪明大脑”,以实现真正的通用认知。


现状与问题: Karpathy 认为目前 LLM 的学习是静态的、离线的,无法像人一样在使用中不断学习。它们缺少一个将日常经验(上下文窗口)“蒸馏”回永久权重(类似睡眠)的过程。

人类的“清醒期—睡眠期”循环对应的是上下文积累与长期整合,而模型只有“清醒”没有“睡眠”。

十年方向: 持续学习需引入多层次更新机制

  1. 临时上下文学习(短期记忆);
  2. 外部记忆回写(长期知识);
  3. 周期性再训练(系统性蒸馏)。

Karpathy 预测这类机制将在未来十年逐步形成。


现状与问题: Karpathy 在构建代码项目时指出,当前编码 Agent “不理解你的代码库、不理解上下文、不理解你的风格”。

它们擅长样板代码(boilerplate),但在结构复杂、非模板化项目中容易出错、风格不一致、误用 API、代码臃肿。

十年方向: 代码 Agent 将经历从“自动补全”到“自主工程师”的演化,需引入项目级理解、代码图谱建模与可验证执行环境,并可能通过 RLHF 与工具链联动逐步逼近“可靠协作者”。


现状与问题: Karpathy 直言:“强化学习是糟糕的(RL is terrible),只是比之前的模仿学习略好”。

  • 他认为人类的智力任务并不使用 RL。RL 的问题在于,它“通过吸管吸取监督信号”:模型在最后才得到一个单一的奖励信号(比如答案正确与否),并用这个信号去奖惩整个过程中的每一步,这种方式噪声极大且效率低下。
  • 人类在学习中会复盘和反思,而模型不会。
  • 使用 LLM 作为“过程监督”(奖励每一步)的裁判者也很困难,因为这些裁判者是“可以被利用的”。Agent 会很快找到对抗性样本(例如输出“dhdhdhdh”),欺骗裁判者给它满分。

十年方向: 研究应转向过程监督(process-based supervision)反思-评审式强化学习(reflect & review),让模型能在执行中自评与修正,而非盲目追求最终奖励。


现状与问题: 当前多模态系统能结合图像、文字,但仍停留在表层配对,缺乏统一的世界模型。Karpathy 将 LLM/VLM 视为“表征基础”,但指出多模态的真正挑战是如何让感知与推理共享一个认知核心。

十年方向: 未来需发展跨模态表征融合与共感知机制,让视觉、语言、行动共享语义空间,从而支持真实的具身智能与任务迁移。


8. 自动驾驶的启示:十年之路如何发展
Section titled “8. 自动驾驶的启示:十年之路如何发展”

Karpathy 将 AI Agent 的发展比作他在特斯拉领导自动驾驶的五年经历。 他深刻理解了“演示(demo)和产品(product)之间的巨大鸿沟”。例如,Waymo 在十年前(2014 年左右)就能提供完美的演示驾驶,但如今自动驾驶也远未完成,存在经济性、隐藏的“远程操作中心”(即人工介入)等问题。

真正困难的是“九的行军”(march of nines)。 从 90% 的成功率(演示)到 99%、99.9%、99.99%...(产品),每增加一个“九”都需要巨大的努力,因为现实世界的情况无比复杂,必须处理各种极端案例,增加系统的安全性、可靠性。

Karpathy 认为,对安全性的高要求(例如自动驾驶中的伤害风险)同样适用于“生产级软件工程”,因为代码中的一个错误(如安全漏洞)可能会导致“无限可怕”的后果。

因此,Agent 的发展不会一蹴而就,它将是一个缓慢的、迭代的 “九的行军” 过程,需要解决上述所有根本问题。