Skip to content

2025 年末对 AI 的反思

Redis 之父 Salvatore Sanfilippo 对 2025 年末的 AI 现状进行了深刻剖析,其核心观点可以总结为以下五个方面:

  • 摆脱“随机鹦鹉”标签:到 2025 年,学界终于达成共识,承认 LLM 不仅仅是概率预测机器,而是对提示词含义及输出内容具有内部表征的系统。
  • 思维链(CoT)的本质:CoT 被视为一种“内部搜索”形式。通过在表征空间采样并结合强化学习(RL),模型能够通过改变自身状态,有目的地收敛至有用答案。
2. 演进动力:从“规模”到“强化学习”
Section titled “2. 演进动力:从“规模”到“强化学习””
  • 打破数据瓶颈:依靠“可验证奖励”的强化学习,AI 的提升不再仅仅受限于人类语料的数量。
  • 下一个大事件:通过在编程优化等具有明确奖励信号的领域不断演进,LLM 结合 RL 将成为 AI 发展的核心驱动力。
  • 怀疑论者的转化:由于投入产出比显著提升,即便最保守的程序员也开始接受 AI 辅助。
  • 协作模式分化:编程界已分化为将 AI 视为“对话式同事”和“独立编程代理”两大阵营。
  • 架构的多元性:虽然有人在寻找 Transformer 之外的替代方案(如世界模型),但作者认为现有的 LLM 作为“可微推理机器”,即便没有范式革命,也有可能实现 AGI。
  • ARC 测试的逆转:曾经被认为能难倒 LLM 的 ARC 推理测试,如今已被优化后的大模型攻克,这验证了现有架构的潜力。
  • 架构未变,认知在变:作者强调 LLM 的底层架构并未因 CoT 而改变,改变的是我们对其能力的认知。
  • 生存危机:未来 20 年,AI 领域最根本的挑战并非技术突破,而是如何避免人类灭绝

  • 关于“随机鹦鹉”论的终结:多年来,尽管功能性证据和科学暗示不断积累,某些 AI 研究人员仍坚称大语言模型(LLM)只是“随机鹦鹉”——即一种概率机器,认为它们:1. 对提示词(Prompt)的含义没有任何表征;2. 对自己将要说的话没有任何表征。到 2025 年,终于几乎所有人都不再这么说了。
  • 思维链(CoT)的本质:思维链现已成为提升 LLM 输出质量的基础手段。但 CoT 究竟是什么?为什么它能改善输出?我认为它包含两点:1. 模型表征中的采样(即一种内部搜索形式)。当与提示词主题相关的各类信息和概念进入上下文窗口后,模型能更好地做出回复。2. 强化学习的结合:如果将此与强化学习(RL)结合,模型还会学习如何逐个放置 Token(每个 Token 都会改变模型状态),以收敛至某种有用的回复。
  • 打破缩放定律(Scaling Laws)的局限:由于具备“可验证奖励”的强化学习的出现,认为 Scaling 受限于 Token 数量的观点已不再成立。虽然我们尚未迎来 AlphaGo“第 37 手”那样的惊艳时刻,但这在未来真的不可能吗?在某些任务中(例如优化程序的运行速度),理论上模型可以在清晰奖励信号的引导下,在极长的时间内持续进步。我相信,应用于 LLM 的强化学习改进将是 AI 领域的下一个大事件
  • 编程领域的变革:程序员对 AI 辅助编程的抵触情绪已显著降低。即便 LLM 仍会犯错,但其提供有用代码和提示的能力已提升至让大多数怀疑论者也开始使用的程度:现在对许多人来说,其投入产出比已达到可接受的水平。编程界目前仍分为两派:一派将 LLM 视为“同事”(例如,我所有的交互都是通过 Gemini、Claude 等 Web 界面完成的),另一派则将 LLM 视为独立的“编程代理(Agents)”。
  • 范式之争与 AGI:一些知名的 AI 科学家认为,发生在 Transformer 上的奇迹可以通过不同路径再次甚至更好地实现。他们开始组建团队和公司,研究 Transformer 的替代方案,或探索具有显式符号表征或世界模型的模型。但我认为,LLM 是在能够模拟离散推理步骤的空间上训练的可微机器,即使没有根本性的新范式出现,它们也有可能带我们走向通用人工智能(AGI)。AGI 很可能通过多种截然不同的架构独立实现。
  • 关于 CoT 改变本质的辩论:有人声称思维链从根本上改变了 LLM 的本质,并以此为借口,辩称他们过去认为 LLM 局限性很大而现在改变主意是因为 CoT 让 LLM 变成了不同的东西。他们在撒谎。这依然是同样的架构,依然以“预测下一个 Token”为目标,而思维链正是以这种方式逐个 Token 地创建出来的。
  • ARC 测试的转折:如今,ARC(抽象推理)测试看起来远不像最初想象的那样不可逾越。目前已有针对特定任务优化的小模型在 ARC-AGI-1 上表现尚可,而带有大量思维链的超大型 LLM 在 ARC-AGI-2 上取得了令人印象深刻的成绩——而根据许多人的说法,这种架构本不可能交付此类结果。在某种程度上,ARC 已从“反 LLM 测试”转变为“对 LLM 的验证”
  • 终极挑战:未来 20 年 AI 领域最根本的挑战是避免人类灭绝

原文: Reflections on AI at the end of 2025