AI Data

大语言模型也会“降智”！

2025年10月15日

Junyuan Hong et al.

这篇论文通过一系列严格的实验，证明了一个令人担忧的结论：如果我们持续给大语言模型（LLM）投喂网络上的“垃圾文本”，它们真的会变笨、变坏，而且这种伤害很难逆转。

这就像我们人类刷多了“没营养”的短视频或“标题党”文章后，感觉自己注意力下降、思考能力变弱一样。研究人员发现，AI 也会遭遇同样的“降智”（Brain Rot）问题。

以下是这篇论文的核心发现：

研究人员提出了一个 “大语言模型降智假说”（LLM Brain Rot Hypothesis）：持续接触和学习那些琐碎、缺乏挑战性的网络“垃圾内容”，会导致大语言模型出现持久的认知能力下降。

为了验证这个假说，研究团队设计了一个巧妙的对照实验。他们从真实的 Twitter/X 社交平台数据中，定义了两种类型的“垃圾数据”：

M1（流量型垃圾）：短小且流行 (Short & Popular)
- 垃圾数据： 那些非常短（比如少于30个词），但点赞、转发极高（比如超过500）的内容。这就像是网络热梗、病毒式传播的“废话”。
- 对照组（健康数据）： 那些很长（比如超过100个词），但没什么人看（点赞少于500）的内容。这好比是深入、有思考但曲高和寡的长文。
M2（内容型垃圾）：低劣语义 (Sensationalist)
- 垃圾数据： 内容本身很糟糕，比如耸人听闻的标题党、阴谋论、夸大其词的断言或肤浅的炫耀内容。
- 对照组（健康数据）： 认知要求高的内容，比如事实准确、分析深刻、有教育价值的文本。

他们让4个不同的大语言模型分别持续学习这些“垃圾数据”和“健康数据”，然后进行对比测试。

和“健康数据”对照组相比，学习了“垃圾数据”的模型出现了显著的全面衰退：

研究还发现，这不是一个“是或否”的问题，而是一个“程度”问题。他们尝试了不同比例的“垃圾”投喂（比如20%垃圾、50%垃圾、100%垃圾）。

结果显示：垃圾数据的比例越高，模型的认知能力就衰退得越厉害。例如，在M1（流量型垃圾）实验中，当垃圾比例从0%（完全健康）上升到100%时，模型的推理能力得分从74.9%暴跌到57.2%。

研究人员深入分析了AI的“思考过程”，找到了“降智”的主要病灶：思维跳跃（Thought-skipping）。

当你要求一个健康的模型“一步一步思考”来解决问题时，它会列出详细的推理链条。但“降智”后的模型变得“懒惰”了：

研究人员尝试了两种方法来“治愈”这些“降智”的模型：

方法一：反思（Reflection）
- 自我反思： 提醒模型“你答错了，再想想”。结果：失败了。模型已经笨到无法意识到自己的逻辑错误。
- 外部反思： 让一个更强（未被污染）的GPT-4o模型来指导它修改。结果：有帮助，但这是依靠“外力”。
方法二：数据排毒（Post-hoc Tuning）
- 研究人员试图通过“补课”来修复模型，即在“降智”后再给它喂食大量“健康数据”或“指令数据”。
- 结果：有改善，但无法完全恢复。即使“补课”的数据量是导致“降智”的垃圾数据量的近5倍，模型的能力仍然与基线水平存在巨大差距。

结论：“降智”效应是持久的（persistent）。它不是简单的格式错乱，而是模型内部的“表征漂移”——好比AI的“大脑结构”被永久性地改变了。

这篇论文给所有AI开发者敲响了警钟：数据质量是AI的“安全问题”，而不仅仅是性能问题。

如果我们放任大语言模型在充斥着“垃圾内容”的互联网上“野蛮生长”，它们不仅不会变得更聪明，反而会累积“认知伤害”，变得更笨、更危险，而且这种伤害一旦造成，就很难再被治愈。

2023年6月10日

模型的最终行为，完全由其训练数据集决定，而非模型架构、超参数或优化器。

模型是数据集的“高精度复刻品”：模型在训练中，不仅学习了数据集中的显性知识（如什么是猫），更学会了数据分布中极其细微、不易察觉的潜在统计规律（如人类的拍照偏好和用词习惯）。
不同架构殊途同归：只要使用相同的数据集并给予足够的训练，无论是哪种模型架构（扩散模型、ViT等），最终都会收敛到同一点，生成几乎一样的结果。
架构和技术只是“手段”：模型架构、超参数、优化器等所有技术选择，其本质作用只是作为一种工具或手段，来更高效地利用算力，帮助模型去“逼近”和“拟合”那个唯一的数据集。

当我们谈论 ChatGPT、Bard 或 Claude 等著名AI模型时，我们所指的本质并非它们的模型权重或技术架构，而是它们背后那个独一无二的数据集。模型的名字，实际上是其数据集的代号。