为什么语言模型会产生幻觉
这篇文章探讨了语言模型产生“幻觉”(即自信地生成虚假信息)的根本原因及其解决方法。
语言模型产生幻觉的主要原因并非技术缺陷,而是其训练和评估方式存在问题。当前的标准评估体系类似于“应试教育”,只奖励“准确性”,从而激励模型在不确定时进行猜测,而不是承认“我不知道”。
主要原因分析
Section titled “主要原因分析”- 错误的激励机制:在评估中,模型回答“我不知道”会得零分,而猜测则有一定概率答对。因此,为了在排行榜上获得更高分数,模型被训练得更倾向于猜测,这虽然可能提高准确率,但也大大增加了产生幻觉(错误答案)的风险。
- 预训练的本质:模型在预训练阶段通过预测下一个词来学习语言模式。对于语法、拼写等有规律可循的知识,模型能学得很好。但对于零散、低频的事实(如某人的生日),由于缺乏固定模式,模型只能进行概率上的猜测,这是幻觉的最初来源。
文章提出的核心解决方案是改革评估体系:
- 改变评分规则:不能只看重准确率。应该更严厉地惩罚“自信的错误答案”,同时为模型承认不确定性(如回答“我不知道”)给予部分分数。
- 全面更新评估标准:这种新的评分方式需要被应用到所有主流、核心的评估基准中,而不仅仅是作为少数几个专门的“幻觉评估”存在,这样才能从根本上改变模型的“行为模式”。
结论与澄清的误解
Section titled “结论与澄清的误解”- 幻觉并非不可避免,模型可以学会“保持谦逊”。
- 解决幻觉问题不一定需要更大的模型,有时小模型更容易知道自己的知识边界。
- 单纯追求100%的准确率无法根除幻觉,因为现实中很多问题本就无解。
- 解决问题的关键在于改革所有核心评估指标,使其不再奖励猜测行为。