Skip to content

Blog

ChatGPT 的记忆功能:重温《惨痛的教训》

本文作者通过直接向 ChatGPT 提问的方式,对其记忆系统进行了逆向工程,揭示了其工作原理和内部结构。

ChatGPT 的记忆系统主要由四个部分组成,每次交互时都会被提供给模型:

  1. 交互元数据 (Interaction Metadata):

    • 包含用户的设备信息(屏幕尺寸、浏览器/操作系统)、使用模式(话题偏好、消息长度、活跃度)等。
    • 模型可利用这些数据隐式地推断用户环境(如自动识别用户使用 iPhone),从而提供更具针对性的回答。
  2. 近期对话内容 (Recent Conversation Content):

    • 包含最近几十次对话的用户消息摘要(不含 AI 的回复)。
    • 这有助于在不同对话间建立联系,让模型更好地理解上下文,例如在用户连续多个对话都讨论日本旅行后,能推断出“那里”指的是日本。
  3. 模型设定上下文 (Model Set Context):

    • 用户明确告知并可以随时在设置中查看和删除的事实,例如“我对贝类过敏”。
    • 这是用户完全可控的、最高优先级的“事实来源”,可以覆盖其他记忆模块中的信息。
  4. 用户知识记忆 (User Knowledge Memories):

    • 这是最新、最核心的部分。它是 OpenAI 定期从用户的海量对话历史中生成的、高度浓缩的 AI 摘要
    • 这些记忆对用户不可见、不可直接编辑,包含了关于用户职业、兴趣、项目、技术栈、品牌偏好等极其详细的细节。
    • 虽然信息密度极高,但可能包含过时或不准确的内容(例如用户曾计划但未成行的旅行)。
核心工作原理:“惨痛的教训” (The Bitter Lesson)
Section titled “核心工作原理:“惨痛的教训” (The Bitter Lesson)”

文章指出,ChatGPT 的记忆系统并未使用复杂的检索增强生成(RAG)、向量数据库等技术来筛选相关记忆。

相反,它采取了一种“简单粗暴”但有效的方式:每次交互都将上述所有四类记忆信息全部塞入模型的上下文窗口

这体现了 OpenAI 的核心赌注:

  1. 模型足够智能: 相信强大的模型能自行在海量上下文中分辨和利用相关信息,忽略无关信息。
  2. 算力和上下文窗口将越来越便宜: 随着技术发展,将所有信息打包发送的成本会变得微不足道。

这再次印证了强化学习之父 Rich Sutton 在 2019 年写的 《惨痛的教训(The Bitter Lesson)》——与其构建复杂的工程解决方案,不如将资源投入到提升模型本身的能力和算力上。

ChatGPT 的记忆功能类似 LLM 的训练过程:“用户知识记忆”如同一个庞大但更新缓慢的基础模型,而其他三部分则像是用于实时调整和修正的引导层(类似于 RLHF 和上下文学习)。

  1. 用户知识记忆: 像预训练模型,浓缩了长期信息但会过时。
  2. 模型设定上下文: 相当于用户的 RLHF,具有最高优先级。
  3. 近期对话内容: 类似于即时的 in-context 学习。
  4. 交互元数据: 则像系统默认参数,提供环境信号。

未来的挑战不仅在于技术(如更频繁地更新“用户知识记忆”),更在于产品层面:如何处理过时信息、如何验证事实,以及 AI 为用户建立详细档案所带来的隐私和伦理问题。

苏格拉底日记法

苏格拉底日记法重在持续实践,而非追求完美。它通过提问、回答和追踪,帮助你暂停、反思并真诚地面对自己。

苏格拉底日记法 (The Socratic Journal Method) 是一种以自问自答形式进行的日记方法。其核心灵感源自苏格拉底“未经审视的人生不值得过”的哲学理念,将写日记转变为一场与自己的对话访谈,而非单向的独白或记录。该方法通过精心设计的问题引导思考,旨在通过提问和自由书写来实现自我探索、情感释放和思维梳理。

该方法的有效性基于心理学依据习惯科学,成功解决了传统日记难以坚持的问题:

  1. 科学背书:心理学家James Pennebaker的研究表明,表达性书写能降低压力、改善情绪甚至增强免疫力。Carol Dweck的元认知(思考你的思考)理论也与之高度契合。
  2. 降低启动门槛:行为科学家BJ Fogg的“微习惯”原理在此应用——只需回答一个问题即可完成一次日记,无需长篇大论,使得习惯更容易坚持。
  3. 解决传统痛点:它完美解决了“不知写什么”、“感觉像任务”、“难以持续”等传统日记的常见困境,将压力源(空白页)转变为引导工具(问题)。
  4. 自我认知疗法:如同治疗师使用的苏格拉底式提问,该方法能帮助自己挑战和重构非理性信念,发现思维模式。
  1. 核心两阶段节奏

    • 预先深思:设计反映个人真实关切的核心问题(例如:“今天什么感觉轻松?什么感觉沉重?”)。
    • 自由书写:回答时摒弃编辑和评判,让想法自然流出,注重诚实而非长度。
  2. 工具选择(按需选择)

    • 纸笔:适合深度反思,无干扰,但不易搜索。
    • 数字应用(如Obsidian, Notion, 简单的文本文件):高效、可搜索、易组织。
    • 音频/视频:适合通勤或手忙时,口述速度快。
    • 关键:工具不重要,持续使用最重要,可混合使用。
  3. 五分钟入门指南

    • 问一个诚实的问题(例:现在占据我思绪的一件事是什么?)。
    • 诚实回答:不编辑,不评判,一句亦可。
    • 记录一件追踪的事:如睡眠、情绪,仅作记录。
    • 保持轻松好奇:这是与未来自己的对话,不是绩效评估。用“好奇”取代“批评”(例如:从“为什么我失败了?”变为“今天的障碍是什么?”)。
  4. 重要提醒

    • 问题是动态的,需随生活焦点变化而调整。
    • 务必保持对话而非审问的心态。如果感到 dread(恐惧)、纠结于指标或用日记惩罚自己,意味着需要调整问题的心态和角度。

为什么语言模型会产生幻觉

这篇文章探讨了语言模型产生“幻觉”(即自信地生成虚假信息)的根本原因及其解决方法。

语言模型产生幻觉的主要原因并非技术缺陷,而是其训练和评估方式存在问题。当前的标准评估体系类似于“应试教育”,只奖励“准确性”,从而激励模型在不确定时进行猜测,而不是承认“我不知道”。

  1. 错误的激励机制:在评估中,模型回答“我不知道”会得零分,而猜测则有一定概率答对。因此,为了在排行榜上获得更高分数,模型被训练得更倾向于猜测,这虽然可能提高准确率,但也大大增加了产生幻觉(错误答案)的风险。
  2. 预训练的本质:模型在预训练阶段通过预测下一个词来学习语言模式。对于语法、拼写等有规律可循的知识,模型能学得很好。但对于零散、低频的事实(如某人的生日),由于缺乏固定模式,模型只能进行概率上的猜测,这是幻觉的最初来源。

文章提出的核心解决方案是改革评估体系:

  • 改变评分规则:不能只看重准确率。应该更严厉地惩罚“自信的错误答案”,同时为模型承认不确定性(如回答“我不知道”)给予部分分数。
  • 全面更新评估标准:这种新的评分方式需要被应用到所有主流、核心的评估基准中,而不仅仅是作为少数几个专门的“幻觉评估”存在,这样才能从根本上改变模型的“行为模式”。
  • 幻觉并非不可避免,模型可以学会“保持谦逊”。
  • 解决幻觉问题不一定需要更大的模型,有时小模型更容易知道自己的知识边界。
  • 单纯追求100%的准确率无法根除幻觉,因为现实中很多问题本就无解。
  • 解决问题的关键在于改革所有核心评估指标,使其不再奖励猜测行为。

生成式 AI 的无聊未来

生成式 AI 服务的商业化很可能会走上一条与早期搜索引擎相似的道路:通过广告和赞助内容。作者认为,尽管人们目前使用大型语言模型(LLMs)来完成制定健身计划或生成食谱等任务,但由于尚未出现通向通用人工智能(AGI)的突破,这类服务的主要盈利方式将是将广告和推广产品巧妙地嵌入生成的回答中。