Skip to content

Blog

孩子接受什么样的教育,才不会被 AI 取代?

具备持续学习、快速适应、坚韧成长、洞察人性、全球协作的能力,将是未来无法被 AI 取代的关键。

  1. 学习能力: 不仅是掌握知识,更是掌握学习的方法。培养批判性思维、问题解决能力与自主学习的习惯,使孩子能够在信息快速更迭的时代持续成长、不断进化。

  2. 适应能力: 面对快速变化的技术、行业与社会环境,能够灵活调整思维与行为。包括拥抱新技术、应对不确定性,以及在新环境中迅速找到定位的能力。

  3. 韧性: 具备从失败中恢复并持续前行的心理素质。不仅能承受压力和挑战,更能将挫折转化为成长的机会,长期保持积极的心态和动力。

  4. 理解人们的需求: 培养共情力与洞察力,真正理解他人问题与期望。这不仅是创造有价值产品与服务的基础,更是未来人机共存时代中,体现人类不可替代价值的关键。

  5. 与世界互动: 具备全球视野与跨文化沟通能力,能够有效与不同背景的人协作。同时,理解社会、技术与伦理之间的关系,积极参与构建负责任与可持续的未来。

AI 创业公司的机遇、优势和商业模式

根据 Box 创始人 Aaron Levie 的观点,当前 AI 浪潮为创业公司提供了一个历史性的窗口期。他认为,AI 真正的颠覆性在于它能解决传统软件无法处理的问题,尤其是围绕企业内部海量的“非结构化数据”,从而创造出全新的市场和商业模式。

  • 核心机遇:激活“非结构化数据”的价值。 企业中 80% 的数据(如合同、文档、邮件、演示文稿)是非结构化的,过去无法被自动化处理。AI 代理首次让计算机能够“读懂”和操作这些数据,企业可以将这些信息转化为可查询、可自动化的知识库,这是巨大的蓝海市场。
  • 寻找新的“名词和动词”。 传统的企业软件(如 CRM、HR 系统)市场已趋饱和。AI 创业公司的机会在于找到那些过去完全依赖人力、没有成熟软件解决方案的专业领域(如特定的法律工作、市场细分研究),并利用 AI 代理首次将其“产品化”和“软件化”。
  • 解锁经济上不可行的工作。 许多有价值但因人力成本过高而未被执行的任务(如将营销材料翻译成 100 种语言),现在可以通过低成本的 AI 代理实现。这为企业创造了新的增长路径,也为服务于这些新需求的创业公司带来了机会。
  • 历史性的窗口期。 Levie 强调,从现在起的未来 2-3 年,是诞生下一批百亿美金市值公司的关键时期。这个窗口期过后,市场格局将趋于稳定,颠覆成本会更高。
  • 获得不对称的杠杆效应。 大公司(如亚马逊)使用 AI 可能更多是为了提升效率和削减成本。但对于创业公司,AI 是一个强大的杠杆,能让一个 50 人的团队发挥出 500 人团队的效能,从而在产品开发、市场拓展和客户服务上实现更快的增长。
  • 行动灵活,专注新兴市场。 像 Workday 这样的老牌巨头会优先为他们现有的上万家大客户提供 AI 服务。这意味着全球数千万的中小企业以及巨头们尚未覆盖的细分市场,都成为了创业公司可以抢占的“无人区”。
  • 专注“核心”业务,避免内耗。 大多数公司不会自己开发所有内部软件(如 HR 系统),因为这不属于他们的“核心”业务。他们更倾向于购买专业的第三方解决方案。因此,创业公司不必担心客户会用 AI “自己动手”复制你的产品,只要你能提供稳定、专业的服务。
  • 从“按席位收费”转向“按消耗/价值收费”。 传统 SaaS 模式是按用户数(席位)收费,市场天花板有限。AI 代理打破了这一模式,创业公司可以不再按“人头”收费,而是根据完成的工作量(如审查的合同份数、生成的报告数量)来收费。
  • 基于价值的定价,而非成本。 AI 完成任务的边际成本(token 费)可能极低(如 10 美分),但创业公司可以收取远高于此的价格(如 2 美元)。因为这个价格相比于原来的人力成本(如 10 美元)仍然极具吸引力。利润空间取决于你在底层 AI 模型之上构建了多少有价值的软件、工作流和独特上下文。
  • 融合订阅与消耗模式。 纯消耗模式可能导致收入不稳定。一个更优的模式是采用“基础订阅费 + 超出部分按量计费”的混合模式,既保证了经常性收入,又能从客户的使用量增长中获益。
  • 利用行业的“通缩经济学”。 AI 和云计算的底层成本(算力、存储)会持续下降,但软件服务的价格通常保持稳定。这意味着只要产品持续创新,公司的利润率会随着时间推移而自然增长,这是一个非常有利的商业环境。

Claude 的记忆功能:不同的产品哲学

Claude 和 ChatGPT 这两大顶尖 AI 助手,在“记忆”功能的实现上采取了完全相反的两种策略。这种差异深刻地反映了它们各自的产品定位、目标用户群体和设计哲学。

Claude 的记忆系统:显式、可控的工具
Section titled “Claude 的记忆系统:显式、可控的工具”

Claude 的记忆功能被设计成一个由用户主动调用的工具,而非一个持续运行的后台服务。其主要特点是:

  1. 从零开始 (Blank Slate):每次对话都始于一个空白状态,不会预先加载任何用户画像或历史记录。
  2. 用户主动触发 (Explicit Invocation):记忆功能只有在用户使用“我们上次聊了什么?”等明确指令时才会被激活。
  3. 基于原始对话的搜索 (Raw History Search):它不会创建 AI 生成的用户摘要或压缩档案,而是通过实时搜索用户的原始聊天记录来回忆信息。
  4. 两大搜索工具
    • conversation_search:根据关键词或主题在全部历史记录中进行搜索。
    • recent_chats:根据时间范围(如“最近10次对话”或“去年11月的最后一周”)来检索对话。
ChatGPT 的记忆系统:隐式、自动的体验
Section titled “ChatGPT 的记忆系统:隐式、自动的体验”

与 Claude 相反,ChatGPT 的记忆功能是为大众消费市场设计的,其特点是:

  1. 自动运行 (Always-On):记忆功能自动加载,无需用户干预,提供即时的个性化体验。
  2. 创建用户画像 (User Profiling):系统会持续学习用户的偏好和模式,构建详细的用户档案。
  3. 追求“魔法般”的体验:目标是让产品感觉智能、贴心、无缝,让用户无需思考其工作原理。

这种设计上的分歧源于两家公司不同的市场策略:

  • Claude 瞄准专业用户:其用户群体主要是开发者、研究人员等技术型专业人士。这些人理解 LLM 的工作原理,偏爱精准的控制权,并能接受为了调用记忆而产生的额外延迟。对他们而言,记忆是一个强大的、可预测的专业工具,隐私和可控性至关重要。

  • ChatGPT 瞄准大众市场:其用户群体覆盖学生、家长等各类普通消费者。他们希望产品开箱即用、简单方便,能自动记住他们的信息。这是典型的消费级科技产品的策略:先通过“魔法般”的体验吸引并留住海量用户,后续再探索商业化模式。

作者认为,两大巨头采取截然相反的路径,说明 AI 记忆功能的设计空间极其广阔,没有唯一的正确答案。最佳方案取决于产品的目标用户和具体需求。目前,这个领域仍处于早期探索阶段(“寒武纪大爆发”),各大公司都在尝试不同的方法,远未形成行业标准。

最后更新:文章发布后不久,Anthropic (Claude 的母公司) 宣布为其团队版和企业版用户推出一项新的记忆功能,该功能看起来更接近 ChatGPT 的自动画像模式。这表明,AI 记忆领域的发展和演变速度极快。

攻克 LLM 推理中的非确定性

Model Deterministic Nondeterministic User requests Other user requests Output

LLM 推理的非确定性是一个系统性问题。它源于为追求极致性能而设计的、对批次大小敏感的底层计算库,与现实世界中动态变化的服务器负载之间的矛盾。解决方案是存在的,即强制使用批次不变的计算内核,但这通常需要以牺牲部分性能为代价。

LLM(大语言模型)推理结果的不可复现性(非确定性),并非像通常认为的那样,是由于 GPU 并行计算的随机性与浮点数计算误差的简单结合。真正的罪魁祸首是:核心计算操作(Kernel)缺乏“批次不变性”(Batch Invariance),再结合服务器上不断变化的负载(即变化的批处理大小 Batch Size)

  1. 普遍的误解 vs. 事实

    • 普遍误解(“并发+浮点数”假说):人们普遍认为,由于浮点数加法不满足结合律(即 (a+b)+c ≠ a+(b+c)),而 GPU 又以不确定的顺序并行执行这些加法,导致了结果的随机性。
    • 文章指出的事实:这个假说并不完全。虽然浮点数非结合律是产生数值差异的根源,但 LLM 推理(前向传播)中使用的绝大多数计算核心(如矩阵乘法)本身是 “运行确定” 的。即对于一个固定批次的输入,多次运行会得到完全相同的结果。
  2. 真正的非确定性来源

    • 缺乏“批次不变性”:尽管单个计算核心是确定性的,但其计算结果会受到 批处理大小(Batch Size) 的影响。例如,对一个向量进行计算,当它被单独处理(batch size=1)与和其他上千个向量一起处理(batch size=1000)时,得到的数值结果会有微小的差异。这是因为为了优化不同批次大小下的性能,底层会采用不同的计算策略和指令,从而改变了浮点数的累加顺序。
    • 可变的服务器负载:从用户的角度来看,他们发送的请求会被推理服务器与其他用户的请求动态地组合成一个批次进行处理。服务器的负载是实时变化的,这意味着用户的同一个请求,这次可能在一个大小为 8 的批次中处理,下次可能在一个大小为 128 的批次中处理。
    • 两者结合的结果:一个缺乏“批次不变性”的计算核心,被应用在一个“批次大小不确定”的系统中,最终导致了用户感知的 非确定性
如何实现确定性推理(即实现“批次不变性”)
Section titled “如何实现确定性推理(即实现“批次不变性”)”

文章指出,要实现完全可复现的推理,必须让模型中的每一个计算环节都做到批次不变,主要涉及以下三个部分:

  • RMSNorm:相对容易实现。只需固定使用一种并行化策略,即使在小批量时性能稍差,也要避免切换到会改变计算顺序的策略。
  • 矩阵乘法(Matrix Multiplication):挑战更大。高性能的矩阵乘法库会根据输入尺寸选择不同的 Tensor Core 指令或并行策略(如 Split-K)。要实现确定性,必须强制使用同一种内核配置,这会牺牲在某些尺寸下的极致性能。
  • 注意力机制(Attention):最复杂。不仅要对批次大小保持不变,还要对序列的处理方式(如分块处理 Prefill、使用 KV Cache 解码)保持不变。这意味着一个 token 在计算注意力时,无论其上下文(KV Cache)有多少,其内部的计算顺序都必须完全一致。

ChatGPT 的记忆功能:重温《惨痛的教训》

本文作者通过直接向 ChatGPT 提问的方式,对其记忆系统进行了逆向工程,揭示了其工作原理和内部结构。

ChatGPT 的记忆系统主要由四个部分组成,每次交互时都会被提供给模型:

  1. 交互元数据 (Interaction Metadata):

    • 包含用户的设备信息(屏幕尺寸、浏览器/操作系统)、使用模式(话题偏好、消息长度、活跃度)等。
    • 模型可利用这些数据隐式地推断用户环境(如自动识别用户使用 iPhone),从而提供更具针对性的回答。
  2. 近期对话内容 (Recent Conversation Content):

    • 包含最近几十次对话的用户消息摘要(不含 AI 的回复)。
    • 这有助于在不同对话间建立联系,让模型更好地理解上下文,例如在用户连续多个对话都讨论日本旅行后,能推断出“那里”指的是日本。
  3. 模型设定上下文 (Model Set Context):

    • 用户明确告知并可以随时在设置中查看和删除的事实,例如“我对贝类过敏”。
    • 这是用户完全可控的、最高优先级的“事实来源”,可以覆盖其他记忆模块中的信息。
  4. 用户知识记忆 (User Knowledge Memories):

    • 这是最新、最核心的部分。它是 OpenAI 定期从用户的海量对话历史中生成的、高度浓缩的 AI 摘要
    • 这些记忆对用户不可见、不可直接编辑,包含了关于用户职业、兴趣、项目、技术栈、品牌偏好等极其详细的细节。
    • 虽然信息密度极高,但可能包含过时或不准确的内容(例如用户曾计划但未成行的旅行)。
核心工作原理:“惨痛的教训” (The Bitter Lesson)
Section titled “核心工作原理:“惨痛的教训” (The Bitter Lesson)”

文章指出,ChatGPT 的记忆系统并未使用复杂的检索增强生成(RAG)、向量数据库等技术来筛选相关记忆。

相反,它采取了一种“简单粗暴”但有效的方式:每次交互都将上述所有四类记忆信息全部塞入模型的上下文窗口

这体现了 OpenAI 的核心赌注:

  1. 模型足够智能: 相信强大的模型能自行在海量上下文中分辨和利用相关信息,忽略无关信息。
  2. 算力和上下文窗口将越来越便宜: 随着技术发展,将所有信息打包发送的成本会变得微不足道。

这再次印证了强化学习之父 Rich Sutton 在 2019 年写的 《惨痛的教训(The Bitter Lesson)》——与其构建复杂的工程解决方案,不如将资源投入到提升模型本身的能力和算力上。

ChatGPT 的记忆功能类似 LLM 的训练过程:“用户知识记忆”如同一个庞大但更新缓慢的基础模型,而其他三部分则像是用于实时调整和修正的引导层(类似于 RLHF 和上下文学习)。

  1. 用户知识记忆: 像预训练模型,浓缩了长期信息但会过时。
  2. 模型设定上下文: 相当于用户的 RLHF,具有最高优先级。
  3. 近期对话内容: 类似于即时的 in-context 学习。
  4. 交互元数据: 则像系统默认参数,提供环境信号。

未来的挑战不仅在于技术(如更频繁地更新“用户知识记忆”),更在于产品层面:如何处理过时信息、如何验证事实,以及 AI 为用户建立详细档案所带来的隐私和伦理问题。