模型行为由数据集决定
模型的最终行为,完全由其训练数据集决定,而非模型架构、超参数或优化器。
-
模型是数据集的“高精度复刻品”:模型在训练中,不仅学习了数据集中的显性知识(如什么是猫),更学会了数据分布中极其细微、不易察觉的潜在统计规律(如人类的拍照偏好和用词习惯)。
-
不同架构殊途同归:只要使用相同的数据集并给予足够的训练,无论是哪种模型架构(扩散模型、ViT等),最终都会收敛到同一点,生成几乎一样的结果。
-
架构和技术只是“手段”:模型架构、超参数、优化器等所有技术选择,其本质作用只是作为一种工具或手段,来更高效地利用算力,帮助模型去“逼近”和“拟合”那个唯一的数据集。
当我们谈论 ChatGPT、Bard 或 Claude 等著名AI模型时,我们所指的本质并非它们的模型权重或技术架构,而是它们背后那个独一无二的数据集。模型的名字,实际上是其数据集的代号。
我加入 OpenAI 差不多一年了。在此期间,我训练了海量的生成式模型,多到不合常理。
当我花费无数小时观察、调整各种模型配置和超参数并分析其效果时,所有训练过程展现出的惊人相似性,让我印象深刻。
我愈发清晰地认识到:这些模型确实在以一种令人难以置信的程度逼近其训练数据集。这意味着,模型不仅学会了什么是狗、什么是猫,更学会了那些看似无关紧要的、潜藏在数据分布间的统计规律——比如,人类通常会拍什么样的照片,或者习惯写下哪些词语。
其具体表现就是——只要在同一个数据集上训练足够长的时间,几乎所有具备足够参数和训练时长的模型,最终都会收敛到同一点。足够大的扩散模型 Conv-UNet 和 ViT 生成器会产生相同的图像。自回归采样和扩散模型也会产生相同的图像。
这是一个惊人的发现!它意味着,**模型行为并非由模型架构、超参数或优化器选择所决定。它完全由你的数据集决定,别无其他。**所有其他因素(架构、超参等)都只是一种手段,其最终目的,是为了更高效地利用算力来逼近那个数据集。
因此,当你谈论 “Lambda”、“ChatGPT”、“Bard” 或 “Claude” 时,你所指的并非是模型的权重。
原文: The “it” in AI models is the dataset
不会有靠谱的中文大语言模型,就像你长期不让人思考,最终他就不会思考。@indigo11