谷歌：大模型不仅有涌现能力，训练时间长了还有「领悟」能力

17611538698

webmaster@21cto.com

登录注册

谷歌：大模型不仅有涌现能力，训练时间长了还有「领悟」能力

场长

人工智能 3 1427 2023-08-16 08:31:38

导读：模型在达到一定规模时会出现涌现现象，谷歌的研究表明，模型在训练到一定时间后，会出现另一种现象，即「领悟」现象。

2021 年，研究人员在训练一系列微型模型时取得了一个惊人的发现，即模型经过长时间的训练后，会有一个变化，从开始只会「记忆训练数据」，转变为对没见过的数据也表现出很强的泛化能力。

这种现象被称为「领悟（grokking）」，如下图所示，模型在长时间拟合训练数据后，「领悟」现象会突然出现。

既然微型模型有这种特性，那么更复杂一点的模型在经过更长时间的训练后，是否也会突然出现「领悟」现象？最近大型语言模型（LLM）发展迅猛，它们看起来对世界有着丰富的理解力，很多人认为 LLM 只是在重复所记忆的训练内容，这一说法正确性如何，我们该如何判断 LLM 是输出记忆内容，还是对输入数据进行了很好的泛化？

为了更好的了解这一问题，本文来自谷歌的研究者撰写了一篇博客，试图弄清楚大模型突然出现「领悟」现象的真正原因。

本文先从微型模型的训练动态开始，他们设计了一个具有 24 个神经元的单层 MLP，训练它们学会做模加法（modular addition）任务，我们只需知道这个任务的输出是周期性的，其形式为 (a + b) mod n。

MLP 模型权重如下图所示，研究发现模型的权重最初非常嘈杂，但随着时间的增加，开始表现出周期性。

如果将单个神经元的权重可视化，这种周期性变化更加明显：

别小看周期性，权重的周期性表明该模型正在学习某种数学结构，这也是模型从记忆数据转变为具有泛化能力的关键。很多人对这一转变感到迷惑，为什么模型会从记忆数据模式转变为泛化数据模式。

用 01 序列进行实验

为了判断模型是在泛化还是记忆，该研究训练模型预测 30 个 1 和 0 随机序列的前三位数字中是否有奇数个 1。例如 000110010110001010111001001011 为 0，而 010110010110001010111001001011 为 1。这基本就是一个稍微棘手的 XOR 运算问题，带有一些干扰噪声。如果模型在泛化，那么应该只使用序列的前三位数字；而如果模型正在记忆训练数据，那么它还会使用后续数字。

该研究使用的模型是一个单层 MLP，在 1200 个序列的固定批上进行训练。起初，只有训练准确率有所提高，即模型会记住训练数据。与模运算一样，测试准确率本质上是随机的，随着模型学会通用解决方案而急剧上升。

通过 01 序列问题这个简单的示例，我们可以更容易地理解为什么会发生这种情况。原因就是模型在训练期间会做两件事：最小化损失和权重衰减。在模型泛化之前，训练损失实际上会略有增加，因为它交换了与输出正确标签相关的损失，以获得较低的权重。