如果你把人类所有的数字知识——每一本书、每一篇文章、每一段对话——压缩成一个文件,那个文件会有多大?

按照某些估计,人类数字知识的压缩规模大约是数十TB。但这数十TB中,哪些是有价值的知识,哪些只是噪音?大语言模型做的事情,就是在数十TB中找出那些有意义的模式,并学会用这些模式生成有意义的输出。

Lossy Compression的本质

所有的大语言模型本质上都是 lossy compression(信息有损压缩)。它们无法精确重建原始训练数据——这实际上是优点而非缺陷,因为有损压缩强制模型学习更高层的抽象,而不是存储表面的模式。

就像你无法从JPEG图片完美还原原始场景,但JPEG学会了保留视觉感知中最重要的信息。GPT-4也学会了保留对语言理解最重要的信息。

学会记住什么

真正有趣的问题是:模型是如何决定什么重要,什么不重要的?

答案是:它通过语言建模目标学会的。在训练过程中,模型被要求预测下一个token。那些对预测最有帮助的模式自然地被强化,那些无关紧要的模式被弱化。

这意味着模型学会的不是”世界的事实”,而是”在给定上下文中,什么token最可能出现”。这是两种不同的知识表征,但都能产生类似”理解”的行为。

压缩即智能

也许智能的本质就是高效压缩。高智能意味着能够用更少的参数编码更多的有意义模式。

从这个角度看,大语言模型确实展现了某种形式的智能——它们能在数十亿参数中编码人类语言的大量结构,并在新的上下文中灵活应用这些结构。

这不是完美的智能,但已经足够令人惊讶。