本期我们回归一下 AI 相关的话题,聊一聊 ChatGPT 的工作原理。本文内容主要编译自科学搜索引擎 WolframAlpha 的作者 Stephen Wolfram 的文章,以及其他参考资料,具体详见文末。
▎一切都是统计概率
人工智能历史的发展,大致可以分为几个阶段:
- 符号阶段(20世纪50年代-70年代)
- 学习阶段(20世纪70年代-90年代)
- 统计阶段(20世纪90年代-21世纪初)
- 深度学习阶段(21世纪初-)
在符号阶段,早期的科学家试图找出人类推理的法则,并且让机器学会这些逻辑。我们怎么思考计算的,机器也要怎么思考计算。这一阶段当然也有成果,但科学家们发现了最大的问题:我们无法把世间万物的知识和法则都灌输给机器,很多信息是无法良好抽象的(被称为形式主义),也很难批量地输入。因此早期的人工智能往往解决确定性的问题,比如下棋,棋谱的输入是可控的,下棋的规则也是可控的。
当科学家们发觉这点困难后,机器需要自我学习就提上了日程。起初,科学家们还是想让机器通过归纳演绎这种推理的手段学习,比如使用决策树算法,发现依然很难(这被称为基于规则的机器学习)。有一派的科学家,就致力于统计学习的方法了(基于统计的机器学习)。
统计学习的原理,就是把所有信息掰开揉碎了,塞给机器。机器在做判断时,更多是预测下一个元素出现的概率。如果是语句,那就是预测单词;如果是绘图,那就是预测像素。
比如,机器手里有半句话:The best thing about AI is its ability to
它会搜寻所有的预料库,查阅接下来出现哪个单词的概率更高。

然后写出来。这是一个极简的例子,实际操作,当然要复杂得多,有时未必会选择概率最高的词汇。
那么深度学习是什么意思呢?它引入了神经网络的算法,让机器学习可以接受的概率预测的复杂度提升了,也可以说同样效果的计算和存储成本大大降低了。这是一个黑盒,跟符号派是南辕北辙的两种范式。但它很有效果,也是如今所有大模型所采用的方法。
再回到开始说的四大阶段,也可以简化为两大阶段:
- 基于规则的阶段;
- 基于统计的阶段。
说到 ChatGPT,没错,哪怕很多人恐惧于它是否有意识、惊叹于它多么聪明和耐心,但它的运作原理,依然还是「靠猜」。就像一个经典的比喻,它就像一个读遍了世间所有信息的三岁小孩,不懂任何道理和规则,但它可以谈吐如流。