GPT 模式为什么会引发科研领域震荡？

我们经常能听到一些各式各样的说法：

到底 GPT 这样的范式意味着什么？为什么大模型会被认为是邪教？为什么这种范式不是让人工智能领域专家升职加薪，反而是危机四伏？为什么深度学习也变成了「旧」的东西？

我尽可能用通俗的语言来说一下我的理解。一方面基于我过去读研期间人工智能的认知，另一方面深度参考了这篇内容《通向AGI之路：大型语言模型（LLM）技术精要》，作者是中科院的张俊林老师。

▎从深度学习到预训练模型

在深度学习引入 NLP 之后，主流的技术都切换成了深度学习，以大量的改进 LSTM 模型及少量的改进 CNN 模型作为典型的特征抽取器；以Sequence to Sequence（或叫encoder-decoder亦可）+ Attention作为各种具体任务典型的总体技术框架。

在过程中，正如深度学习常见的操作，就是加神经网络的层数，来试图提升效果。但在 NLP 领域，深度学习的效果并不显著，跟过往非深度学习的方法比，优势并没有特别大。

这里有两个原因：

而预训练模型横空出世，在学术领域和产业领域，都快速带来了巨大的转变，让技术方法收敛到了同样的模式中去了。这里提到的预训练模型，就是 Bert 和 GPT。

预训练模型有两个大的模式切换：