我们经常能听到一些各式各样的说法:
到底 GPT 这样的范式意味着什么?为什么大模型会被认为是邪教?为什么这种范式不是让人工智能领域专家升职加薪,反而是危机四伏?为什么深度学习也变成了「旧」的东西?
我尽可能用通俗的语言来说一下我的理解。一方面基于我过去读研期间人工智能的认知,另一方面深度参考了这篇内容《通向AGI之路:大型语言模型(LLM)技术精要》,作者是中科院的张俊林老师。
在深度学习引入 NLP 之后,主流的技术都切换成了深度学习,以大量的改进 LSTM 模型及少量的改进 CNN 模型作为典型的特征抽取器;以Sequence to Sequence(或叫encoder-decoder亦可)+ Attention作为各种具体任务典型的总体技术框架。
在过程中,正如深度学习常见的操作,就是加神经网络的层数,来试图提升效果。但在 NLP 领域,深度学习的效果并不显著,跟过往非深度学习的方法比,优势并没有特别大。
这里有两个原因:
而预训练模型横空出世,在学术领域和产业领域,都快速带来了巨大的转变,让技术方法收敛到了同样的模式中去了。这里提到的预训练模型,就是 Bert 和 GPT。
预训练模型有两个大的模式切换: