我们经常能听到一些各式各样的说法:
- 大模型是通用人工智能的清晰路径;
- 大模型被一些科学家认为是邪教;
- 很多科研人员在看过 GPT-4 发布会后,纷纷表示自己会失业;
- ......
到底 GPT 这样的范式意味着什么?为什么大模型会被认为是邪教?为什么这种范式不是让人工智能领域专家升职加薪,反而是危机四伏?为什么深度学习也变成了「旧」的东西?
我尽可能用通俗的语言来说一下我的理解。一方面基于我过去读研期间人工智能的认知,另一方面深度参考了这篇内容《通向AGI之路:大型语言模型(LLM)技术精要》,作者是中科院的张俊林老师。
▎从深度学习到预训练模型
在深度学习引入 NLP 之后,主流的技术都切换成了深度学习,以大量的改进 LSTM 模型及少量的改进 CNN 模型作为典型的特征抽取器;以Sequence to Sequence(或叫encoder-decoder亦可)+ Attention作为各种具体任务典型的总体技术框架。
在过程中,正如深度学习常见的操作,就是加神经网络的层数,来试图提升效果。但在 NLP 领域,深度学习的效果并不显著,跟过往非深度学习的方法比,优势并没有特别大。
这里有两个原因:
- 模型容量是可以增大的,但训练数据不够。相当于深度有了,可学习的内容没那么多。
- LSTM 和 CNN 的特征抽取效果一般,提取数据中的知识效果不佳。
而预训练模型横空出世,在学术领域和产业领域,都快速带来了巨大的转变,让技术方法收敛到了同样的模式中去了。这里提到的预训练模型,就是 Bert 和 GPT。
预训练模型有两个大的模式切换:
一、中间任务消亡。
NLP 领域的课题众多,其实很多科学家都在研究各式各样的「中间任务」。这就像我们学习一门语言,要背单词、要学习词性,要看语法等等。NLP 的中间任务就有:中文分词、词性标注、NER、句法分析、指代消解、语义Parser等等。
Bert 和 GPT 出现之后,中间任务就彻底没有意义了。因为预训练的过程,就是把这些中间过程的特征也作为参数训练的过程,可以实现直接端对端,有点像直销和分销的区别,有了条件就可以 DTC 了,效率更高。
比如,原来词性是单独的课题。但如今,GPT 模型里就自然隐含了词性。你问 ChatGPT 某个单词的词性,大都不会出错。中间任务变成了副产品。而且,既然能端对端了,为什么还要中间任务呢?