
如果你觉得最近 AI 生成内容似乎又是一个「风口」,那么你并不孤独。因为在 arXiv 上,关于机器学习 + AI 相关的论文发布趋势呈指数级上升 —— 你根本没有时间来啃下那么多的论文,然后新的应用就出来了。
据几位投资人朋友说,国内拿到投资的在做 AI 生成图片社区的、各种开源算法改造的团队有几十家之多;身边的朋友也开始逐渐找我讨论有没有什么新的机会。
在喧闹声中,作为 Open AI 的创始成员,现任特斯拉人工智能高级总监, Andrej Karpathy 的这篇文章中的思考反而能让我们冷静下来。
在本文中,他通过完成下面几件事,来通过历史预测未来的发展
- 复原最早关于端到端的神经网络训练论文,1989 年 Yann LeCun 等人撰写的,基于反向传播的手写邮政编码识别 应用。当时的数据集仅有 7291 个,以及 1000 个神经元,用最当时最先进的服务器训练了三天,错误率为 4.09% ;
- 用今日的方法改造模型,增大数据集,发现错误率降低到了 1.25%,并且训练时间仅仅花费了M1 Mac 的 30 秒时间。
- 通过尽可能忠实地还原当时推导的过程,并用今天的技术,公平地改进它(从数据集到模型),然后利用这个事实推演未来的情况。

通过对论文的还原,Karpathy 的一些思考总结如下:
- 33 年来,宏观层面没有变化,依旧在建立由神经元层组成的神经网络架构,并通过反向传播和随机梯度进行端到端优化,只不过当年的规模更小。
- 33 年前的数据集是一个婴儿,只有 7291 个 16× 16px 的灰度图像,而今天的视觉数据集往往包括几亿个高分辨率的彩色图像(还在增加中),从像素角度来看,比当年的训练集多了 100,000,000 倍。
- 33 年前的神经网络也是一个婴儿,当年只有 9760 个参数,而现在的视觉模型往往几十亿个参数。自然语言模型往往达到数万亿个参数。
- 当时这个模型在最先进的工作站上训练了三天,现在在无风扇 Mac Air 上训练了 90s,速度提升了 3000 倍。
- 事实上,仅仅通过利用现代创造出来的新思路,调整模型、增强、损失函数和优化,就能将错误率降低 60%。
- 仅通过扩大数据集就能获得可观的收益。
- 更大的模型能带来更好的收益,但是这需要更多的算力和研发成本来进行训练。但如果回到 33 年前,最终会因为算力限制达到上限。