怎么理解Ilya说的“AI放缓了”-虎嗅网

本文来自微信公众号：信息平权，作者：信息平权，题图来自：AI生成

梳理下时间线，The Information周日文章说Pre-Train模型的预训练“撞墙”了，昨天ilya接受路透采访，说了同样的话，原文如下：

The Information口碑参差不齐，但ilya也这么说，一石激起千层浪。

实际上预训练边际效果递减这事儿已经传了很久。7月份第一次传GPT-5训练不顺利，8月份开始流传“LLM语言模型预训练放缓，RL强化学习Post train优先级提高”，但前半句被当成“华人圈小作文”，觉得北美如火如荼，大家都在搞10万卡20万卡，预训练并没有停。

这期间，扎克伯格、Anthropic Dario、xAI都出来讲Scaling Law没有放缓。到9月o1出来，Sam Altman甚至提出预训练scaling+推理scaling，双发动机。

到今天有结论了吗？个人觉得80%的可能Pre-Train预训练已经撞墙了，但并不是原理上，毕竟scaling law是个经验性定律，和摩尔定律一样，没到做出来你也不知道证伪与否，但：

1. 经济上，投入产出比的问题。假如你拿到10万卡，即20亿~30亿美金的预算，每个月的沉没成本是1亿美金，你会用在哪里？Pre-train、RL post train、inference，还是探索出其他新的scaling方法？

假如你在有限资源情况下， research上有新的发现，同样1亿美金/月的成本，能获得模型能力上更大边际提升，自然而然会降低pre-train的投入权重。就比如目前OpenAI在post-train上的算力分配已经超过了一半，这是个重要信号。

2. 工程实践上，难度太大。10万卡的互联就很难，何况20万卡、100万卡，crush多到爆炸……以及数据如果搞到几十T，多模态数据边际效用降低等等。

但这只是ilya说的前半句，后半句是：现在的关键，是找到在什么地方去scaling。什么意思？预训练显然是在scale参数+数据。而RL post train是在参数不显著增加的情况下，scale了更多高质量的reasoning数据。test-time compute是scale推理的次数。这可能就是ilya的“灵魂发问”，未来到底去scale什么因子？（显然不止是上面所说的这些）

我个人甚至怀疑现在还在鼓吹猛搞预训练的“领军人物”们，是在误导对手，将其往沟里带。但另一些人的发言，已经透露出了一些端倪，比如微软CEO Satya说的——预训练模型LLM已经“商品化/同质化”。也就是目前基于自回归训练出的LLM语言模型，依然只是个“原材料”“基座”，基于此再去实现更好的智能和应用，还有很多后续配方……

对算力的影响？

1. scale，本质上还是扩大算力。“大力出奇迹”依然是那根魔法棒，只是去“点”哪里的问题。因此算力还是离不开，只是把算力以什么方式、用在什么地方。

2. 超大集群真不一定需要，分布式集群也可以（老黄BG2亲口盖章）。但总量会越来越大。

3. 英伟达定义的Rack、超节点、superchip，依然需要。为什么？请参考之前文章《英伟达下一个“大杀器”》。

4. 训练上，GPU依然是最优选择。经过这件事，更加说明目前处于early stage早期阶段，算法本身远没有定型。auto-regressive机制下的transformer效率还有极大优化空间。CUDA的壁垒只会越来越高。

5. 推理上，GPU的壁垒，说实话我现在看不清了，已经来回摇摆过多次。包括端侧，因为搞不清楚未来端侧推理多少比例也会上云（所谓隐私那部分其实很小很小）。

对应用的影响？

我倾向于乐观。Ilya既然这么说，说明他的新公司SSI已经找到了方法、方向，不然创什么业啊。

而让我乐观的另一个原因，是我认识一位华人AI创业的朋友，之前一直在水下非常低调。但他们很早就All in RL（不是传统RL，也不是post train RL），大概1年前就告诉我“自回归这条路已经走到头了”，当时觉得也太激进了……到今天大家才回过神。但从这位朋友公司的进展来说，AI的发展，尤其是research根本没有放缓，而是看到了更多可能性。

因此总结来说，乐观一点，自回归不代表AI的全部，OpenAI也不代表AI的全部，老黄都说过LLM是英伟达多年押注涌现出的一个“application”罢了。为台积电节省了10亿美金的“计算光刻”、Palantir的AI产品AIP、Applovin的AXON，哪个是现在大火的LLM？都不是，但他们都是AI，且都在买GPU，都在scaling。因此pre train放缓不代表AI停滞了，已经停不下来了……

本文来自微信公众号：信息平权，作者：信息平权