本文来自微信公众号:信息平权,作者:信息平权,题图来自:AI生成
梳理下时间线,The Information周日文章说Pre-Train模型的预训练“撞墙”了,昨天ilya接受路透采访,说了同样的话,原文如下:
The Information口碑参差不齐,但ilya也这么说,一石激起千层浪。
实际上预训练边际效果递减这事儿已经传了很久。7月份第一次传GPT-5训练不顺利,8月份开始流传“LLM语言模型预训练放缓,RL强化学习Post train优先级提高”,但前半句被当成“华人圈小作文”,觉得北美如火如荼,大家都在搞10万卡20万卡,预训练并没有停。
这期间,扎克伯格、Anthropic Dario、xAI都出来讲Scaling Law没有放缓。到9月o1出来,Sam Altman甚至提出预训练scaling+推理scaling,双发动机。
到今天有结论了吗?个人觉得80%的可能Pre-Train预训练已经撞墙了,但并不是原理上,毕竟scaling law是个经验性定律,和摩尔定律一样,没到做出来你也不知道证伪与否,但:
1. 经济上,投入产出比的问题。假如你拿到10万卡,即20亿~30亿美金的预算,每个月的沉没成本是1亿美金,你会用在哪里?Pre-train、RL post train、inference,还是探索出其他新的scaling方法?
假如你在有限资源情况下, research上有新的发现,同样1亿美金/月的成本,能获得模型能力上更大边际提升,自然而然会降低pre-train的投入权重。就比如目前OpenAI在post-train上的算力分配已经超过了一半,这是个重要信号。
2. 工程实践上,难度太大。10万卡的互联就很难,何况20万卡、100万卡,crush多到爆炸……以及数据如果搞到几十T,多模态数据边际效用降低等等。
但这只是ilya说的前半句,后半句是:现在的关键,是找到在什么地方去scaling。什么意思?预训练显然是在scale参数+数据。而RL post train是在参数不显著增加的情况下,scale了更多高质量的reasoning数据。test-time compute是scale推理的次数。这可能就是ilya的“灵魂发问”,未来到底去scale什么因子?(显然不止是上面所说的这些)
我个人甚至怀疑现在还在鼓吹猛搞预训练的“领军人物”们,是在误导对手,将其往沟里带。但另一些人的发言,已经透露出了一些端倪,比如微软CEO Satya说的——预训练模型LLM已经“商品化/同质化”。也就是目前基于自回归训练出的LLM语言模型,依然只是个“原材料”“基座”,基于此再去实现更好的智能和应用,还有很多后续配方……
对算力的影响?
1. scale,本质上还是扩大算力。“大力出奇迹”依然是那根魔法棒,只是去“点”哪里的问题。因此算力还是离不开,只是把算力以什么方式、用在什么地方。
2. 超大集群真不一定需要,分布式集群也可以(老黄BG2亲口盖章)。但总量会越来越大。
3. 英伟达定义的Rack、超节点、superchip,依然需要。为什么?请参考之前文章《英伟达下一个“大杀器”》。
4. 训练上,GPU依然是最优选择。经过这件事,更加说明目前处于early stage早期阶段,算法本身远没有定型。auto-regressive机制下的transformer效率还有极大优化空间。CUDA的壁垒只会越来越高。
5. 推理上,GPU的壁垒,说实话我现在看不清了,已经来回摇摆过多次。包括端侧,因为搞不清楚未来端侧推理多少比例也会上云(所谓隐私那部分其实很小很小)。
对应用的影响?
我倾向于乐观。Ilya既然这么说,说明他的新公司SSI已经找到了方法、方向,不然创什么业啊。
而让我乐观的另一个原因,是我认识一位华人AI创业的朋友,之前一直在水下非常低调。但他们很早就All in RL(不是传统RL,也不是post train RL),大概1年前就告诉我“自回归这条路已经走到头了”,当时觉得也太激进了……到今天大家才回过神。但从这位朋友公司的进展来说,AI的发展,尤其是research根本没有放缓,而是看到了更多可能性。
因此总结来说,乐观一点,自回归不代表AI的全部,OpenAI也不代表AI的全部,老黄都说过LLM是英伟达多年押注涌现出的一个“application”罢了。为台积电节省了10亿美金的“计算光刻”、Palantir的AI产品AIP、Applovin的AXON,哪个是现在大火的LLM?都不是,但他们都是AI,且都在买GPU,都在scaling。因此pre train放缓不代表AI停滞了,已经停不下来了……
本文来自微信公众号:信息平权,作者:信息平权