速度秒杀GPT们10倍，国外的DeepSeek时刻来了？-虎嗅网

什么？AI界又整新活了？

这次虽然没像DeepSeek、Manus们那样搞得人尽皆知，但可能对AI界发展的影响还真不小。

前段时间，有个名不见经传的小公司Inception Labs搞了个大新闻，说是开发出了全球首个商业级扩散大模型（dLLM）Mercury。

而这个所谓的扩散大模型，可能会掀起一股浪潮，彻底颠覆大模型3年多来的基础路线。

人家也实打实放出了数据，在一众测试里，Mercury Coder基本是一路吊打GPT-4o Mini和Claude 3.5 Haiku，这些大家都快用烂的模型了。

而且，这些同台竞技的模型们，还特地专门为生成速度进行过优化，但Mercury还是比他们快了多达10倍。

不仅如此，Mercury还能在NVIDIA H100芯片上，实现每秒超过1000token的处理速度，而常见的大模型想要实现这个速度，往往都得用上专门定制的AI芯片。

要知道，为了实现更高的token处理速度，定制化AI芯片几乎成了各个厂商的新战场。

除了速度超级超级超级快之外，我们也能从Artificial Analysis的测试坐标系里看出，Mercury的生成质量也是杠杠的。

虽然目前还不如顶尖的Claude3.5 Haiku等，但考虑到它是一目十行的效率，能保持这个生成质量已经是非常哇塞了。

我们也在官方放出的Mercury Coder Playground里简单试了几个例子，一顿测试下来发现生成效果确实不错，而且速度真的是极快。

提示词：用HTML5写一个贪吃蛇游戏。（Implement the game Snake in HTML5.Include a reset button.Make sure the snake doesn't move too fast.）

注意，这里的生成录屏动图并未加速

提示词：用HTML5，CSS和Javascript写一个扫雷游戏。（Write minesweeper in HTML5，CSS，and Javascript.Include a timer and a banner that declares the end of the game.）

提示词：用HTML5做一个Pong游戏。（Create a pong game in HTML5.）

可能不少差友看到这估计决定，这也没多牛啊，说什么AI界可能要变天了？

Mercury的厉害的点倒不是它的实际效果有多棒，更重要的是它给AI界带来了一种新可能：谁说大语言模型就一定要走Transformer的路线？

在这个AI时代，Transformer和Diffusion大家估计都听得耳朵起茧子了，一会是Transformer单干，一会是Diffusion单飞，又或者是两者一起合作。

但本质上来说，这两者其实代表了AI的两个不同进化方向，甚至可以说，Transformer和Diffusion的“思维”机制不同。

Transformer是“典型”人类的链式思维，它有一个自回归的属性，就是它有个先后的概念，你得先生成了前面的结果，才能想出后面的玩意儿。

所以我们现在看到的AI生成，都是逐字逐句，从上从下一点点长出来的。

就像这样（这还是加速过的生成速度）

而Diffusion，则是反直觉的，直接从模糊去噪从而到清晰的过程。

就是你问他问题，他不会有整理逻辑，按1、2、3、4……步骤回答你的想法，而是脑子直接想好了所有答案雏形，但这些答案全都是模糊不清的，然后一步步把所有答案一起变清晰，直到生成结果。

用生活里的一个最常见的例子就是去配眼镜，当你拿掉眼镜看东西的时候，一整片都朦胧不清，但你确实都看到了，随着一片片镜片加上去，最终你看清了每一个字。

所以Mercury生成的结果都是一大片模糊的乱码，然后一顿quickly quickly biu biu biu，ber得一下就全搞定了。

就像这样

关于这俩的效果对比，我感觉历史上曾经有一个著名发布会上，有人曾用过更直观的对比，可能更形象化地帮助大家理解。

CPU就好比如今的Transformer

GPU就好比如今的Diffusion

其实光从我们这么简单的描述看起来，大家也能明白，Transformer的确是更符合大家逻辑的思维方式，所以在大语言模型刚爆红的时候，基本就是Transformer一个人勇闯天涯。

但逐渐的，Transformer开始展露自己的不足。

其中最让人头疼的就是，Transformer的注意力机制看起来很优秀的背后，是计算复杂度指数级别增长。【计算复杂度公式为O(n²d)（n为序列长度，d为特征维度）】

计算复杂度的爆炸增长带来了多方面的制约，比如模型推理速度显著下降，在长文本、视频等领域，生成速度显然无法满足实际需求。

进一步的，复杂度不断升高，所需要的硬件资源也同样指数级增长，这种硬件需求阻止了AI真正走进大家生活。

所以一直以来，业界都在想着法地缓解Transformer模型的计算复杂度。

像通过量化、蒸馏、压缩模型的DeepSeek能够爆火出圈，其实也是建立在这种迫切需求上。

那Mercury的出现，似乎也在提醒大家，如果降低Transformer的计算复杂度太难的话，要不试试新路子？

而且Mercury背后的Diffusion路线，大家并不陌生。

比如早期爆红的stable Diffusion，Midjournery、DALL-E 2里，都看到了Diffusion模型的应用。

甚至还出现了像是OpenAI的sora模型，就是利用了Diffusion Transformer（DiTs）这种Transformer和Diffusion混合双打模型。

虽然理想很美好，但Diffusion此前几乎都被各路人马判了死刑，因为他们觉得这货驾驭不了语言模型。

因为Diffusion的特点是没了自回归，不用依赖上下文，从而可以节省资源，加快生成速度。

但这么一来，生成精度有点难以把握，就像现在文生图、文生视频的各种模型，依旧难以控制手部、吃面条、文字等高精度的生成。

可这次Mercury的突破性成果，的确也第一次向大家验证了，Diffusion也能干Transformer的活。

不过可惜的是，目前Mercury并没有公开任何技术文档，我们无法进一步得知它是如何搞定生成内容质量难关的。

但我们从它挑的对手比如Claude3.5 Haiku、GPT4-omini、Qwen2.5 coder 7B、DeepSeek V2 lite等等这些袖珍版大模型里，也能看出来，显然最强大的Diffusion语言模型Mercury也还没法做得特别大。

甚至经过我们测试发现，除了官方推荐的提示词生成效果比较精准以外，如果用一些自定义提示词，它的出错概率就高得有点夸张了。

而且生成的稳定性也相当一般，经常第一次生成效果还不错，再测试一次结果反而不会了。

提示词：用HTML画出太阳系的模拟动画。（Use HTML to write an animation of the solar system simulation operation.）

但毫无疑问，Mercury的成果是了不起的，特别在考虑到Diffusion在多模态生成上的强势地位，也让人不禁想象，如果Diffusion的路线才是AI大模型更正确的道路（好像也不是不可能吧），未来的联动进化好像更水到渠成些。

前不久，差评君刚看了一部名为《降临》的电影，里面的外星人就不是按照人类这样1、2、3、4……的链式思维逻辑，不同的思维方式显然会带来更多的可能性。

那问题来了，谁说AI就得要像人类一样思考呢？对他们来说，是不是Diffusion的思考方式更符合“硅基生命”的属性呢？

当然，这些都是差评君的瞎扯淡，不过有意思的是，Mercury既是太阳系的水星，也是罗马神话中的信使，他们俩的特点就是跑得飞快，而在占星学里，它又代表着人的思维方式和沟通能力。

我们也不妨期待，Mercury的出现，能给AI带来新的路子。

图片、资料来源：

X.com

Mercury官网

OpenAI：Generating videos on Sora

techcrunch：Inception emerges from stealth with a new type of AI model

AimResearch：What Is a Diffusion LLM and Why Does It Matter?

知乎：如何评价Inception Lab的扩散大语言模型Mercury coder?

本文来自微信公众号：差评X.PIN （ID：chaping321），作者：差评君，撰文：八戒，编辑：江江、面线