Sora实测拉垮，Veo趁机上位-虎嗅网

本文来自微信公众号：果壳（ID：Guokr42），作者：翻翻，编辑：odette，题图：由Veo 2生成

昨天，Google DeepMind发布了视频生成模型Veo 2，作为今年五月Google I/O上发布的Veo的升级版。

和OpenAI的摧枯拉朽比起来，DeepMind已经很久没动静了。上一次DeepMind上新闻是参与开发Gemini，再上一次，还是大战李世石的AlphaGo。

而这次，DeepMind作为Google最强实验室之一，在Sora显露疲态之时，拿出了对标OpenAI的产品（虽然实装水平还不能确定）。

Sora拉垮，Veo上位

八天前，OpenAI在连续12天的直播发布会中突然放出Sora Turbo，更快、更高清，还能对生成的视频进行微调和剪辑。

然而Sora向用户大规模开放后，实测效果却并不那么理想，和发布会上的Demo出现了买家秀和卖家秀的云泥之别……

除了不能生成人脸、不能上传人脸之外，Sora再一次无法理解人类的手，生成形态诡异数量成谜的手指头：

对物理世界的模拟不到位，看久了甚至有种晕车的感觉，用新发布的各种剪辑功能也救不回来：

有人发帖说，Sora几乎就没有对的时候，发布会上和网站上的演示视频绝对是手动挑选和调试的。

Sora效果太差了，基本没法生成准确的东西，亏我还花了钱订阅｜Reddit

在Sora大翻车的这个节点，Veo2的发布就很有针对性了。

据DeepMind的博客，Veo 2现在可以生成两分钟的视频片段，分辨率高达4k（4096 x 2160像素），而与之相比，Sora最高支持1080p，最多生成20秒的视频。

Veo的特长

单从时长和清晰度来看，Veo 2占了上风，但DeepMind表示，Veo 2最主要的进步还是在生成视频的质量上。

第一，是物理引擎的优化。Veo 2对现实世界的互动规律有更深入的理解，能更好地复现物理现象以及人类的动作和表情，生成的视频更有真实感。

同一个刀子切番茄的prompt，Sora生成的视频是下面这样：

@Jay_AIrapper

Veo 2生成的视频是下面这样，虽然刀工差了点，但番茄和人手都挺正常的：

@Jay_AIrapper

第二，是更强的镜头感。Veo 2可以接受各种和摄影要求相关的prompts，从镜头类型，到景深指定，再到广角蒙太奇固定机位等摄影剪辑方式，Veo 2都做了针对性的优化。

DeepMind在博客中演示，输入18mm镜头、浅景深、低角度跟踪镜头穿过场景中央，就能得到像下面这样专业的电影效果：

视频由Veo 2生成，未经修改｜DeepMind

“虽然视频模型经常会产生‘幻觉’，生成多余的细节（比如乱七八糟的手指头或者不该存在的物体），但Veo 2产生幻觉的频率比较低，因此输出的视频更逼真。”DeepMind在博客中写道。

而从目前发布的demo来看，Veo 2生成的画面确实有种干净清爽不杂乱的感觉，对液体和固体的质感模拟得也很到位。

此外，Veo 2输出的视频也包含一个不可见的SynthID水印，表示这些视频是AI生成的。

啥时候能用？

尽管看着很美，但是用不着的咱们可以先当作没有。

目前，Veo 2还没有开放使用，访问以下网址可以加入候补名单https://deepmind.google/technologies/veo/veo-2/。

Veo 2没有作为一个单独的文生图工具发布，而是被集成进了Google Labs的视频生成工具VideoFX。Google表示，下一步，他们会继续扩大Veo 2的容量，让更多用户用上，明年还将把Veo 2集成到旗下的其他视频编辑工具里，比如YouTube Shorts。

这一批的文生视频模型demo效果都特别好，但是实际大家用上又是另一回事，毕竟Sora没交到用户手里的时候，大家觉得也是挺牛的。

本文来自微信公众号：果壳（ID：Guokr42），作者：翻翻，编辑：odette