2024-10-31 12:09

我跟万圣节的AI次元壁,看起来要被PixVerse V3打破了

本文来自微信公众号:极客公园 (ID:geekpark),作者:甘德,原文标题:《我跟万圣节的AI次元壁,看起来要被 PixVerse V3 打破了》


近日,OpenAI和Sora项目的动荡让外界对热闹的AI视频行业捏了一把汗。


9月末,OpenAI首席技术官米拉·穆拉蒂(Mira Murati),以及在o1模型、GPT-4o、GPT-4v模型的开发过程中扮演了重要角色的研究副总裁巴雷特·佐夫(Barret Zoph)与首席研究官鲍勃·麦克格卢(Bob McGrew)也宣布离职。


10月4日,Sora项目负责人蒂姆・布鲁克斯(Tim Brooks)在社交平台X上官宣离职,加入谷歌DeepMind。


如果搭配Sora正式版一直没有确切时间表的现实一起食用,这像极了某个明星项目泡沫被戳破,局中人各自打算的熟悉戏码。


而最近AI视频的竞赛,也开始呈现出一些白热化。


据SimilarWeb统计,位居全球前列的AI视频生成企业Luma AI网站在9月的总访问量仅为1181万次,环比下跌38.49%。红极一时的Pika也在9月总访问量出现跌落。虽然其在10月新版本中凭借一批新的模版效果再次爆火,但产品如何持续的吸引用户兴趣的问题也逐渐浮出水面。


一些最初对Sora持谨慎态度的声音现在再度被拿出来重新咀嚼,比如电影制作人帕特里克·塞德伯格(Patrick Cederberg)在4月所说,他必须让模型生成数百个短片,才能找到一个可用的短片。换句话说,Sora的使用非常困难。


所幸的是,Tim Brooks并没有告别AI视频,他大概率加入了DeepMind的AI视频生成工具Veo。Sora的起落或许不是AI视频行业的唯一标尺,至少在能力上,开始有Meta Movie Gen这样的挑战者开始宣称干掉了Sora。而国内的AI视频产品生态,也一直在有新的变化。


AI视频赛道的降温,换句话说,也是下一批更好产品迭代出来之前的酝酿期。而最近似乎有了一个足够惊艳的产品走入大众视野。


这个视频的「始作俑者」,是爱诗科技几天前发布的PixVerse V3。随着PixVerse V3的发布,不仅在模型方面再次惊艳行业,而且在toC落地方面也开始「破圈」。


01、PixVerseV3真把次元壁打破了


在市面上的AI视频产品已经充实到让人开始「视觉疲劳」情况下,PixVerse V3真的足够特别?


如果你抱着类似的疑惑,那这只皮卡丘的出现就足够打消大半。


除了那些无法被复现的发布会演示作品,这大概是AI视频生成中二次元形象和真实世界第一次能够如此和谐的进行互动。


画面里,这只皮卡丘的形象与我们印象中卡通片中的样子别无二致,但它却出现在一条真实的繁忙街道上,然后就这么水灵灵的跳到了一个小哥怀里。


这是这段视频所需要的Prompt:


中置前置摄像头:皮卡丘站在熙熙攘攘的城市街道上,旁边是一位背包客,背包客从镜头前走过,皮卡丘从背后跑来。跳到了背包客的怀里。皮卡丘开心的搂着他的脖子,非常亲近。行人匆匆忙忙,背包客抱着皮卡丘继续往前走,皮卡丘的脸颊兴奋地闪闪发光,点亮了这一刻。迷人而轻松。


1934年,米高梅出品的《Hollywood Party》里吉米·杜兰特用手指」叼着「米老鼠的动作,成为世界影史中卡通与真实影像结合的第一个经典画面。90年后,这个充满巧思但在实现上却异常繁琐的效果终于可以用AI来代为效劳。


离谱的是,皮卡丘是AI做的,皮卡丘所在的真实世界也是AI做的。从效果看,PixVerse V3对于动画进入现实世界这件事,理解的相当丝滑。


不止是皮卡丘,你还可以用用下面这段看起来要素过多的Prompt,来生成一个马里奥大叔进火车站的视频:


The video shows a bustling train station filled with a diverse crowd of passengers eagerly waiting for their trains.The camera sweeps across the scene,capturing the lively atmosphere.Super Mario,a stout Italian character with a round face,dons his iconic red hat and blue overalls.The camera closely follows Mario as he steps confidently onto the platform,his face beaming with excitement..The video is in a realistic style.


视频中,火车站熙熙攘攘,各色乘客焦急地等待火车。镜头扫过整个场景,捕捉到热闹的气氛。当火车缓缓驶近站台时,镜头紧跟身材魁梧、脸庞圆润的意大利人物超级马里奥,他戴着他标志性的红帽子和蓝色工作服,自信地走上站台,脸上洋溢着兴奋的笑容。视频的风格很写实。


画面里有着鲜明的主角马里奥,背后熙熙攘攘的人群每个人都有各自不同的动作细节,而在马里奥沿着镜头向前走的同时,动画人物与真实环境相交的边缘处理的也非常清晰干净,与此同时,火车也进站了。


如果卡通人物已经满足不了你的胃口了,那我们来看看PixVerse V3在大场面上的发挥。


——关键词:巨龙入睡。


完整的Prompt是这样的:


Steadycam tracking shot of a dragon diving into the water,the monk raises his arms in appreciation.


由斯坦尼康稳定器跟踪拍摄:一条龙潜入水中,僧人举起双臂以示赞赏。


虽然视频中仍然缺乏Prompt中提到的一些细节,但总体上无论是从运镜的连贯程度,还是用阴郁的影调来微妙的表现画面张力的能力,以及对远景的怪兽、前景的废弃汽车的刻画,PixVerse V3的视频生成能力都已经开始逼近电影级的画面质感。


除了文生视频,此次PixVerse V3也展现了优秀的图生视频能力。


图生视频的想象力可就大了,你可以试试找一张帅气的美国西部电影海报,加一段Prompt,让他做一些「离谱」的事——比如碰到了一把质量不太好的左轮枪:


Prompt是这样的:


完整的Prompt是这样的:


The pistol misfires with black smoke,which makes the man's face dirty.


手枪哑火,冒出黑烟,弄脏了男子的脸。


PixVerse V3在文生视频和图生视频能力上给人最鲜明的感受,就是它无比接近普通人日常生活中的兴趣点。事实上,除了专业的视频创作相关从业者,没有太多人有用AI视频软件雕刻一段完美影视作品的需求。反而更多刚用上视频生成能力的人,他们的好奇心在于这个能力能不能和真实世界甚至自己玩在一起。比如把喜欢的卡通形象引入自己每天出入的场合,甚至把自己变成钢铁侠之类的动漫人物。


AI视频产品目前遇到的困局,很多都是因为陷在技术能力的自嗨里,而用户的身影消失了。在这个文生视频技术刚刚崭露头角的阶段,可能更大多数的普通人所中意的,首先是一个足够靠近自己,又足够亲和的AI视频产品。


从这个角度上来看,当下的PixVerse V3或许是那个把用户心思猜的最准的产品。


PixVerse V3的惊艳除了归功于PixVerse V3背后AI视频大模型的能力迭代之外,其在提示词理解能力上的优化也功不可没,相信看到上面这几个Prompt示例,细心的人已经看出来了。


"主体+主体描述+运动+环境"是一个让AI视频生成时能最大可能发挥效用的Prompt公式,相比V2.5,现在你可以对PixVerse V3增加一个「镜头描述」的维度。


当然,除了遵循这个公式,Prompt需要尽可能详细描述人物的动作,避免太过简单的描述。


同时,PixVerse V3在输出视频的选择上也更加丰富,在输出视频的格式上PixVerse V3支持包括16:9、9:16、3:4、4:3、1:1在内的多种视频比例,风格化功能也在本次版本更新后得到升级,现在文生视频和图生视频两种模式同时支持动漫、现实、粘土和3D四种风格选择。


一句话来说就是,这次PixVerse V3不仅变强了,它甚至想要把产品说明说一行行交到你手上。


社交平台X上,很多AI产品的关注者已经开始上手PixVerse V3,比如粉丝众多的Pierrick Chevallier。他甚至整理了一个专门的帖子来展示自己用PixVerse V3生成的视频。除了强大的生成能力以外,吸引人眼球的是他在其中展示了很多非常「万圣节味儿」的视频。


02、这个万圣节,让PixVerseV3来「搞效果」


一个足够有趣的AI视频产品的破圈,除了要有足够的技术能力支撑,也需要一个好的契机。说起来PixVerse V3的发布也算得上恰逢其时。


11月1日就是万圣节,10月末的此时此刻,正是年轻人一年一度的想象力巅峰期。结合万圣节主题,PixVerse V3一并发布了一系列万圣节主题模板,让你能够用AI对身边的一切「施法」。


此次PixVerse V3发布的万圣节主题模板总共有8个,其中有一类主打的是「大变活人」。


比如无中生有的在城市里变出一只怪兽。


除了这种大场面,PixVerse V3可以直接让一张照片里的的元素「活」起来,比如让《我在雨中等你》中的那只小狗从照片里真实的走出来:


小狗起身前甚至还有个抬头的自然动作。而从照片里走出后,原来的照片只留下一片平静的草坪,整个效果还是挺惊艳的。


这个模版也有更打开想象力的玩法。比如,能不能让达芬奇笔下的维特鲁威人从那个框住他的圈里走出来?


类似这样:


万圣节能拿出这么一个节目也足够惊艳全场了。


这次PixVerse V3为万圣节准备的第二类模版,走的是抽象路线。


比如让一个铁盒站起来逃跑:


或者把一辆保时捷打散,变成一堆积木:


当然,这次PixVerse V3的模版中也有很多更有万圣节味儿的效果可以玩,比如给人物照带上一顶巫师帽,然后动起来,就像这样:


这些万圣节模版包含在PixVerse V3全新上线的Effect功能中。使用起来很简单,上传图片后,选择你想要的效果点击即可进行生成,这中间不需要再费心思输入Prompt了,对一门心思都想着万圣节的人来说非常友好。


而此次PixVerse V3显示了更强的多模态生成能力,在本身文生视频以及图生视频的基础上,PixVerse V3现在可以让生成的视频带上用户想要的声音内容,并且如果原本的视频长度不够长,PixVerse V3现在有能力对原视频进行进一步的延续创作。


这些多模态生成能力也变成了与Effect一同在PixVerse V3首发的两个新功能。第一个功能是能为视频生成多语言人物声音同步的对口型功能Lipsync。


Lipsync功能允许用户在生成的视频基础上,自己输入输入文案或上传音频文件,然后PixVerse会自动根据文案或音频文件内容,对视频中的人物口型进行适配。目前Lipsync能够支撑30秒的视频长度,可以对口型的语言已经包括了英语,汉语,法语,日语四种。


另一个功能是视频延长Extend,或者可以理解为故事续写。


针对现在生成视频长度过短的问题,在PixVerse V3中用户可以选择已经生成的视频,点击「Extend」按钮,输入与视频如何进一步发展相关的提示词,点击「create」,原视频就会照着拟定的方向实现情节递进,同时保持人物和动作高度连贯一致。


多模态视频生成能力的加入,PixVerse V3现在能够生成叙事量更大、视听效果更佳的AI视频,AI视频创作的边界也进一步被拓宽。


做一个真正能玩起来的AI视频产品


「当普通用户也能用起来时,才是ChatGPT时刻。」爱诗科技创始人兼CEO王长虎在今年4月的一次采访中说道。


过去两年,大模型技术透出的每一丝新的微光都会转变成一场场关于生产方式新的宏大叙事,仿佛人类的生活会在短时间内被完全颠覆。但到目前为止,这一切还并没有发生。


与此同时,Sora带来的兴奋以及过于宏大的技术想象力让整个ai视频产品领域逐渐失焦,找不到与大众生活的连接处。所以一方面runway这种定位是专业工具的AI视频产品由于过高的使用门槛而难以破圈,而定位更偏大众的产品则陷入一种在众人尝鲜后的「阅后即焚」困境,用户在新鲜劲过了之后难以留存,产品缺乏明确而具体的发展思路,于是只好向着「滤镜化」「特效化」的简单逻辑下沉。


换句话说,AI生成能力巨大的的开放性让AI视频这个领域目前几乎所有产品都像是某种半成品,生成内容的随机性和不可控被包装成一种新奇体验,也同时意味着其难以在一种具体而具有持续性的场景中被使用起来。


就像当外界被Sora气球人的生成能力所惊艳的时候,帕特里克·塞德伯格则被Sora内容生成一致性的缺乏所困扰,他抱怨气球的颜色在每次生成中都会改变,而这样的瑕疵意味着大量后期制作的工作量仍然不可避免。类似的问题很多,这也是为什么虽然好莱坞一年前已经开始为大模型对电影工业潜在的颠覆可能罢工,但一年后,sora仍然无法真正进入影视的工作流。


眼下AI视频产品也都或多或少的陷入了类似的处境——虽然AI视频生成能力已经让所有人兴奋了很长一段时间,但AI视频生成产品仍然是一场看起来很美的「卖家秀」。


在新的技术洪流面前,一个产品要保持「具体」很难。但爱诗科技从最初的PixVerse网页版到现在PixVerse V3传递出来的却是一条难得的清晰有序的迭代路径。


今年1月,爱诗科技正式发布了文生视频产品PixVerse网页版。但当时包括PixVerse在内,几乎所有的文生视频产品都会遇到的问题是生成形象的不可控,这意味着用户无法持续性的围绕统一角色来生成视频内容。3个月后,PixVerse网页版搭载了基于自研视频大模型开发的C2V(Character to Video)功能,通过精确提取人物特征来锁定角色,初步解决AI视频创作中的一致性难题。


把视频中的「角色」固定下来之后,PixVerse把之后的迭代重心放在了生成内容中行为的「可控」上。今年6月,爱诗科技发布Magic Brush运动笔刷,用户可以通过对视频画面中内元素简单的涂涂抹抹,来精确控制各个元素的运动及运动方向。7月末PixVerse V2上线,产品中除了展现了足够多对生成内容的控制能力,Prompt难度也又了大幅下降,同时微调生成效果的手段则趋于丰富。


这又是一次意图非常明确的迭代——「具体产品形态需要去试,但最终我们还是希望服务广大普通用户」,就像王长虎在此前一次采访中所说。


在视频生成能力还不能直接满足普通用户的需求时,服务专业创作者,基于新的内容生成范式去做下一代的工具是更优先的选择。「当生产要素被技术囊括后——比如AI把拍摄时的演员、场景、摄像机取代了——这时候AI视频生成能力就可以开始为大众所用,用户的圈层会逐渐扩大,就会产生巨大的机会。」


此次PixVerse 3V开始尝试推出更多与普通人生活相关联的玩法,并且尝试用Prompt来设定镜头,后者可以被看作是一种部分代替摄像机的尝试。如此看来,爱诗科技对产品方向的打磨一直在一条很笃定的道路上。


在AI视频生成这场以发散性为美的技术浪潮中,爱诗科技的选择是与整体的流势相反,远离宏大叙事,给出一个AI视频产品可以怎么玩的,最具体的方案。


只有尽可能的让人拿在手里玩起来,AI视频应用才会从Sora所引领的一场「卖家秀」,过渡到生机盎然的「买家秀」。


PixVerse V3的惊艳登场,或许就是这场AI视频「降温」背后,另一场积极变化的开始。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定