AI燎原
2024-09-04
No.5

变身“神笔马良”,国产AI只需要15秒

主理人:
欢迎来到AI实验室。

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国

 

8 月 29 日, Midjourney 宣布将涉足硬件领域,并在社交媒体 X 上发布消息广揽人才,来充实其新成立的硬件部门。

 

AI绘画似乎要卷出新形态。

 

这并不奇怪。Midjourney 创始人 David Holz 曾任 Leap Motion 的首席技术官,具备丰富的硬件经验。他的前同事——现为Midjourney 硬件部门负责人——Ahmad Abbas 也曾在苹果公司工作过五年,担任硬件经理,参与了 Vision Pro 头显的研发。

 

在此之前,我曾问过一众美术、设计相关专业的从业者,Midjourney对ta们来说意味着什么。得到最多的答案是:灵感。

 

而对非艺术专业的,比如我,或是为了配插图,或是出于好奇,抽卡自娱,也弥补弥补应试教育那些年没能开发自己艺术细菌的遗憾。

 

但由于Midjourney的使用有一定的门槛(比如魔法,比如一些些米),也劝退了不少人。

 

好在,随着AI产品的国产化,国内大模型的AI绘画也成长了起来。那么今天,我们就来横向测评几个国产文生图的AI模型,并静候AI绘画的新形态。

 

今天参与测评的玩家有:快手可灵AI、字节即梦AI、商汤秒画。

 

为了更好地揭示各家大模型的所长,测评的系列则混合人像、绘画、写实、3D、再创作等几个方面。

 

考虑到方便对比,接下来即以系列主题为纲,所生成的条目按可灵、即梦、秒画的顺序排列,图像比例都设置为1:1,其他参数默认。

 

最后,结合操作过程中的使用体验和特点给出总评,着急的朋友可以直接下拉到操作体验和总评环节。

 

人像

 

1. 摄影,中景,穿着传统汉服的中国女性,手持折扇,优雅含笑,在古典园林中漫步。

 

 

 

 

2. 特写,夜景,时尚芭莎杂志,金发碧眼的欧洲女孩,黑色夹克,酷辣风格,站在巴黎埃菲尔铁塔前,手里有一杯咖啡。

 

 

 

 

从人像模块可以看到,第1个prompt里,我的命令是手持折扇,即梦给了我一个团扇;

 

第2个prompt里,三家似乎都没有get到我金发碧眼的命令,生成的图片都是蓝瞳。

 

绘画

 

1. 中国水墨画,“孤舟蓑笠翁,独钓寒江雪”,意境悠远,云雾缭绕。

 

 

 

 

2. 人物脸部速写,铅笔画,中年男子,穿着宇航服,有着爱因斯坦一样吐舌头的表情。

 

 

 

绘画的功力在第1个prompt里其实高下立见。

 

第2个prompt里没有秒画的图并不是我漏了,而是秒画提示我非法字符,我换掉了“爱因斯坦”和“脸部”,都没有成功生成,姑且这样,也提醒一下想借助 AI 完成工作的朋友,把此类不确定因素考虑在内。

 

写实

 

1. 动物:一只威武的狮子,卧在非洲大草原上,慵懒地晒着太阳。

 

 

 

 

2. 车:一辆经典的老爷车,行驶在60年代的美国公路上,周围是广阔的沙漠景观。

 

 

 

 

在写实这个版块,狮子的光影层次可灵表现得更好。

 

秒画似乎并没有get到“写实”的味道,保持着绘画的风格。不过,后面也会说到,相对于可灵没得选,即梦6种迭代模型外,秒画有着29种基模型可以选择风格化的定制生图。

 

不知道哪位选手画出了你心中的老爷车。

 

3D虚拟

 

1. 动漫风格,一位拥有超能力的动漫少女,眼睛闪烁着神秘光芒,背景是未来都市。

 

 

 

 

2. 动画风格,一个充满魔法书籍的图书馆,书架上的书籍漂浮在空中,书架之间有魔法生物在穿梭。

 

 

 

 

在这个版块,除了提示词所要求的魔法生物外,即梦是唯一画出了人的形象的AI。

 

再创作

 

在这个版块,我原本想看看AI生图的想象力和对文化的理解能力,顺便把我喜欢的影视作品中be(bad ending)的遗憾变成he(happy ending),但是……。

 

prompt1:画一个至尊宝和紫霞仙子在一起的结局。

 

 

但是没想到我也be了,嗯,还是别在一起了。

 

我想再给ta们一次机会,考虑到我说得不够确切,不死心的我再次输入一个prompt。

 

prompt2:画一个《海上钢琴师》中主角1900最终上岸了的生活场景。(虽然我也站不上岸)

 

 

好的,我明白了,涉及人文领域,AI 多半要be。

 

不过,我乐于见到的是,创造力这种东西,仍然属于人类。AI或许能够提供灵感,但它的纯文本想象力,目前仍然止步于为人类打辅助。

 

再创作也向我再次确证,只有与人类发生关联的一切才有意义。

 

操作体验

 

首先是功能区一览,我把可灵、即梦和秒画的操作区拼在了一起。

 

 

从操作上看,三位选手都是支持垫图的,可灵和秒画都可以选择生成1张 or 多张,即梦只能一次性生成4张,再从中选出自己中意的图。

 

即梦和秒画同时支持调节比例和尺寸,可灵只支持调节比例。

 

从使用体验感来说,可灵和秒画的生成速度大约在15秒,即梦有时耗时20秒,有时耗时一分多钟,并且发生这种情况的概率是3:7。不过,它生成的图也更多。

 

如果氪金的话,可灵在图片生成之后,还可以进一步画质增强,而“生成视频”这个按钮,将一键直达“图生视频”,也就是说,在sora的中间插了一步画面风格选择。

 

 

即梦生成图片之后,除了同样可以生成视频之外,支持画布编辑、超清图、细节修复、局部重绘、扩图和消除笔等功能。

 

 

而秒画,则在prompt的细节上有着较为“Midjourney”的表现,如优化提示词、负向提示词以及加速模式等,大有对标Midjourney的意图。

 

 

值得一提的是,除了上述的29个基模型,在模型广场中,一共呈现了74个不同风格的模型(包含29个基模型在内)。

 

 

公平起见,在上述测评中,我使用的仍然是默认的Artist v1.0 Alpha模型。大家在使用时可以自取所需,反复探索。

 

总评环节

 

总的来说,可灵、即梦和秒画在AI绘画这个产品上各有特点。

 

在我看来,人像模块,可灵对中国面孔有着更好的理解,更少的“网红感”,更多的东方味道。外国面孔,秒画有着更好的细节。

 

绘画里,三位选手对传统诗歌内容都有着较好的理解能力,秒画对水墨画的艺术概念更清晰,但在人像速写中,可能会出现不稳定的情况,可灵则表现得更好。

 

写实中,可灵和即梦都理解了需求,而秒画似乎还沉浸在绘画的命令里。

 

3D虚拟版块,三家难分伯仲,不难理解,AI绘画为何会成为创作者的灵感来源。

 

再创作领域,可能需要提前垫图,不然可能会得到相当魔性的画风。AI的理解力,尚未延伸到我们的文化生活。

 

使用门槛上,三家的操作都较为流畅,可灵和即梦有着基础66分左右的灵感值(通行货币名称),省着点用,可灵可以生成大约300次,即梦60多次,两者每天签到都送积分。秒画则是每天免费10次生成,更多次数或可邀请好友一起领3天无限卡。

 

我是余杨,致力于发掘 AI 的实用场景,如果你也有观点、想法或想看的测评,欢迎和我交流。如果你喜欢这期内容,别忘了一键三连,因为这是我探索更新的动力,我们下期再见~

AI燎原

一群来自虎嗅科技组的同学,制作了这个源流。