2024-09-04

No.5

变身“神笔马良”，国产AI只需要15秒

主理人：

欢迎来到AI实验室。

出品｜虎嗅科技组

作者｜余杨

编辑｜苗正卿

头图｜视觉中国

8 月 29 日， Midjourney 宣布将涉足硬件领域，并在社交媒体 X 上发布消息广揽人才，来充实其新成立的硬件部门。

AI绘画似乎要卷出新形态。

这并不奇怪。Midjourney 创始人 David Holz 曾任 Leap Motion 的首席技术官，具备丰富的硬件经验。他的前同事——现为Midjourney 硬件部门负责人——Ahmad Abbas 也曾在苹果公司工作过五年，担任硬件经理，参与了 Vision Pro 头显的研发。

在此之前，我曾问过一众美术、设计相关专业的从业者，Midjourney对ta们来说意味着什么。得到最多的答案是：灵感。

而对非艺术专业的，比如我，或是为了配插图，或是出于好奇，抽卡自娱，也弥补弥补应试教育那些年没能开发自己艺术细菌的遗憾。

但由于Midjourney的使用有一定的门槛（比如魔法，比如一些些米），也劝退了不少人。

好在，随着AI产品的国产化，国内大模型的AI绘画也成长了起来。那么今天，我们就来横向测评几个国产文生图的AI模型，并静候AI绘画的新形态。

今天参与测评的玩家有：快手可灵AI、字节即梦AI、商汤秒画。

为了更好地揭示各家大模型的所长，测评的系列则混合人像、绘画、写实、3D、再创作等几个方面。

考虑到方便对比，接下来即以系列主题为纲，所生成的条目按可灵、即梦、秒画的顺序排列，图像比例都设置为1:1，其他参数默认。

最后，结合操作过程中的使用体验和特点给出总评，着急的朋友可以直接下拉到操作体验和总评环节。

人像

1. 摄影，中景，穿着传统汉服的中国女性，手持折扇，优雅含笑，在古典园林中漫步。

2. 特写，夜景，时尚芭莎杂志，金发碧眼的欧洲女孩，黑色夹克，酷辣风格，站在巴黎埃菲尔铁塔前，手里有一杯咖啡。

从人像模块可以看到，第1个prompt里，我的命令是手持折扇，即梦给了我一个团扇；

第2个prompt里，三家似乎都没有get到我金发碧眼的命令，生成的图片都是蓝瞳。

绘画

1. 中国水墨画，“孤舟蓑笠翁，独钓寒江雪”，意境悠远，云雾缭绕。

2. 人物脸部速写，铅笔画，中年男子，穿着宇航服，有着爱因斯坦一样吐舌头的表情。

绘画的功力在第1个prompt里其实高下立见。

第2个prompt里没有秒画的图并不是我漏了，而是秒画提示我非法字符，我换掉了“爱因斯坦”和“脸部”，都没有成功生成，姑且这样，也提醒一下想借助 AI 完成工作的朋友，把此类不确定因素考虑在内。

写实

1. 动物：一只威武的狮子，卧在非洲大草原上，慵懒地晒着太阳。

2. 车：一辆经典的老爷车，行驶在60年代的美国公路上，周围是广阔的沙漠景观。

在写实这个版块，狮子的光影层次可灵表现得更好。

秒画似乎并没有get到“写实”的味道，保持着绘画的风格。不过，后面也会说到，相对于可灵没得选，即梦6种迭代模型外，秒画有着29种基模型可以选择风格化的定制生图。

不知道哪位选手画出了你心中的老爷车。

3D虚拟

1. 动漫风格，一位拥有超能力的动漫少女，眼睛闪烁着神秘光芒，背景是未来都市。

2. 动画风格，一个充满魔法书籍的图书馆，书架上的书籍漂浮在空中，书架之间有魔法生物在穿梭。

在这个版块，除了提示词所要求的魔法生物外，即梦是唯一画出了人的形象的AI。

再创作

在这个版块，我原本想看看AI生图的想象力和对文化的理解能力，顺便把我喜欢的影视作品中be（bad ending）的遗憾变成he（happy ending），但是……。

prompt1：画一个至尊宝和紫霞仙子在一起的结局。

但是没想到我也be了，嗯，还是别在一起了。

我想再给ta们一次机会，考虑到我说得不够确切，不死心的我再次输入一个prompt。

prompt2：画一个《海上钢琴师》中主角1900最终上岸了的生活场景。（虽然我也站不上岸）

好的，我明白了，涉及人文领域，AI 多半要be。

不过，我乐于见到的是，创造力这种东西，仍然属于人类。AI或许能够提供灵感，但它的纯文本想象力，目前仍然止步于为人类打辅助。

再创作也向我再次确证，只有与人类发生关联的一切才有意义。

操作体验

首先是功能区一览，我把可灵、即梦和秒画的操作区拼在了一起。

从操作上看，三位选手都是支持垫图的，可灵和秒画都可以选择生成1张 or 多张，即梦只能一次性生成4张，再从中选出自己中意的图。

即梦和秒画同时支持调节比例和尺寸，可灵只支持调节比例。

从使用体验感来说，可灵和秒画的生成速度大约在15秒，即梦有时耗时20秒，有时耗时一分多钟，并且发生这种情况的概率是3:7。不过，它生成的图也更多。

如果氪金的话，可灵在图片生成之后，还可以进一步画质增强，而“生成视频”这个按钮，将一键直达“图生视频”，也就是说，在sora的中间插了一步画面风格选择。

即梦生成图片之后，除了同样可以生成视频之外，支持画布编辑、超清图、细节修复、局部重绘、扩图和消除笔等功能。

而秒画，则在prompt的细节上有着较为“Midjourney”的表现，如优化提示词、负向提示词以及加速模式等，大有对标Midjourney的意图。

值得一提的是，除了上述的29个基模型，在模型广场中，一共呈现了74个不同风格的模型（包含29个基模型在内）。

公平起见，在上述测评中，我使用的仍然是默认的Artist v1.0 Alpha模型。大家在使用时可以自取所需，反复探索。

总评环节

总的来说，可灵、即梦和秒画在AI绘画这个产品上各有特点。

在我看来，人像模块，可灵对中国面孔有着更好的理解，更少的“网红感”，更多的东方味道。外国面孔，秒画有着更好的细节。

绘画里，三位选手对传统诗歌内容都有着较好的理解能力，秒画对水墨画的艺术概念更清晰，但在人像速写中，可能会出现不稳定的情况，可灵则表现得更好。

写实中，可灵和即梦都理解了需求，而秒画似乎还沉浸在绘画的命令里。

3D虚拟版块，三家难分伯仲，不难理解，AI绘画为何会成为创作者的灵感来源。

再创作领域，可能需要提前垫图，不然可能会得到相当魔性的画风。AI的理解力，尚未延伸到我们的文化生活。

使用门槛上，三家的操作都较为流畅，可灵和即梦有着基础66分左右的灵感值（通行货币名称），省着点用，可灵可以生成大约300次，即梦60多次，两者每天签到都送积分。秒画则是每天免费10次生成，更多次数或可邀请好友一起领3天无限卡。

我是余杨，致力于发掘 AI 的实用场景，如果你也有观点、想法或想看的测评，欢迎和我交流。如果你喜欢这期内容，别忘了一键三连，因为这是我探索更新的动力，我们下期再见～

AI燎原

一群来自虎嗅科技组的同学，制作了这个源流。