一手体验：最新发布的GPT-4o多模态生图，效果怎么样？-虎嗅网

今天日子是2025年3月26日。

OpenAI又是临时发了一个直播预告。

凌晨2点要发东西。

我：？？？？？？？？？？

当熬到2点看完了直播以后，我人都恍惚了，我怎么好像去年5月的时候，见过这个东西？怎么感觉特娘的我时间穿越回到1年前了？

翻了一下，果然……

2024年5月13号，GPT4o正式发布，那时候的blog里面，就说了GPT4o是一个原生多模态模型，不仅支持端到端的语音输入输出，其实也支持图片的端到端输入输出。

只不过，这一鸽，就鸽了一年，鸽得我都快忘了GPT4o原来也支持图片输出的……

感觉是Gemini的原生多模态用嘴改图给OpenAI逼急了，没办法，只能临时加塞把这玩意掏出来。

OpenAI的发布节奏，真的已经越来越不对劲了。

但是回到4o生图这个产品能力本身。

虽然说节奏稀碎，可OpenAI一年后掏出的这个产品，质量直接拉到顶，就跟DeepResearch把google的按在地上摩擦一样。

大家虽然都是原生多模态，都可以用嘴改图，但是GPT4o的绘图质量，就是可以把Gemini按在地上摩擦，就是当今的王，太牛了。

作为200刀的pro会员，我也在第一时间，就拿到了体验资格。

目前，有两个渠道可以使用4o Image Generation。

一个事ChatGPT，一个是单独的那个Sora的网站。

在ChatGPT上，当你画图的选项变成这个的时候，就说明用的不是Dalle3了，而是4o。

你就直接可以用嘴画图。

也可以，直接用嘴改图。

但是在ChatGPT上用，有一个问题就是，即使我作为200刀的Pro会员，他居然也限我流，才生成十几张，就给我限了，让我7分钟以后再用。

而在Sora上用的话，有个好处，就是速度极快，一次性可以跑4张，而且还无限用。

质量顶到飞起。

你可以把这个位置，改成image就OK了。

但是最大的问题，就是生成完以后的图片，不能进行多轮对话修改了。

现在ChatGPT和Sora的关系，越来越像豆包和即梦的关系了。

我从2点，跑图跑到4点，坦率地讲，我对4o的生图质量，是非常震惊的。

比我想象的还要好。

用过Gemini的就知道，虽然可以实现多模态改图，但是那个生图的质量，丑的不忍直视，能用，但是到不了生产力级别。

但是，4o可以。

我直接放一下我跑的纯生图case，改图的case放后面。

先看生图。

Prompt：冰霜巨龙盘踞在雪峰上，周身冰晶闪耀，龙息喷出寒气，背景狂风席卷雪花。

Prompt：山姆奥特曼在摘棉花。

Prompt：制作一张漫画风格的生日卡，上面写着“我希望你今天像动漫开场中的超新星一样闪耀！"

Prompt：创建一个多步骤表单用户界面设计的图像，简约一点，好看一点。

Prompt：创建一个索隆的女孩版动漫角色。

Prompt：创建一个包含所有元素的周期表卡通图像。确保每个元素框都标有元素的全名（如氦或氢）。在每个元素的框中，包含一个代表该元素的卡通图像。同时也包括一些完全随机的物品，而不是实际的元素，仿佛是在幻觉中看到周期表的成员。

Prompt：做一个用火龙果的外皮做的蜥蜴，照片必须逼真，整个鳞片都要是火龙果。

Prompt：一张坦率的狗仔风格照片，卡尔·马克思匆忙走过美国购物中心的停车场，回头用惊讶的表情看着，试图避免被拍照。他手里抓着多个装满奢侈品的光滑购物袋。他的外套在风中飘动，其中一个袋子在他迈步时摇摆。模糊的背景中有汽车和发光的购物中心入口，以强调运动。相机的闪光灯部分过曝了图像，给人一种混乱的小报感觉。

Prompt：画一个包含机器人运动学和动力学详细信息的海报。

Prompt：描绘一只对冒烟的计算机服务器机架感到困惑的水豚。

Prompt：一只猫用粉笔在街上写下“我是一只猫”的图片。

我还有太多太多太多跑出来的图想放给大家看了。

受限于篇幅，我只能放这么多，我推荐你们每一个人，都去试试。

诚然，4o当然还有很多小问题，比如手指细节可能有问题，比如海报里的公式都是错的，比如上面的元素周期表很多是不对的，比如你让他画中文有时候会干出英文或者日文等等。

但是，但是，这个质量，这个自由度，这个语义理解。

让我可以在这个阶段，无视他的所有那些细小的瑕疵。

我已经很久没有跑图跑得兴奋了，跑图跑得不想睡觉，这样的感觉，还在两年前，第一次看到Midjourney v5更新的时候。

太酷了。

当然，你并不是只可以文生图，当然也可以，图生图。

如今，你再也不需要什么SD、什么Comfyui、什么ControlNET插件，你就可以实现很多很多效果。

效果就是这样的，BUG就是4o无法区分句和勾：

又或者，把雷总经典手势转一下风格。

再或者，把拼多多的logo，改成青花风格。

又或者，把几张图融起来。

人物脸的一致性有一点瑕疵，但是这个融合效果，已经无敌到没边了。

Sora差不多就这样，ChatGPT上也可以用，效果跟Sora一样，反正背后都是4o，但是ChatGPT最大的好处，就是可以进行后续对话。

比如我先跑一个妹子的图片。

Prompt：创建一幅史诗般的现实主义图像，特写，1 个女孩，漂浮的蓝色头发，长发，水滴，湿润，手持武士刀，带有图案的蓝色和服，超详细。

我现在，想把她放到游戏海报上，直接嘴说就可以。

虽然在中文标题字的审美，跟即梦2.1相比还有一点差距，但是已经很好了，毕竟4o的主语言，是英文。

用嘴给图片改色调。

用嘴改变材质。

用嘴改屏幕里的UI（虽然有点乱码就是了）：

用嘴来改性别。

还有他们自己官方跑的，几个我觉得屌炸天的case，我觉得必须拿给大家看看。

上面这是AI直出的，甚至玻璃上的影子都是对的……

当年，Midjourney让世界见识到AI画师的潜能。

后来，Stable Diffusion把开源的火炬交到社区手里。

再后来，Gemini显露多模态的雏形，却始终差点火候。

如今，GPT4o原生多模态横空出世，用几乎成熟得可怕的质量，宣布了图像生成的新纪元。

如此高的生成质量，如此丝滑的多模态对话，已经不是能不能用的问题，而是能否彻底改变现有的AI绘图生态。

以及人们，做AI绘图的交互方式。

这是AI时代，也是我们的时代。

最后，说句题外话。

今天除了GPT-4o原生多模态上线，同时也是Gemini 2.5 pro发布。

然后，当4o发了之后。

我的X上的时间线……

就几乎全部被4o出图攻占了。

Gemini 2.5 Pro这一次，还是没抢过GPT-4o。

1.5 Pro被Sora淹，2.5 Pro被4o淹。

真的，听哥一句劝。

要不然以后咱就别发Pro，改个名叫Ultra吧。

你说好不……

本文来自微信公众号：数字生命卡兹克，作者：数字生命卡兹克