1 1 2 2 3 3 4 4 5 5 文集 深度 号外 热文 时间线
GPT-4o的P图全家桶有多强?连Midjourney CEO都坐不住了
2025-03-27 21:29

GPT-4o的P图全家桶有多强?连Midjourney CEO都坐不住了

本文来自微信公众号:AI好好用 (ID:almosthuman2017),作者:佳琪,题图来自:AI生成

文章摘要
GPT-4o凭借高保真图像生成、智能文字排版和多风格转换功能引发热议,用户案例显示其可快速生成真实照片、设计素材及创意视频。操作简便性远超Midjourney等工具,但汉字处理仍有不足。Midjourney CEO质疑其生成速度和质量,并预告新版本将超越。

• 🎨高保真图像生成:能生成接近真实的照片,甚至让摄影师和审核难以辨别AI痕迹。

• 🖼️智能文字排版:支持菜单、海报等复杂设计,文字与画面融合度较高。

• 🔄多风格转换:轻松实现宫崎骏、梵高等艺术风格转换,保留人物核心特征。

• 🛠️全能P图工具:支持抠图、换衣、扩图等功能,操作门槛低且效果惊艳。

• 📱用户创意爆发:网友用GPT-4o生成电影级视频、表情包和品牌营销素材。

• 💥行业争议:Midjourney CEO嘲讽GPT-4o质量差,预告v7版本将夺回关注。

不会PS也能赢麻了!


这句话我们已经在各种各样的AI生图工具那里听了太多遍,不过,这次GPT-4o好像玩的是真的。


打开社交媒体,无论是X还是小红书,都被GPT-4o生成的图片刷了屏。上次AI产品能让全网这么嗨玩,可能还是DeepSeek R1。


随机掉落几个案例,震撼一下还没刷到的朋友,比如下面这张论文插图,就是GPT-4o做的。


来源:小红书@陆导


宫崎骏画风的特朗普“积极坦诚对话”泽连斯基,GPT-4o做的。



约稿一张5块的日本小人,GPT-4o做的。



排版精良的长图海报,GPT-4o做的。


来源:小红书@张一凡


3D深度图,GPT-4o做的。


来源:小红书@小崔大口吃汤圆,原博主评论:“虽然现在图像还有些瑕疵,但是这空间能力和affordance推测能力提升有点太大了。”


各种风格的头像随心切换,还是GPT-4o做的。


最左为原图,分别改为迪士尼、吉卜力、史努比和星露谷风格


最重要的是,以上这些操作,GPT-4o几乎都是一次成功,无需多轮对话修改。


再加上AI视频的魔法,一部宫崎骏风格的《星际穿越》就这么水灵灵地做出来了。



视频来自X@kb24x7


制作步骤其实只有两大步:第一,用GPT-4o生成首尾帧;第二,把这些图片放到Morphic等视频生成平台输入想要的动作效果,再剪辑拼合。


那么问题来了,AI绘图工具明明多如过江之鲫,为什么是GPT-4o破圈?


答案也很直观,首先是好看。AI生图,颜值即正义,效果如何一眼就能看出来。


就拿生成微信公众号封面来说,同一段提示词,即梦和GPT-4o端出来的作品,不需要投票,从构图到配色,相信大家心中也有判断。


提示词:A pair of pastel-colored headphones with a gradient from blue to purple,floating in a soft pink background.In the center of the headphones,there is a small ball with the word "mureka" written on it in a playful font.The image should have a 3D,cartoonish style.colorful background.


图左来自即梦,图右来自GPT-4o


其次是足够简单,能达到这么好的效果的,操作比对话复杂得多,特别是Stable Diffusion和Midjourney,至今仍需要复杂咒语。至于还想更精细,就只能自己微调lora或者训练模型了。


而风格化、抠图、带文字排版,在其他平台要手动框选,在页面之中跳转的功能,GPT-4o都包揽在一个对话框里,效果还更强。


综合来看,结合了“能打”和“好用”的GPT-4o这次主要带来了几大杀手锏:


  • 高保真真实照片


  • 有审美的文字排版:从海报到梗图,不仅准确,字在哪里都听你指挥


  • 各种风格、滤镜随心切换


  • P图全家桶:抠图、换脸、扩图样样行,还能结合不同图片中的元素“炖”出一张新图来


听起来很厉害?让我们一项一项地来看,GPT-4o是不是真的这么神。


真实感


这居然是AI生成的吗?摄影师看了沉默,平台审核看了流泪,以后我们还看得出照片里的AI味吗?


提示词:帮我生成一张身着白裙的女生,比着剪刀手,在佛罗伦萨的旧宫门口拍的照片。



不过,GPT-4o偶尔也会翻车,不仅没画出小米su7的“樱花”轮胎,还把雷总生生卡在了车外。


提示词:雷军从小米su7里探头比耶,背景是武大樱花,照片尽可能接近真实。



文字排版


无论是菜单、婚礼请柬、漫画、科研插图,只要是需要排版的图片,GPT-4o真的带来了一种“aha moment”的感觉。


除了字体边缘稍为有些模糊之外,这个菜单似乎可以直接放在餐厅用了。


图源微信公众号:赛博禅心


不过,虽然排版够用了,GPT-4o的汉字写得还不太好。



以后直接把论文方法扔给ChatGPT,配图就可以出来了:


图源:小红书@云安


提示词写得稍微简单一些,这个配图也是next level了:



想要更复杂的设计,网易云听歌年度报告也能安排。当然,相比英文的准确度,GPT-4o的汉字还亟待进步。


图源X@歸藏@op7418


最重要的是,GPT-4o多模态能力是原生的,它可以理解你的需求,在不提供文案的情况下,它也能续上画面中的主体和对话。



要知道,主体一致性至今也是视觉生成的难题。在GPT-4o出现之前,大家一般会用Stable Diffusion和ControlNet来治疗生图模型“选择性失忆”的问题。


但是现在在GPT-4o里,主题一致性已经完全不再是问题。


图源:X@emollick


不仅完全告别即使是输入图像主题参考,每次抽卡的人物也都各有各的抽象。现在根据上下对话中的结果,GPT-4o就能稳定输出,角色特征分毫不差。


图源:X@zhansheng


风格化


都说GPT4o一出,宫崎骏的天塌了一半。


现在X上最火的,就是把各种各样的名场面让GPT-4o用宫崎骏的风格再画一遍。无论娱乐圈,还是科技圈,哪怕已退生物圈,都逃不掉。



OpenAI CEO Sam Altman把自己的头像改成了吉卜力风格的自己




虽然换了画风,但是画面中人物本来的面部特征,都得以保留,不一一标出这些图片中的人物,相信大家都认得出来它本来的面目。


当然,除了吉卜力风格,任何画风它也能hold得住。


比如梵高风格的李逵,就连文字都能完美融入其中:



再比如,皮克斯CG 3D风格的伊利亚和奥特曼吵架神图:



还有泽连斯基和特朗普在白宫吵架的经典一幕,也被网友用GPT-4o转成了蜡笔小新风格:


图源:小红书@AI学习笔记


看来以后,网友的整活又多了一款神器。


满足基础设计功能


2023年底,美图秀秀和剪映曾推出了扩图功能,但画风相当癫狂,不是男女不分,就是人面兽身。


而GPT-4o也被网友开发出了相同的功能,效果相当惊艳,不仅能扩出小狗的全身,还能让它跑起来。



一键换衣,不用再提供10张全身照片:



仅需两张图片外加一句简单的提示词,就能让图一的人物跑到图二中的手机样机里:


图源:小红书@AIGC魔法学院


此外,GPT-4o还能直接生成带通道的照片,图中的人物、和背景都是分开生成的,不需要后期抠图,编辑起来方便了不少:


动图来源:X博主歸藏


看完了这些case,学绘画的朋友们,学comfyui的朋友们,你们还好吗?



当然,除了一片叫好声外,也有质疑声。据说今早,Midjourney的CEO就在内网大大嘲讽了GPT-4o一通:


GPT-4o生成图像又慢,质量又差。


他们开发这个功能只是为了筹集资金用的。


GPT-4o不是一款创意工具。


一周后(Midjourney v7即将发布),就没人会在讨论GPT-4o了。



至于Midjourney v7发布后,GPT-4o是不是还是这么火,我们无从得知,但我们将持续关注。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP