本文来自微信公众号:Web3天空之城(ID:Web3SkyCity),作者:天空之城城主,题图来源:unsplash,原文标题:《对AI创业者的灵魂拷问: 为什么是妙鸭相机做成了妙鸭相机(以及用户该知道什么)》
如果这两天还没听说过妙鸭相机,那你已经out了。
作为关心时尚的女生,你这两天不可能没注意到朋友圈的刷屏。众多画面精美仪容姣好的朋友照片,就问你心动了没?
作为互联网圈人士,你更不可能没注意到这个爆款在群里和圈里的刷屏讨论。特别是看到众多互联网圈外的朋友开始谈论这个应用的自拍照效果,很明显妙鸭已经出圈了。
妙鸭相机的主要功能就一个,拍摄上传20张个人清晰照片,然后后台基于AI模型生成各种场景下的自拍人像照。
这个想法说白了是简单, 但扛不住妙鸭相机生成图的效果足够好啊,好到让小姐姐们心花怒放,好到达成了爆发式的朋友圈自发晒图传播。
首先要恭喜妙鸭相机团队,这应该是国内第一个爆款AI应用。
让作者惊讶的是,原以为这是个创业团队的产品,后来一看是阿里(优酷)内部创业项目。
所以作者就有了题目里这个面向所有AI创业者(特别是做AI绘画模型应用的创业者)的灵魂问题:
为什么是妙鸭相机做成了妙鸭相机?而不是其他团队做成妙猫相机或妙狗相机?
这个问题的重点是,妙鸭相机并没有任何独门秘籍,其所用的AI绘画模型技术都是公开的,甚至是代码开源的。
(这里补充说明一下,或许妙鸭或者阿里的朋友会来辩论说,可没说过妙鸭是用开源的SD和LoRA技术,或许是阿里内部自研的呢?作者也没看过源码,纯属含笑猜测)
熟悉AI绘画模型技术的同学基本都可以一眼看出, 妙鸭相机背后的技术,是一种称之为LoRA模型的微调技术。
什么是LoRA?
LoRA全称是:Low-Rank Adaptation of Large Language Models,是一种对大型语言模型进行定制化微调的技术,它允许使用很少的数据就可以训练出具有特定风格或特征的模型。它只需要训练一个低秩的参数矩阵,然后将这个矩阵注入到原始模型中(就是矩阵参数线性相加),可以改变原始模型的生成结果。
对于小开发者来说,LoRA是一个非常有用的工具,可以在不修改或重新训练整个大语言模型的情况下,使用少量样本定制化语言模型的风格和特征。
从LoRA的全称可以看出,这个模型调整技术最早起源于NLP领域, 类似GPT这样的大语言模型参数太多,重新训练代价太大,聪明的人们想了这个折中的办法,低成本而高效的调整模型。
但LoRA模型受到更多关注是在AI绘画模型领域。
在约半年之前, 热爱美少女图的二次元开发者们持续改进基于Stable Diffusion(SD)的AI绘画模型, LoRA作为一个模型插件被加入SD生态,SD的LoRA插件就用来做一个事情,来给人脸定型!
在有LoRA之前,SD出图具有随机性,即便使用素材照片垫图生成的方式,也很难控制出图的人脸保持和素材一致。但LoRA一举解决了这个难题。
有关注AIGC生图的朋友肯定会发现,近半年来, AI生成的韩日风格美少女图数量和质量都猛增,在小红书等平台上大火,很是收割了一波流量。这背后都是LoRA模型的功劳,热心的社区开发者用日韩美少女的头像训练出了直接可用的LoRA模型分享到了模型社区C站上,直接让普通用户生成美少女AI图的门槛降到了零。
可以说,过去半年,AI绘画模型领域最大的两个技术成果之一就是LoRA;而另外一个,正是控制人物身体和手部姿势的ControlNet。
不过,有趣的是,尽管这在AI绘画技术社区属于人人皆知的知识点,但对于圈子外的人们,并没有很多人了解AI绘画模型的进步,甚至都能精确控制人脸了。
这里的关键是, 精通LoRA和AI绘画模型能力的大都是些直男们,生成的也是一些直男审美的小姐姐图,发在视频号和小X书收割一点直男的流量,完全不出圈。
但妙鸭相机应用的妙处在于,它异常精准地找到了一个痛点,用LoRA技术给小姐姐们生成水平非常在线的自拍真人照。
小姐姐们最大的痛苦是什么?不就是没有一个会拍照的老公/男朋友吗?小姐姐们看闺蜜们发圈好看照片的内心大多是:如果我也有个好摄影师,去这场景里拍也一定不会比你差!
而现在,9块9就解决了这个问题,半杯星巴克咖啡的钱,还有什么好犹豫的呢?充值!出图!发圈:)
而这也是妙鸭相机APP让人眼红的地方,破圈爆火的同时,就已经完成了商业化的闭环。这和MidJourney的出圈非常像。就是不知道妙鸭是否能走出MidJourney的长线光辉路径。
回归标题,这个事情对于AI创业者的严肃拷问是,为什么是妙鸭先做了这个事情?就使用了一个对AI创业者毫无秘密可言的技术。
SD的LoRA已经出来快半年了,在这半年里,我们听了很多所谓AI应用如何能出爆款的讨论;现在好了,爆款来了,做AI应用的创业者团队应该闭门好好反思一下,半年过去了,为什么自己没有想到这个点?一个这么显而易见的痛点。
其实妙鸭相机还有很多不完善的地方,最大的问题是上传数十张照片后居然要等超过10小时才能看到成片,这门槛简直不可思议(虎嗅注:经编辑测试,今天下午已优化到约3小时,但还是相当高的门槛);即使这样,这个产品都能出圈爆火,大家想想这背后的用户需求有多大多迫切。
笑到最后的,很多时候都不是技术最顶尖的那个团队,而是最懂用户痛点的团队。妙鸭相机的产品决策者,显然值得一个巨大的年终奖。
如果妙鸭是小公司做的,现在估值已经很可怕了。当然,这样的产品完全不需要融资,就像Midjourney,从第一天开始就赚钱,投资人给钱都塞不进去。
其实一切都刚开始,作者丝毫不怀疑这个用户场景的持续性和用户的付费意愿,但是要观望一下,妙鸭的护城河有多高。作者的观点,可能不太高。美图秀秀的AI团队吧,他们应该现在就在24x7加班加点,复刻一个妙鸭相机的功能出来。(如果美图还没危机感,内部没动作,那就搞笑了)
不过,也有另外一种可能性。还是以Midjourney为例,开源的AI绘画模型那么多,为什么MJ还发展这么好,因为MJ模型的出图效果就是总比开源模型好那么半个身位,一直被追赶,从没被超越!
领先多少呢,根据作者这一年的密切使用和观察,基本是3个月而已。但已经足够。
所以,如果妙鸭相机团队已经找到了一些LoRA优化的独门秘籍,让自己APP的出图效果,不管是人脸效果还是场景融合效果,就是保持比其他后进的APP效果好3个月,那么就真的可以恭喜了。
如果作者是阿里高层决策者,现在就应调拨AI研发资源,全力支持妙鸭相机大模型的后续迭代,把握这个来之不易的先发优势和产品地位。
用户该顾虑什么
这里稍微发散一下, 从产品研发端岔开,谈谈用户们需要注意什么。
首先也可以再猜测一下,为什么其他团队没有用LoRA技术生成用户自己的AI图。或许不是没想过,而是感觉让用户上传几十张高质量自拍,而且还要经过超长时间等待才见到成品图,用户门槛简直太高了。
我们都低估了大众对自拍照的刚需。
作者作为业余摄影师,很少拍自己的照片,最近也有一些公众活动需要自拍照。
但如果问作者,是否会使用妙鸭相机制作,答案是明确的,不会。
妙鸭相机APP在上线之初闹过一个小风波,在APP使用协议里说明用户上传的照片授权平台任意使用权(大概意思)。
后来这个协议很快修改了,但这或许透露了团队一个不太好的初心,就是对用户隐私的关注和保护并不在这个团队的骨子里,否则在一个数据敏感的产品里,不会有这种初版用户协议。
当然,也许就是个无心之失,我们不要上纲上线,还是要鼓励创新。
但对作者而言, 之所以不会去用这样的云产品的理由是,因为作者知道LoRA的强大,这将意味着平台真正拥有了一个用户的人脸肖像模型,基本可以认为平台可以生成该用户任意场景的以假乱真的自拍照片,真实程度足以欺骗绝大多数人脸识别,除非有生物识别技术(就是判断当前识别的人脸是真人实时状态)。
我们已经把很多信息交给平台了,特别是阿里这样的超级平台,身份信息,财务信息……就作者而言,无论如何不会把完整的肖像模型也交给平台的。
我们可以信任平台不做什么出格的事情,但万一,出现黑客事件呢?
之前出过好几次大规模的个人信息泄露,那时泄露的是人名身份证手机号住址,下次,如果再加上你的肖像模型信息呢?
其实,解决隐私问题的正确做法是应该尽快让这类产品的LoRA训练放在个人手机上, 按照作者理解, 手机训练LoRA这样的微调模型是完全没问题的。这样就能彻底避免用户相片上传和后续的个人肖像模型隐私风险。而且,附加一个好处,用户不需要长时间排队了。
如果妙鸭相机后续能实现本地训练本地使用(当然,这需要把应用主体从小程序改为APP),那作者会立刻掏腰包付费使用支持。
不过,在本地实现完整功能或许不是团队所希望的,因为这意味着主要功能都在本地实现,不再需要云服务,也就不再有持续收费的强理由。
但作者想,只要做好产品,确保隐私的同时合理收费,比如增加各种VIP场景数据的云下载,只是保持个人肖像的LoRA模型在本地,商业收益不会是问题。
最后一点, 是关于AI如何改变大众的生活。
很多人都说,出了妙鸭相机,海马体就要倒闭了。这个可能性恐怕还真的有,至少生意不再会那么好了。打败一个照相馆的,永远不是另外一个照相馆。降维打击才是最可怕的。
AI必将深刻改变人类的生活,这就是一个绝佳的例子。做好准备吧,能亲眼目睹这一切来临,是我们的幸运。
本文来自微信公众号:Web3天空之城(ID:Web3SkyCity),作者:天空之城城主