作者:何伊然,编辑:刘宇翔,题图来自:视觉中国
作者:何伊然,编辑:刘宇翔,题图来自:视觉中国
进入2024年,AI赛道依然风光无限。微软投资的OpenAI推出了Sora,引爆了文本生成视频热潮。英伟达拿出了创纪录的财报,今年以来,英伟达股价涨幅超过40%,冲上了历史最高点,公司市值一度超过了谷歌和亚马逊。
在OpenAI、英伟达辉煌战绩的映衬之下,长期以来被视作硅谷最富有创新精神的AI旗帜谷歌的表现却显得有些迷茫。
2023年1月,谷歌CEO桑达尔·皮查伊(Sundar Pichai)透露,谷歌将裁员12,000名人,约占当时员工总数的6%。今年1月18日,皮查伊再度宣布2024年将继续裁员,至今谷歌已裁员1,000多人,并且Pixel、Fitbit和Nest硬件团队现已合并统一管理。
谷歌裁员、重组就是为了更聚焦AI,以应对OpenAI凶猛的攻势,然而,就在英伟达财报公布的同一天,谷歌也登上了社交媒体的热搜,原因却是其AI模型Gemini翻车了。
一
社交媒体上,有用户抱怨道,在谷歌AI模型Gemini的世界里,似乎不存在白人。
用户输入“创建一个教皇的图像”的提示文字后,Gemini生成了黑人男性教皇和黑人女性教皇的形象。
众所周知,历史上和现任教皇都是白种人,Gemini将教皇默认为有色人种的举动让用户颇为不解。
许多用户纷纷上传自己使用Gemini生成的图像,结果大家惊讶地发现,只要不给出明确的白种人提示,Gemini生成的人物基本都是有色人种,就连明确给出“马斯克”的文字提示,生成的人物图像皮肤都变黑了。
“Gemini似乎不知道有白种人的存在。”AI模型在多元化问题上表现出如此不合常理的偏好性还是引起了用户们的不满。常年在互联网一线冲浪的首富马斯克发布多则推文“埋汰”谷歌AI,嘲讽谷歌打着政治正确的旗号,旗下多个产品却在给用户传达虚假信息。
随后,谷歌高级副总裁拉加万在博客道歉,谷歌官方承认在设置中做了特殊设定,以规避产品陷入AI常见的陷阱中,比如生成具有风险因素的图像,但是Gemini表现“未能达到预期效果”。
众所周知,AI大模型是在互联网海量数据的基础上打磨出来的,从现实来看,由于科技圈话语权的问题,英文世界的内容会在机器学习中占据更大比重,这会出现明显的侧重偏差。
有业内人士分析认为,谷歌为了平衡,可能在后台为用户输入的提示词增加了更具体的多元化描述,并且在设置上将包含多元化元素的内容优先级提前。牵一发而动全身,谷歌为了平衡的过度干预反倒让AI大模型不够智能和灵活的一面暴露出来。
谷歌宣布,将根据用户反馈调整设置,暂时关闭Gemini图像生成功能。
2月23日,马斯克洋洋自得地发推称,谷歌的人给他打了一个小时电话,承诺将修改Gemini存在的种族歧视问题。他话中有话地写道:“时间会验证一切。”
二
Gemini图像生成功能的翻车表现在社交媒体引发的狂欢完全盖住了谷歌正经消息的热度。这大概率是“劈柴哥”(皮查伊的外号) 完全不想看到的,因为他正卯足劲为谷歌的AI产品造势。
“Gemini是我们当今广泛使用的最大、功能最强大的AI模型。”当地时间2月21日,谷歌发布了新一代开源模型Gemma。Gemma在拉丁语中意为“宝石”,是谷歌最新的LLM模型,采用了与创建Gemini模型相同的研究和技术。
官方宣传显示,Gemma 7B在MMLU(大规模多任务语言理解)得分率达到64.3%。同等规模中,原本最强Mistral 7B的得分率为62.5%。目前,Gemma是轻量级中“最先进的”开放模型系列。
Gemma系列有两种参数规模,分别为“Gemma 2B”和“Gemma 7B”,即20亿参数和70亿参数。每个规模又分预训练和指令微调两个版本。每个参数都有基本和指令调整的变体。7B参数用于在消费级GPU和TPU上高效部署和开发,2B版本则可直接在笔记本电脑上运行。
除了开源,谷歌还公布了Gemma的性能、数据集组成和建模方法的详细技术报告。需要注意的是,Gemma支持的词汇表大小达到了256K,这使得它可以给英语之外的语言提供更好更快的支持。
发布会后,Gemma第一时间在知名开源模型库HuggingFace和HuggingChat上线,并迅速登顶“大语言模型榜单”。同时,谷歌还推出了鼓励协作的工具以及使用Gemma模型的官方指南,使用Gemma的研究人员还有机会得到高达 50万美元的 Google Cloud 积分。
不仅如此,谷歌还拉来了正在聚光灯下的英伟达背书支持。英伟达表示,已经和谷歌展开合作确保 Gemma 模型可以在旗下芯片上顺利运行。英伟达称,将开发与 Gemma 配合使用的聊天机器人软件。
目前,Gemma的竞品主要包括:Meta 的开源大型语言模型 Llama 2、Mistral AI 的 7B 模型、Deci 的 DecilLM 和微软的 Phi-2。
谷歌官方特意强调,Meta的开源模型通过许可条款限制大型科技公司商用,Gemma没有任何限制,在负责任并遵守安全标准的情况下,任何规模的组织都可以商业使用。
显然,为了兜售Gemma重夺AI领先地位,皮查伊可谓拼了。
但Sora的吸睛表现、英伟达出色的财报和社交媒体的狂欢让Gemma模型发布的热度被限制在了行业内部,并没有引起外界的多少关注。
甚至赫利俄斯资本(Helios Capital)创始人阿罗拉还发布了一条耸人听闻的消息,称皮查伊可能会因Gemini重大舆情事件而被解雇或辞职。
虽然,该消息并未获得证实,但显然资本市场对皮查伊已多少有些不满。
三
自皮查伊上任以来,作为AI行业先导者的谷歌,频频给人一种“凡事慢半拍”的观感。
在离职员工打造的AI独角兽成长为了科技圈新贵,微软后来居上全面在软件服务拥抱AI的时候,谷歌的高层似乎还陷在应对监管机构频频开展的反垄断调查,顾虑AI应用带来科技伦理问题,因而迟迟不敢行动的泥潭里。
在AI底层架构来看,谷歌AI仍是王者一般的存在。
当下最火爆的生成式AI应用背后都离不开Transformer框架,而这一框架是谷歌的研究人员在2017年发布的。Transformer迅速成为自然语言处理领域的标准模型,帮助OpenAI解决了循环神经网络(RNN)长距离依赖问题,这才有了ChatGPT性能的飞跃式提升。
在AI基础设施领域,和其他科技巨头一样,谷歌也在走自研路线,并不想被英伟达拿捏了。谷歌推出了专为深度学习打造的张量处理器(TPU)。TPU在语音识别、图像处理等方面取得了显著表现,对英伟达的GPU发起直接挑战。按照官方的数据,TPU v5p在速度上不输甚至可能优于英伟达的H100。
此外,谷歌的BERT和EfficientNet等成果,也在自然语言处理和计算机视觉领域产生了重要影响。
2018年起,谷歌在AI领域展现出来的姿态是拼命卷自己、继续抓住在行业内的话语权,但在面向普通用户的消费端应用上保持低调,却更多是后台行动。
这可能与谷歌的搜索引擎的商业模式,以及其被反垄断监管机构盯上有关。谷歌的搜索引擎长期以来是行业霸主,全球市占率超过90%。如果谷歌大张旗鼓地推广AI机器人,并率先将其引入到搜索引擎对话框中,势必会引来新一波反垄断调查,还会直接影响到谷歌的根基——广告业务收入。
但在搜索引擎市场市占份额很小的微软,则不需要考虑商业收入,也不需要忌惮反垄断监管,重注 OpenAI,然后ChatGPT推出,马上在Bing中引入GPT。毕竟,微软作为进攻方,只要能从谷歌手里切下更多的份额就是胜利。
所以,谷歌不是输在技术维度。事实上,无论从哪方面看,深厚的技术储备、广泛的应用场景、领先的技术前瞻、丰富的数据资源和扩展中的生态系统都证明谷歌在 AI 领域有着巨大的潜力。
但OpenAI的火爆程度和微弱咄咄逼人的布局速度可能超过了谷歌的预期。一旦竞争对手在消费者心中建立起了固定印象,扭转市场竞争形势的难度会几何倍数增长,谷歌因种种顾虑而选择的稳妥保守的策略就不得不变了。
所以,最近一段时间,谷歌裁员、重组,聚焦AI,接连发布了Gemini和Gemma,试图重夺AI行业领头羊,也是皮查伊向董事会、资本市场证明其能力的放手一搏。
只是“Gemini歧视白人”的网络舆情爆发却完全抹去了皮查伊的努力,所以才爆出其可能被辞职的消息。在皮查伊的领导下,谷歌出于政治正确过于强调多元化,人为干预、调整模型参数,现在反而被舆论所反噬。
这位非技术出身的 CEO,越来越多地被拿来与其印度“老乡”微软CEO萨提亚·纳德拉(Satya Nadella)做比较。纳德拉担任微软CEO后,聚焦云服务,改变微软的商业模式,重注OpenAI,将微软从“互联网时代的活化石”变成了云服务、AI的引领者,微软的市值也从约3,000亿美元增长到超过3万亿美元。
而此前市值与微软难分伯仲的谷歌,如今市值只有1.7万亿美元。同为印度裔,同为超级科技公司 CEO,相比纳德拉,皮查伊更显得乏善可陈。
面对崩坏的口碑、平淡的股价,留给皮查伊的时间,可能确实不多了。
支持一下 修改