本文来自微信公众号:APPSO (ID:appsolution),作者:appso,题图来自:视觉中国
本文来自微信公众号:APPSO (ID:appsolution),作者:appso,题图来自:视觉中国
在最近的一次采访中,OpenAI CEO Sam Altman透露,ChatGPT的周活跃用户数已突破4亿。他表示,全球约10%的人口在使用OpenAI的产品,这也意味着用户总数接近8亿。
然而,亮眼成绩单背后却是难掩的焦虑。这种“不安全感”最直观的体现是,随着今年AI竞争日趋白热化,Sam Altman在X平台发文宣传的频率也显著增加。
一大早醒来,我们就看到Altman在X平台发文称:
我们为你准备了很多精彩内容,就在接下来这一周!明天就正式开启,敬请期待!
熟悉的配方,相似的味道,这已经是Altman第N次这样预告了,按照惯例,这些“精彩内容”通常雷声大雨点小,实际效果有待观察。
不过,根据近期爆料,本周OpenAI的新品似乎确实有些看头。
GPT-4.1:GPT-4o多模态模型的全面升级版本,同时还将推出精简版模型,包括mini和nano两个版本。
o3、o4 mini、o4 mini high
Mogao:在图像生成模型评测平台Artificial Analysis的Text-to-Image Arena中以1164的高分力压GPT-4o。
A-SWE:宣称具备“自主能力”的软件工程师,可以独立开发应用。
一款强大的接近前沿水平的开源模型。
GPT-4.1“偷跑”?还有一大波新模型来袭
在OpenAI的产品线中,大语言模型的更迭无疑是最值得关注的焦点。
去年5月,OpenAI正式推出了多模态语言模型GPT-4o,该模型可处理文本、音频和图像的任意组合输入,并生成相应输出。
前几天,据The Verge报道,GPT-4.1预计将于下周发布,作为现有GPT-4o多模态模型的全面升级版本,同时还将推出精简版模型,包括mini和nano两个版本。
而在GPT-4.1发布前,一款名为“Optimus Alpha”的神秘模型也因为在AI模型聚合平台OpenRouter的优异表现,而被认为是OpenAI“偷跑”的GPT-4.1测试版。
据官方给出的数据显示,Optimus Alpha支持100万token的上下文窗口,最大输出为32K,首个Token延迟中位数仅有0.8秒,输出速度中位数为每秒20.65个Token。
目前该模型已经处理了超过1000亿Tokens。
介绍中还提到,Optimus Alpha主要面向现实世界中的任务,并提及了编程。当我们直接对话询问其“你是谁,来自哪个版本的模型”,它表示自己是由OpenAI开发的ChatGPT,基于GPT-4打造。
而据网友发现,Optimus Alpha与此前的Quasar Alpha模型(目前已下线)似乎有着相似的关系。
此前,有网友发现在试图用Quasar Alpha进行中译英违规操作时,模型的拒绝回答方式与OpenAI的GPT-4o十分相似,而该违规操作似乎只有OpenAI的模型会出现拒绝。
据AI研究员Sam Paech发现,Quasar Alpha与GPT-4.5-preview十分相近。
Altman也曾发文暗示了Quasar Alpha的身份或为OpenAI模型的一员。
据实际测试,Optimus Alpha再次重现了上述的中译英违规问题。同时,Paech也在最新的谱系图中加入了Optimus Alpha,而与其最接近的模型是上个月刚更新的ChatGPT-4o。
从时间上显示,Quasar Alpha的下架时间是Optimus Alpha上线次日。结合上述信息来看,Optimus Alpha与GPT-4.1之间或许存在某种联系,甚至很有可能是GPT-4.1的提前泄露版本。
此外,AI工程师Tibor Blaho在挖掘ChatGPT网页代码时,也发现了o4 mini、o4 mini high以及o3的相关信息。
考虑到The Verge报道称o3和o4 mini计划于下周亮相,以及Altman也曾表示,o3和o4-mini将很快发布,显然,发布时间极有可能就在本周。
当然,基于OpenAI一贯的“画饼”风格,通常在发布现有产品后,还会抛出一个更大的“饼”,此前,Altman宣称GPT-5发布暂缓,可能在几个月之后才发布,或许在本周,我们将看到更多消息。
力压GPT-4o,神秘AI图生模型现身
在大语言模型之外,AI图像生成领域也出现了一些新动向。
一款名为Mogao的神秘AI图像生成模型在评测平台Artificial Analysis的Text-to-Image Arena中以1164的高分力压GPT-4o,一举登顶排行榜首位。
作为一个评估文本到图像生成模型的平台,含金量颇高的Text-to-Image Arena通过收集人类偏好数据,参与者根据提示词比较两张生成图像,选出更符合要求的那张。
每个模型生成超过700张图像,涵盖人物肖像、群体、动物、自然和艺术等多种风格。平台基于超过4.5万条人类偏好数据,计算各模型的Elo分数,形成排行榜。
此前,OpenAI凭借GPT-4o全新的多模态生成能力,尤其是其吉卜力风格的图像生成,狂揽百万新用户,其应用下载量、活跃用户数和应用内订阅收入也再创新高。
因此,尝到甜头的OpenAI趁势推出新图像模型,显然也在情理之中。
更早些时候,Altman发文暗示OpenAI正在开发“Image gen V2”。网友@JasonBotterill3也发现,当让GPT-4o与Mogao基于同一提示词生成图片时,则会得到十分相似的视角。
据体验过后的网友表示,Mogao在文本生成方面表现平平,依然属于扩散模型的范畴。并且,Mogao的命名让人联想到莫高窟,也有观点猜测其可能源自国内的AI厂商。
此外,OpenAI近期更新了API访问规则。未来,用户需通过身份验证(使用OpenAI支持国家/地区颁发的政府身份证件,且每90天一个证件只能验证一个组织)才能访问其最新大模型。
未通过验证将影响模型使用,而访问规则的收紧,或许也是为了本周OpenAI发布的新产品护航。
All In Agent,AI程序员A-SWE或登场
根据OpenAI的五级AGI理论,以ChatGPT为代表的聊天机器人属于第一层,但正如Altman所强调的,ChatGPT不是AGI,它无法自主学习、改进自身或独立完成复杂任务。
相比之下,处于第三层级的Agent则已经展露了AGI的雏形,能够自主地执行任务、作出决策,并在较长时间内适应变化,且无需持续的人类监督。
OpenAI算是国内外最早一批布局Agent赛道的厂商之一。
除了早些时候发布的Operator,OpenAI CFO Sarah Friar今年3月份在伦敦高盛峰会上的采访视频也透露了一些细节:
接下来我们要推出的是我们称之为A-SWE的产品。顺便说一句,我们的营销水平确实不是最强的(笑),A-SWE指的是“自主型软件工程师(Agentic Software Engineer)”。
她表示,A-SWE不只是像现在Copilot那样辅助你团队中的软件工程师,而是真正具备“自主能力”的软件工程师,它可以独立为你开发一个应用。
只需要像给普通工程师一样提交一份PR(Pull Request),它就能独立完成整个开发过程。
它不仅能完成开发,还能做所有工程师最讨厌的那些工作:它会自己做QA(质量保障)、自己测试并修复bug、还会写文档——这些通常很难让工程师主动去做的事。所以,你的工程团队战斗力将被极大地放大。
口号与现实之间往往存在差距。尽管OpenAI也曾渲染AI将取代程序员,但在OpenAI的招聘板块,程序员的需求依然居高不下。
当然,观察OpenAI新产品的动态,就不能仅局限于它一家。其他AI厂商的最新发布同样值得关注,届时很可能会上演“狙击”与“反狙击”的精彩较量。
比方说,随着DeepSeek R2的发布临近,Sam Altman上周末也承认OpenAI在这方面行动较晚,强调他们正在开发一款强大的接近前沿水平的开源模型。
开源AI部署平台Ollama的官方推文也间接印证了这一消息,暗示OpenAI在开源战略上即将有实质性的动作。
如无意外,本周将再次上演各家AI巨头“秀肌肉”的名场面,从模型升级到开源策略,AI产业的竞争正在全面铺开。
支持一下 修改