1 1 2 2 3 3 4 4 5 5 文集 深度 号外 热文 时间线
OpenAI深夜反击DeepSeek,紧急上线o3-mini免费用
2025-02-01 07:48

OpenAI深夜反击DeepSeek,紧急上线o3-mini免费用

本文来自微信公众号:APPSO (ID:appsolution),作者:appso,原文标题:《OpenAI 深夜反击 DeepSeek!紧急上线 o3-mini 免费用,体验后发现差距在这》,题图来自:视觉中国

文章摘要
OpenAI推出o3-mini,提升推理能力与性价比。

• 🚀 OpenAI上线o3-mini,性能优于o1-mini

• 🌐 支持搜索功能,实时获取最新答案

• 🔒 安全性提升,误判率降低至14.8%

春节假期,来自东方神秘力量的DeepSeek撕裂了硅谷的舆论场。


一面是OpenAI、Anthropic等厂商的游说打压,一面却又见证了其盟友口嫌体直的态度,短短一夜之间,微软、英伟达、亚马逊等美国云计算平台纷纷向DeepSeek R1伸出橄榄枝。


面对DeepSeek声势的持续攀升,最有力的反制手段终究还是要靠实力说话。


今天凌晨,OpenAI正式上线了OpenAI o3-mini系列模型。



作为o1-mini模型的继任者,o3-mini是目前推理系列中最新且最具性价比的模型。OpenAI研究科学家Noam Brown在X平台发文称:


“我们十分高兴地推出了o3-mini,包括向免费用户开放。在多项评估中,它的性能表现优于o1。我们正在彻底改变成本与智能之间的关系。模型智能将持续提升,而获得相同智能水平的成本则会不断降低。”



o3-mini系列模型具体亮点如下:


  • o3-mini主打快速推理,o3-mini(high)擅长编码和逻辑;


  • 支持联网搜索,暂不支持多模态功能;


  • 训练数据经过严格筛选,安全合规表现有所增强


付费用户方面,ChatGPT Plus、Team和Pro用户现已可以使用o3-mini,企业版将在一周后开放访问。


OpenAI将Plus和Team用户的每日消息限制从o1-mini的50条提升至150条。Pro用户可享受o3-mini以及o3-mini-high的无限次访问,满足更高强度或更专业的推理需求。


同时这也是OpenAI首次向免费用户开放推理模型的使用权限,在ChatGPT消息输入框下方选择“Reason”按钮即可使用。



值得一提的是,OpenAI o3-mini集成了搜索功能,能够实时获取最新答案并附带相关网页链接,方便用户进行深度调研。


不过,目前这还是一项原型功能,官方表示未来将持续完善和扩展到更多推理模型。


o3-mini是OpenAI首个支持函数调用、结构化输出和开发者消息等高级功能的小型推理模型,支持开箱即用。


与o1-mini和o1-preview一样,o3-mini支持流式传输。


开发者还可以根据具体需求在低、中、高三种推理强度中进行选择,在复杂任务处理和响应速度之间取舍。


测试显示,o3-mini的平均响应时间为7.7秒,较o1-mini的10.16秒快了24%。同时,在专家评测中,有56%的评测者更倾向于选择o3-mini的回答,在处理复杂实际问题时的重大错误率也降低了39%。



o3-mini的系统卡提到,在为期一周的评估中,七位人类生物学专家与o3-mini(预训练版本)就复杂的生物学问题展开了多轮对话。


专家一致认为,即便在无法接入互联网的情况下,o3-mini的问答能力依然强大,不仅能够加速信息检索过程,还能提供互联网上难以找到的信息。



并且,专家们还发现该模型在文献综述与问题解答方面表现出色,能够快速且全面地梳理文献资料。不过也需要注意的是,模型偶尔会出现幻觉,导致细节信息有所偏差。


在核心能力评测中,o3-mini交出了一份亮眼的成绩单。在高等推理模式下,其在2024年AIME数学竞赛中达到87.3%的准确率。



博士级别的科学问答任务GPQA Diamond得分高达77.2%。



在竞技编程平台Codeforces上,o3-mini(high)更是斩获2130的ELO评分。



在软件工程领域,o3-mini同样表现不俗。


在SWE-bench验证测试中,高等推理模式下的准确率达到49.3%;使用内部工具框架时,这一数字更是攀升至61%。即便是使用开源的Agentless框架,o3-mini仍然保持了39%的通过率。



在人类偏好评估(Human preference evaluation)中,o3-mini(medium)在多个任务场景下胜率均显著高于o1-mini,无论是在STEM任务、非STEM任务,还是用户处于时间受限的情况下。


o1-mini则更加平均,但在胜率和错误率方面不如o3-mini(medium)突出。




o3-mini模型采用思维链推理(Chain-of-Thought Reasoning)训练方法,能够让模型在回应用户之前先对安全规范进行推理,因此在安全性和防越狱测试中的表现都有显著提升。


系统卡显示,o3-mini风险控制能力表现优异。


模型在说服、CBRN(化学、生物、放射性、核)和模型自主性方面呈现中等风险,而在网络安全方面则保持低风险,比如无法有效执行高难度黑客攻击任务,对真实世界的网络威胁能力有限。



此外,o3-mini在识别和拒绝危险请求时与GPT-4o旗鼓相当,同时大幅降低了对无害请求的误判,有效解决了过度谨慎的问题。



在幻觉控制方面,基于PersonQA数据集的测试显示,其错误信息生成率已降至14.8%的可控水平。



跨语言处理能力是衡量大模型实用性的重要指标之一。


o3-mini多语言处理能力测试横跨14种主流语言,包括阿拉伯语、中文、法语、德语、日语和西班牙语等,较o1-mini有明显提升。



o3-mini的成本显著低于o1(约便宜13.6倍),缓存输入(Cached Input)的成本是标准输入费用的一半。



论文作者栏也出现了熟悉的名字——Hongyu Ren(任泓宇)


任泓宇本科毕业于北大,对o1有过基础性贡献,也是GPT-4o的核心开发者,曾在苹果、微软和英伟达有过丰富的研究实习经历。



光说不练假把戏,我们第一时间上手实测了刚刚上线的o3-mini和o3-mini(high)两个版本。


首先测试o3-mini新增的搜索功能,让它查询OpenAI最新的融资消息,时效性不错,而且还能准确追溯到《华尔街日报》的原始报道。



接着,我们抛出一道脑筋急转弯“1=5,2=15,3=215,4=2145,那么5=?”这道题有两种解法:从脑筋急转弯的角度看,既然1=5,那么5=1;从数学逻辑推理来看,答案应为21485。显然,o3-mini也没答对。



为了进一步考验性能更强的o3-mini(high),我们抛出了一道统计题


“100个人回答五道试题,有81人答对第一题,91人答对第二题,85人答对第三题,79人答对第四题,74人答对第五题,答对三道题或三道题以上的人算及格,那么,在这100人中,至少有()人及格。”


o3-mini系列的“思考”过程都能显现,但与DeepSeek R1“碎碎念”式的思考不同,o3-mini(high)的思考过程反而更加简洁明了。



X网友问了一道关于凸函数的梯度流路径长度问题,o3-mini(high)成功经受了考验。



当被要求创作一个龟兔赛跑的故事,且需要遵循“前词尾字母等于后词首字母”的规则,并将篇幅控制在100词以内时,o3-mini(high)也交出了一份及格答卷。


从故事逻辑来看,尽管部分句子表达略显生硬,但故事仍然清晰传达了龟兔赛跑的核心寓意。



当然,也有网友抱着试试看的心态,请o3-mini挑战数学界的终极难题——黎曼猜想。


而有心无力的o3-mini也没上当,明确指出黎曼猜想仍然是数学界尚未解决的难题,因此无法提供一个正确的证明或反例。



事实上,AI在过去几年正以惊人的速度渗透至我们的生活。


从2023年的ChatGPT,到2024年的Sora,再到2025年的DeepSeek,每一年都有新的惊喜,AI的技术突破正在成为春节的赛博年货。


DeepSeek的崛起引发业界震动。各大AI巨头们表面上与DeepSeek保持距离,实则暗中认可并致力复现其在基础设施优化方面取得的“新颖的进展”。


Meta甚至专门成立团队,对其技术进行逐帧学习。


尽管如此,业内的一个共识是,DeepSeek很难冲击到必要的AI基建投资。


这一判断很快在资本市场得到印证。扎克伯格在内部会议重申追加600-650亿美元资本投资的计划,OpenAI也传出与软银洽谈巨额融资的消息,投后估值可能达到3000亿美元。


生于斯长于斯,OpenAI o3-mini一定程度上也是脱胎于先前的AI基建投资热潮。


但就这款轻量级模型而言,o3-mini同时也更深层次预示着AI行业竞争的小切口正在从规模转向效能,如何以最优成本创造最大价值将成为发展的新命题。



对于OpenAI而言,短时间夺回舆论热度并不难,但要想在这场日趋火热化的竞争中确立真正的优势,技术品牌形象的价值也同等重要。


尤其是,被誉为真正OpenAI的DeepSeek已经开始牢牢占据开源AI领头羊的生态位。


闭源的围墙越高,开源的力量越显珍贵。2025年,开源与闭源真正的较量或许才刚刚开始。


本文来自微信公众号:APPSO (ID:appsolution),作者:appso

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定
赞赏文章的用户1人赞赏