1 1 2 2 3 3 4 4 5 5 文集 深度 号外 热文 时间线
2024-06-21 09:46

Claude3.5发布,性能超越GPT-4o和Claude3 Opus

本文来自微信公众号:夕小瑶科技说 (ID:xixiaoyaoQAQ),作者:醒醒


Claude大模型又双叒叕更新升级了!


刚刚,OpenAI最强对手Anthropic官宣了Claude 3.5系列的第一个大模型——Claude 3.5 Sonnet。


各项评估的性能直接吊打Claude 3 Opus和GPT-4o,是当前最强大最智能的模型。



大白话解释下——今天Anthropic公司正式官宣的Claude 3.5 Sonnet模型是他们公司迄今为止最智能的模型,这也是3.5型号系列中的第一个版本。


不止如此,Claude作为最贵也是最慢的模型,这次Claude 3.5 Sonnet的速度是Claude 3 Opus的两倍,而成本却是Claude 3 Opus的五分之一,与上一代中等模型Claude 3 Sonnet相当。


效果暴打Claude 3 Opus和GPT-4o


话不多说,先看Claude 3.5 Sonnet的效果表现!


在编程、数学、视觉理解、高级推理上的指标都超越了上一代最强的Claude 3 Opus和GPT-4o。



速度与成本:


Claude 3.5 Sonnet比Claude 3 Opus快两倍,且价格更为亲民,是Claude 3 Opus的五分之一。



编码能力:


在内部编码评估中,Claude 3.5 Sonnet解决了64%的问题,显著优于Claude 3 Opus的38%。


视觉能力:



Claude 3.5 Sonnet现在是最强的视觉模型,在所有标准视觉基准上都超过了Claude 3 Opus。


在需要视觉推理的任务中,改进最为明显,例如解释图表、图形或从不完美的图像转录文本。



互动新方式:


引入了“Artifacts”功能,这是一项扩展用户与Claude交互方式的新功能,使用户能在动态工作空间中实时编辑和构建Claude生成的内容。


比如,当用户要求Claude生成代码片段、文本文档或网站设计等内容时,这些工件会出现在他们的对话旁边的专用窗口中。相当于创建了一个动态工作空间,可以在其中实时查看、编辑和构建Claude的创作,将模型生成的内容无缝集成到用户的项目和工作流程中。



Artifacts功能标志着Claude从对话式AI向协作工作环境的演变。


Claude 3.5 Sonnet为研究生水平推理(GPQA)、本科水平知识(MMLU)和编码能力(HumanEval)上都达到最优效果,而且在掌握细微差别、幽默和复杂指令方面有显著改进,这次模型升级,生成文本也更自然、更相关。


而且,Anthropic同时预告,这是Claude 3.5型号系列中的第一个版本,未来几个月内,Anthropic计划发布Claude 3.5 Haiku和Claude 3.5 Opus。


参考文献:

1. https://www.anthropic.com/news/claude-3-5-sonnet

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP