本文来自微信公众号:极客公园 (ID:geekpark),作者:宛辰,编辑:靖宇,题图来自:视觉中国
本文来自微信公众号:极客公园 (ID:geekpark),作者:宛辰,编辑:靖宇,题图来自:视觉中国
当地时间7月23日早上,Meta开源了外界期待已久的大参数模型——Llama 3 405B。
Meta发文称,该模型在多项基准测试中优于GPT-4o和Anthropic的Claude 3.5 Sonnet。并且,扎克伯格预计,由Llama3支持的Meta AI(Meta的人工智能助手)使用量将在未来几个月内超过ChatGPT。
比肩世界上最强大模型的Llama3.1开源,社交平台X上,很多人将这一事件视为历史、拐点、史诗级时刻,这意味开源、闭源之间的差距进一步缩小乃至反超,还意味着开发者从此有了一个免费的最强基座模型在手。
在扎克伯格看来,这个拐点时刻则意味着“Llama有机会成为开源AI的行业标准”,就像Linux之于移动互联网一样。
但与之相反,不少从业者指出一个问题,4000亿参数量级的密集模型,即便开源,很多人可能也用不起来,尤其是考虑到运行如此规模模型的算力集群的复杂程度,再加上比较高的运行、推理成本,真正能用得上、用得转的开发者并不多。
去年Llama2开源时,外界原本期待Meta逐渐开源最强模型后,可以瞬间免费地加持所有人,直接拿来探索AI应用。但现在似乎不同,从最强模型中蒸馏小模型,成为了Llama 3 405B新的产业意义吗?
一、Llama3.1:比肩GPT-4o,非MOE架构,但多模态能力仍是期货
早在今年四月,Meta先开源了Llama3系列的两个小参数版本的模型,8B和70B。比起几个月前的Llama 3,现在推出的Llama 3.1升级了先前的8B和70B模型,还发布了迄今为止最大的开源模型Llama 3 405B——后者拥有4050亿个模型参数,采用了密集Transformer架构,具有128K的上下文窗口。
相比Meta去年7月发布的Llama2,迄今为止最大、最好的开源模型Llama3.1在众多方面做了升级。
数据:使用了约15T的多语言token,相较于Llama 2的1.8T有显著提升。
规模:Llama 3的训练规模是Llama 2的50倍,模型参数和训练计算量均大幅增加。
复杂性管理:选择标准的密集Transformer架构,而非混合专家模型,以确保训练的稳定性。
截图来源:Meet Llama 3.1
与行业水平相比,Llama 3在多项任务上有着与领先模型(如GPT-4)相当的性能,其在多个基准测试中表现优异,包括:
通用:在MMLU、GSM8K等基准上表现突出。
编程能力:在HumanEval和MBPP等编程基准上取得高分。
多语言能力:支持多种语言,尤其在德语、法语等语言上表现良好。
值得注意的是,去年3月OpenAI推出的GPT-4是拥有1.8万亿参数的MOE架构(混合专家模型),自那以来,海内外大模型厂商大都采用或者迁移至这一架构,但如今发布的Llama3.1并没有采用这一架构。
在目前火热的技术路线——多模态融合上,Llama3目前也并不支持。官方论文介绍称,Llama 3.1支持多语言、编程、推理和工具使用,但目前还无法处理图像、视频或语音。论文中提到,Meta正在致力于为该模型添加图像识别、视频识别和语音理解功能,但具有这些功能的版本“仍在积极开发中,尚未准备好发布”。
二、Meta的星辰大海,是AI生态系统
今年4月的一档播客访谈节目中,扎克伯格透露今年年末才会推出Llama 3 405B,并且这个模型开源与否要视情况而定。显然,这个时间表被提前了,在其尚不支持多模态、模型能力也尚不完美时,现在就开源可获得。这是为什么?
在Meta官网,扎克伯格写了一封《开源AI是未来之路》(Open Source AI Is the Path Forward)的信,或许可以回答这个问题。
在他看来,人工智能会以类似Linux的方式发展,而Meta有机会做大模型时代的Linux,成为开源AI的行业标准。
在高性能计算早期,主要科技公司都投入巨资开发自己的Unix闭源版本,当时也很难想象任何其他方法来开发软件。但最终,开源Linux获得了普及——最初是因为它允许开发人员随心所欲地修改其代码,而且价格更便宜,随着时间的推移,它变得更先进、更安全,并且拥有比任何封闭式Unix更广泛的生态系统,支持更多功能。如今,Linux已成为云计算和运行大多数移动设备的操作系统的行业标准基础。
扎克伯格认为,尽管多家公司正在开发领先的闭源模型,但开源正在迅速缩小差距。以Meta为例,去年Llama 2只能与第一梯队玩家的旧版模型相媲美,今年,Llama 3与最先进的模型竞争,并在某些方面处于领先地位。Meta预计,未来的几代Llama将成为业内最先进的模型。
从这一代模型开始,Meta还将通过建立广泛、开放的生态系统,致力于使开源AI成为行业标准,使Llama成为行业标准。比如像这次伴随Llama3.1的发布,与生态伙伴的嵌合也更加紧密:Amazon、Databricks和英伟达推出全套服务来支持开发人员微调和蒸馏自己的模型。
像Groq这样的创新者已经为所有新模型构建了低延迟、低成本的推理。云厂商已经准备好云上部署Llama3.1,包括AWS、Azure、Google、Oracle等。Scale.AI、戴尔、德勤等公司已准备好帮助企业采用Llama并使用自己的数据训练自定义模型。
截图来源:Meet Llama 3.1
Meta大力投资开源的根本原因,当然是希望确保其可以获得领先的模型。
但扎克伯格称,在Llama-3.1之前,他本能地认为,如果Llama开源,就会有一个社区自发地围绕它成长。或许是考虑到模型的部署不同于其他开源项目,还需要很多动手操作的环节、也需要很多资源支持,扎克伯格决定在扩展生态系统上更积极。
“我相信Llama 3.1版本将成为行业的一个转折点,大多数开发人员开始主要使用开源,并且我预计这种方法只会从这里开始发展。”
OpenAI的愿景是构建一个大AI,Anthropic和谷歌也有类似的愿景。但Meta的愿景是有很多不同的模型。每个创业公司、每个企业、每个政府都希望拥有自己的定制模型。而当闭源生态系统比开源系统好得多时,使用现成的闭源模型是更好的选择,但现在不同了。
现在,开源基本上弥合了这一差距,人们现在有动力去定制和构建并训练适合他们需求的模型,将他们的数据训练到模型中。
三、谁能用上Llama 3.1?
官方报告指出,Llama 3.1使用了超过1.6万个英伟达H100 GPU训练而来,The Verge根据其所用英伟达芯片的成本估计,其训练成本为数亿美元。
能省去这么一大笔钱,还有一个最强的基座模型,这是对开源最强模型的本能期待。但把模型落地到场景里,还有一个迫在眉睫的现实问题——到底有多少开发者有能力把4050亿参数的密集模型用起来。
深度学习框架PyTorch的联合创始人、Facebook AI Research(FAIR)的研究员Soumith Chintala发推称Meta调度1.6万H100 GPU算力集群的有效训练时间达到90%。|图片来源:X.com
Llama3论文中,有很长的篇幅在讲基础设施,1.6万张H100集群在训练过程中会如何失败,包括如何并行化、保持集群可靠等。对此,英伟达高级科学家Jim Fan转发点评,“基础设施工作是人工智能领域最被低估的工作,我能从这张表中的数字感受到内脏的疼痛和折磨”。
就运行Llama的开源模型而言,The Information此前报道,应用程序开发者已经能够使用一组八个连接的AI服务器芯片(称为节点)来运行开源模型。Llama 3的较小版本可以正常运行,但较大的模型可能无法适应单个节点,而是需要多个节点。
帮助开发人员运行开源模型的推理提供商表示,这会带来很多复杂性。为大模型提供支持的节点必须能够协同工作,或者相互“交谈”,而这并不容易设置。在某些情况下,这意味着节点在物理上必须彼此靠近。
通常,对于较小的模型,推理提供商可以使用相同的节点来处理不同客户的请求,只要他们使用相同的LLM。然而,对于较大的模型变得更加困难,因为它们需要同时协调多个节点(多节点推理)。
有推理供应商称,可能需要几周甚至几个月的时间来重新设计他们的系统,以便能够处理来自Meta的4050亿个参数模型。在一日千里的大模型领域,这是很多时间。
同时,这些多节点配置也会提高运行模型的成本,尽管模型是免费提供的,但运行成本有时已经高于闭源模型。
Meta当然意识到这个问题,与最大开源模型一同推出的,还有生态伙伴的合作方案,可以帮助任何开发者部署Llama3.1和各种工程化调优任务。但它仍然可能成为开发者使用Llama3“超大杯”的一个挑战。
四、扎克伯格:乐于看到人们拿Llama3.1蒸馏小模型
在Meta看来,Llama开源“除了相对于闭源模型具有明显更好的性价比之外,405B模型的开放性这一事实将使其成为微调和蒸馏较小模型的最佳选择”。
此前,OpenAI发现字节跳动通过大量与GPT-4对话、蒸馏其高质量数据后,第一时间封号、禁止了这种做法。现在,Meta却主动提出让大家蒸馏。更值得玩味的是,开源一个最强模型后的使用场景不是免费拿它去做AI应用,而是蒸馏自己的小模型。
ChatGPT发布一年半以来,真实的市场需求下,很多企业并不会大规模使用大模型API,而是基于开源模型做微调、从最强模型中蒸馏出企业自己可用的小模型,因为用户和企业都非常关心他们的私人数据,以及关键模型的自主可控。
其中,微调(Fine-tuning)指的是利用已有的预训练模型,在新的数据集上继续训练,对模型的参数进行少量的调整和优化,以使其适应特定的任务或领域。
蒸馏(Distillation)则是一种将大型复杂模型的知识压缩并传递给较小、较简单模型的技术。能在保持一定性能的前提下,降低模型的计算量和参数规模,提高模型的部署效率和运行速度。
扎克伯格接受AI博主采访时谈到对Llama3「超大杯」的使用场景期待|截图来源:X.com@rowancheung
扎克伯格在一档采访节目中重申了这一点,“我最感兴趣的是看到人们用它来蒸馏和微调自己的模型。我非常期待看到人们如何使用它,特别是现在我们制定了社区政策,允许人们将其用作教师模型来进行蒸馏和微调,基本上可以创建他们想要的任何其他模型”。
他认为,人们会希望直接在4050亿参数的模型上进行推理,因为据Meta估计,这样做的成本将比GPT-4低50%左右。人们可以将模型蒸馏到任何他们想要的大小,用于合成数据生成,作为教师模型使用。
五、“Meta AI将超过ChatGPT”
在大模型上,拥有最多Super App的Meta,必须确保始终能够获得最好的AI技术。为了实现这一目标,开源是Meta的手段之一,策略则是建立一个强大的、开放的AI生态系统。
但这也带来一个质疑,Meta没有像亚马逊、谷歌和微软那样拥有能够利用大模型推动业务的云计算,这就意味着Meta将其如此巨大的投入转化为收入的能力更加有限。
扎克伯格反而将这一质疑视为优势,他称,“出售大模型的访问权限不是我们的商业模式。这意味着公开发布Llama不会像闭源模型厂商那样削弱收入、可持续性或研究、投资能力。”
Meta的AI商业化,目前仍是改进其广告业务、使其新的AI助手(Meta AI)成为杀手级AI用例。
Llama 3.1现在为Meta AI提供支持,Meta AI是Meta应用程序和雷朋智能眼镜中提供的AI助手,它被定位为像ChatGPT这样的通用聊天机器人,几乎可以在Instagram、Facebook和WhatsApp的任何地方找到。
可选Llama 3.1支持Meta AI|图片来源:Meta官网
从本周开始,Llama 3.1将首先通过美国的WhatsApp和Meta AI网站访问,随后在接下来的几周内通过Instagram和Facebook访问。它正在更新以支持新语言,包括法语、德语、印地语、意大利语和西班牙语。
伴随Llama 3.1的发布,Meta AI添加了一项新的“想象我”功能,可以根据用户的特定肖像生成图像的功能。通过以这种方式而不是通过个人资料中的照片捕捉用户肖像,Meta有望避免创建深度伪造(Deepfake)机器。
Meta AI也将在未来几周内出现在Quest耳机中,取代其语音命令界面。就像它在Meta Ray-Ban眼镜中的实现一样,用户能够在Quest上使用Meta AI来识别和了解耳机直通模式下正在查看的内容,该模式通过显示屏显示现实世界。
扎克伯格在Instagram上发帖称,数亿人已经使用了Meta AI。他预测,到今年年底,Meta AI将超过ChatGPT(ChatGPT拥有超过1亿用户),成为使用最广泛被使用的AI助手。
对于未来的AI应用图景,扎克伯格称,Meta的愿景是,应该有许多不同的AI及其AI服务,而不仅仅是单一的AI,这一看法也影响了Meta的开源方法和产品路线图。
“我们的重点是让每个创作者和每个小企业都能创建自己的AI Agent,使每个人都能在我们的平台上创建他们想要的AI Agent,这些都是巨大的市场。世界上有数亿的小企业,一个企业可以通过几次点击就能创建一个AI Agent来进行客户支持、销售,并与所有客户沟通。未来每个企业都会像现在有电子邮件地址、网站和社交媒体一样,拥有一个他们的客户可以交流的AI Agent。我们将生活在一个拥有数亿甚至数十亿不同AI Agent的世界里,可能最终AI Agent的数量会超过世界上的人口,人们将以各种不同的方式与它们互动。这是产品愿景的一部分,其中有很多商业机会,这是我们希望赚钱的地方。”
最后,他还剧透,Llama-4已经在路上了,甚至不止Llama4。“规划计算集群和数据轨迹不仅仅是针对Llama-4,而是未来四五个版本的Llama,这确实是件有趣的事情,因为这些都是需要长期投资的事情,建设数据中心、配套的电力、芯片架构和网络架构等”。
本文来自微信公众号:极客公园 (ID:geekpark),作者:宛辰,编辑:靖宇
支持一下 修改