大模型进化分岔口:多模态、成本、代码推理
2024-09-06 17:37

大模型进化分岔口:多模态、成本、代码推理

本文来自微信公众号:海外独角兽 (ID:unicornobserver),作者:Cage、hanbo,题图来自:AI生成

文章摘要
OpenAI和Anthropic在多模态、成本优化和代码推理上的分叉路径。

• 🔥 OpenAI专注成本下降和多模态能力提升。

• 💡 Anthropic注重模型推理和代码生成能力。

• 🧠 Prover-Verifier Games优化模型性能及可读性。

头部模型的新一代模型的是市场观测、理解LLM走向的风向标。即将发布的OpenAI GPT-Next和Anthropic Claude 3.5 Opus无疑是AGI下半场最关键的事件。


本篇研究是拾象团队对OpenAI和Anthropic在2024年至今重要技术动作、产品投入、团队变化的总结和分析,我们希望从这些关键细节来理解头部模型公司的核心主线,更深入地把握LLM的进化方向。


在这个过程中,我们很明显能感受到,虽然OpenAI和Anthropic的新一代模型都选择了self-play RL技术路线,但两家公司其实在LLM接下来要怎么进化的问题上出现了分叉:


  • 对于OpenAI来说,模型成本下降和多模态能力的提升是最重要的主线,4o-mini的发布就比最早的GPT-4成本下降了150倍,并且OpenAI也在积极地尝试新的产品方向;


  • Anthropic的关注点显然放在了推理能力上,尤其是在代码生成能力上下功夫。在模型产品线上,也能感受到Anthropic明确的取舍,多模态不是它们的未来重心,尤其视频生成是一定不会在产品中加入的。


OpenAI和Anthropic之间的差异既和创始人风格、团队技术审美、商业roadmap等因素相关,也是LLM领域各派声音的集中呈现。本系列会保持半年一次的更新频率,希望为市场理解LLM带来方向性启发。


一、模型更新


1. OpenAI 


主线1:成本下降


LLM大模型的成本下降趋势是非常明确的,在GPT-3.5和GPT-4的模型定价上都体现得尤其明显。4o的模型设计初衷除了大家熟知的多模态之外,就是为了推理成本优化而设计的。在这基础上,甚至4o-mini可以再下降33倍的成本,这个成本下降幅度是非常惊人的。我们相信,未来,随着时间推进和工程infra的优化,4o模型可能还有10倍的成本下降空间,很多当前模型能力下的use case都能迎来ROI打正的时刻。




同时值得一提的是,OpenAI推出了新的batch API方案:API不实时返回结果,而是在未来24小时内返回结果,这能使API价格打对折。这适用于对时间不敏感的大批量任务,可以大量节省成本。这个方法能降成本是因为目前的实时推理中long context和短的会放在一个batch中处理浪费很多资源,而降低实时性能够将相context length放在一起计算来降低成本。


OpenAI还没有推出Anthropic使用的prompt caching,不确定是否已经用类似方式进行降本了:Claude在long context下可以通过把部分常用prompt存在缓存中来节省90%成本,降低85%latency。这个方法在RL技术路线下会非常有用,因为模型self-play探索时会有大量重复context。


另外4o对多语言数据的tokenizer效率提升,也能带来更低的成本。多语种在压缩过程中的token消耗量都显著降低,例如一句话原本需要34个中文token,现在24个就能够实现。


主线2:多模态交互能力提升


模型能力角度上,OpenAI在今年上半年最大的进展在多模态能力上:


理解侧:


1)GPT-4o模型的发布实现了端到端的多模态能力,在语音对话和多模态能力上有明显提升的同时,降低了成本且没有降低推理能力。其语音功能至今仍未大面积推出,advanced mode还在缓慢roll out中。


speech-to-text:显著领先于Whisper。端到端模型在语音上显示出了一定的emergent capability,比如何时能打断并介入与用户的对话。等大规模铺开后在语音陪伴等场景的PMF可能迎来新一波的机会。



视觉理解:显著高于其他模型,但没有出现多模态unify带来的智能涌现。视频数据的信噪比太低,在当前架构下和文本数据放在一起,并没有带来显著的多模态智能,这是多模态理解领域上需要解决的问题。



生成侧:


a.在vision方面发布了Sora视频生成模型,Sora发布后视频生成领域的SOTA暂时收敛到了DiT架构。由于Sora目前还在demo阶段,我们预期下半年会发布给公众使用。


b.4o模型作为一个端到端生成模型,也在探索用端到端autoregressive的方式生成图片。


2. Anthropic


主线1:模型推理能力增强


2024年上半年,Anthropic在Claude模型系列上取得了显著进展。3月4日,公司推出了Claude 3系列,包括Opus、Sonnet和Haiku三个版本,每个版本都针对不同的应用场景和需求进行了优化。President Daniela Amodei在最近的一次公开分享中提到,他们设计时的想法是:


•Opus为复杂推理、研究场景设计。Opus是第一个超越GPT-4的模型,但定价偏高性价比差。


•Sonnet是为企业常用需求如RAG设计的,可能是因此第一个做了3.5版本。


•Haiku是为实时性强的客服等对话场景设计(由此推测,他们也可能在voice领域推出端到端模型)



6月21日Anthropic又发布了Claude 3.5 Sonnet,进一步提升了模型的性能和能力。Anthropic还预告将在2024年晚些时候推出Claude 3.5系列,包括Haiku和Opus版本。Opus版本是最值得期待的,看其是否能够大幅超越GPT-4的推理水平。



在性能方面,Claude模型取得了很大进步。Claude 3.5 Sonnet在很多领域的表现超越了GPT-4,特别是在研究生级推理和编程能力方面。直到9月,其他所有模型的更新都无法在Coding和复杂推理能力上超越Sonnet 3.5。其coding能力提升也带来了一系列AI coding产品的实现:Cursor作为IDE的开发体验一下子流畅了很多,甚至Websim这样在上半年看起来是toy project的产品在现在也有了不错的效果。背后原因都是Claude Sonnet 3.5能生成上百行的可靠代码,而之前的SOTA模型只能生成20行左右。



模型的其他维度能力也在各个use case得到了全面扩展。Claude 3.5 Sonnet的推理速度是Claude 3 Opus的两倍,可以处理200K token的上下文窗口,相当于约500页文档的内容。多模态能力也得到显著增强,特别是在视觉理解方面,包括图表解读和从不完美图像中准确转录文本的能力。



主线2:模型拟人能力增强


Anthropic首次在Claude 3系列中引入了“性格训练”(Character Training),这项能力是在post training加入的。这项创新旨在赋予模型良好的性格特征,通过生成数据和自我排序来内化这些特征。这不仅提高了模型的吸引力和互动性,用户反馈也表明与模型的对话变得更加有趣。



训练方式:首先要求Claude生成各种与特定性格特征相关的人类消息——例如,关于价值观的问题或关于Claude自身的问题。然后向Claude展示这些性格特征,并让它针对每条消息产生符合其性格的不同回应。之后,Claude会根据每个回应与其性格的契合程度对这些回答进行排序。通过对这些回答的排序训练一个偏好模型,我们可以教导Claude内化其性格特征,而无需人类的交互或反馈。


尽管这个训练流程仅使用Claude自身生成的合成数据,但构建和调整这些特征仍然是一个相对手动的过程,需要人类研究人员密切检查每个特征如何改变模型的行为。


这个方向结合他们的interpretability的研究,可以看到他们在模型的可控性上下了很多功夫。


3. 用户评价


我们也收集了一系列用户对4o模型和Claude 3.5的用户使用评价:


GPT-4o优势:


  • 速度快,响应迅速:在iOS应用中使用GPT-4o时,几乎感觉不到延迟,能够实现类似实时对话的体验。


  • 多模态能力强:GPT-4o有更完备的语音对话和图片识别能力,且语音识别准确度、对话智能度很高,还有创作图片的能力。


  • 在一般对话和简单任务中表现良好。


  • ROI高:用户普遍表示,对于需要频繁使用AI但预算有限的情况,GPT-4o提供了很好的性价比。


GPT-4o劣势:


  • 在复杂推理、数学和编程任务中表现不佳:例如有用户提到在使用GPT-4o编写C++的类型定义时,4o不能特别好的理解复杂需求。


  • 输出冗长,常忽视简洁指令:即使用户明确要求简短回答,GPT-4o仍倾向于提供详细解释,有时甚至重写整个段落/代码块而非只给出必要修改。


  • 在专业问题下不如早期的GPT-4版本:一些用户提到在处理特定领域的专业问题时,GPT-4o的表现不如早期的GPT-4模型,可能和其模型进行量化降成本有关。


Claude 3.5 Sonnet优势:


  • 在复杂推理、长文本处理和编程方面表现优异:多位用户提到Claude在处理C#和C++等编程语言的复杂任务时表现出色,能够准确理解和执行复杂指令。


  • 更好地遵循复杂指令:用户发现Claude能够准确执行多步骤任务,如在学术研究中按特定格式生成报告并同时进行数据分析。


  • 创意写作和人性化交流能力强用户表示Claude能够更好地捕捉和模仿特定的写作风格,产生的内容往往更贴近人类作者的水平。


  • 在C#、C++等特定编程语言中表现出色:一位用户提到,在使用Claude重写C#方法时,生成的代码通常可以直接使用。


Claude 3.5 Sonnet劣势:


  • 模型外部能力局限:Claude无法生成图像,没有实时网络搜索功能,也没有语音交互的能力。


  • 某些用户反映最近性能有所下降:有用户提到Claude在某些特定领域的回答质量不如以前准确,可能是成本优化导致的。


二、产品进展


1. OpenAI


(1)用户数据上涨:多模态带动交互创新,4o让产品再度扩圈。


1)ChatGPT用量随4o的发布大幅增长:


a. OpenAI的访问量自2023年5月达到峰值后,因为暑假开始下降,后续便进入波动,直到今年5月GPT-4o发布后再次飙升,在2024年6月的访问量达到2.9亿次,比2024年5月增长了15.6%,而2024年5月则比历史最高值增长了40%(2023年5月),GPT-4o对用户量的拉动是极为明显的。



b. 去年访问量在夏季下降,今年没有出现这种趋势,主要得益于GPT-4o推出,OpenAI能够持续保留和吸引新用户。(一定程度上也得益于GPT-4o多模态能力使得ChatGPT进一步向生活场景拓展,而非仅仅是一个效率工作产品)。但节日趋势在其他产品上还是明显存在的:C.AI流量上升,Perplexity流量下降。


c. 截止到今年6月的Web MAU约为2.3亿,移动端DAU约为320万。


2)放在搜索引擎语境下,ChatGPT的用量持续超越Bing和Perplexity,与Google仍有量级上的差距,但开始逐渐蚕食传统搜索引擎的心智。


尽管Google整体搜索份额还比较稳定在91%+,但其桌面端被拿份额的趋势比较明显,美国和全球数据都是这个趋势。ISI发布了一份报告介绍他们对1000多名消费者的调查结果。他们注意到,从6月到8月,Google作为首选搜索引擎的份额从80%下降到74%,而ChatGPT的份额从1%增加到8%。



6月份ChatGPT/Perplexity流量略降,Claude有个跳涨,和Sonnet 3.5模型能力显著提升有关。



3)对AI产品流量和商业模式的思考


a.在AI时代流量最大的产品不一定产生最大的价值,完成任务的难度更重要。这个观点的前提是广告模式不是AI时代最后的business model。


b.大模型公司的商业模式不比移动互联网简单,更像传统零售的库存模式:资源都分配给训练用户用不上产品,那就是库存积压;资源给推理太多模型能力跟不上,是库存短缺。


c.目前看到的大模型公司商业模式,要明显比互联网广告和软件订阅的商业模式差很多。后两者最重要的特征是①提供服务的边际成本几乎是零,或是持续显著下降。②黏性/用户留存极强。意味着企业只要投入建立平台/软件产品及获客,后续收入的利润率极高,且持续性很强。大模型无论是API还是订阅制,定价端很难提价,而随着模型能力增强,用户query/任务会更加复杂,服务用户需求的成本还可能是上升的。


(2)从生产力助手到Agent探索:feature更新和收购并行


根据chatgpt今年1月-7月的产品升级,可以发现如下几个趋势,他们是明显在从生产力助手往agent方向在探索:


  • 新的交互模式已经有了雏形,在日常生活中的应用场景大大扩宽:通过对多模态能力的不断强化,目前能够对图片进行解读、翻译和推荐、实时语音交流、屏幕读取功能。


  • 工作效率产品逐渐完善:针对数据分析需求,ChatGPT新增了与云存储服务如Google Drive和Microsoft OneDrive的直接集成,以及实时表格交互和可定制的图表功能。


  • 在逐步搭建生态系统,尽可能多的平台整合:与苹果等大平台的整合,推出桌面版,提升了在不同操作系统和应用中的可用性和用户接触点。


  • memory功能加入:目前还只是把文字内容总结成简单的一个标签放进system prompt。下一步结合Rockset的收购可能为外部互联网和每个用户的聊天记录建立index,做到更强的个性化。


同时也值得分析一下他们是收购三家公司的价值,和他们实现agent的愿景高度相关:


1)Rockset(2024年6月收购)


Rockset是一家专注于实时分析数据库的公司,以其先进的数据索引和查询能力而闻名,成立于2016年。OpenAI收购Rockset的战略动机主要是为了增强其检索基础设施。这将使OpenAI能够提供更强大和高效的数据处理能力,特别是在实时搜索和RAG上。此次收购预计将显著提升OpenAI在数据retrieval、分析和检索方面的能力,使其AI解决方案更加强大,能更好地响应实时数据需求。这也增强了OpenAI在与其他AI模型提供商和全栈生成AI平台竞争时的技术实力。


此外,未来的agent中最关键的工程设计在于memory的设计,前面这套在RAG和search的方案也可以用在未来agent的记忆机制上。


2)Multi(原Remotion,2024年6月收购)


Multi是一家开发实时协作工具的初创公司,允许用户共享屏幕并在编码等任务上协同工作。OpenAI收购Multi的战略目的是利用其技术来增强远程协作能力和AI驱动的内容摘要功能。这与OpenAI通过AI改善团队协作和生产力的更广泛目标相一致。这次收购的一个重要意义可能是实现未来人与AI agent在屏幕前的共同协作。


3)Global Illumination(2023年8月收购)


Global Illumination是一家专注于创意工具、基础设施和数字体验的公司,由来自Instagram、Facebook、YouTube、Google、Pixar和Riot Games的前关键设计师创立。收购Global Illumination的目的是增强OpenAI的核心产品,包括ChatGPT。此外我们也猜想,他们之前的产品也可能适合成为virtual agent进行强化学习的交互环境。


2. Anthropic


(1)交互:Artifact是软件生成task engine的早期形态


Artifacts是我们使用Claude产品时会出现的动态workspace,能把我们需要完成的任务转换成代码,并用代码的方式来实现基础的任务。我们可以认为它是OpenAI Code Interpreter基础上对UI/UX的创新。


Claude团队给Artifact的未来定位是企业团队将能够安全地将他们的知识、文档和正在进行的工作集中在一个Artifact这个workspace中进行交互,而Claude则根据需求作为copilot对这个workspace进行交互。所以可以认为Artifact是Anthropic团队对下一代AI-native协作平台和工作流的想象。


在实际使用场景中,现在还是开发者使用artifact制作初步代码比较多:


  • 示例一:一行prompt制作日历app,artifact直接呈现出code和UI,不需要自己动手写基础代码。




  • 示例二:上传一本书后,边读边通过artifact总结每一页的内容。



(3)Agent探索:还在tool use阶段,未来roadmap可期


Tool use能力的提升标志着Anthropic在agent技术上比较稳健的一次进步。2024年5月,Anthropic为Claude 3系列模型增加了与外部工具和API交互的能力,这一进展大大拓展了模型的实用性。这项功能使得Claude能够执行更为复杂和实际的任务,不再局限于纯粹的文本生成。用户只需用自然语言描述他们的需求,Claude就能智能地选择合适的工具并执行相应的操作。这种自然语言接口大大降低了使用门槛,使得即使非技术背景的用户也能轻松地利用AI的强大能力。


Anthropic展示的agent应用场景涵盖了多个领域,充分体现了其技术的广泛适用性和潜力。首先,在数据处理方面,Claude能够从非结构化文本中提取结构化数据,这对于自动化数据录入和分析具有重要意义。其次,Claude可以将自然语言请求转换为结构化API调用,这大大简化了系统间的交互过程。在信息检索方面,Claude能够通过搜索数据库或使用Web API来回答问题,提供即时且准确的信息。对于日常任务自动化,Claude可以通过软件API执行简单任务,提高工作效率。


其中最特别的一个例子是Claude能够协调多个快速子agent来完成细粒度任务,这是复杂任务的分解和并行处理的未来方向。这种阶梯式的模型分工方法可能涉及多个专门化的agent协同工作,每个agent负责特定的任务或领域。这种架构不仅能提高整体系统的效率和灵活性,还能更好地处理复杂的多步骤任务。通过让不同的子代理各司其职,系统可以更有效地利用资源,并且能够根据任务的需求动态调整工作流程。


Anthropic在官网公布了他们的未来方向,其中他们对agent的长期规划是宏大而全面的:


  • 知识融合(结合多个领域的交叉知识)

  • 超越现有训练数据、本科生水平的知识推理

  • 自主执行端到端科研项目

  • 提出新假设和设计的能力

  • 隐性知识(只能通过在实验室中的学徒制获得的那种知识)

  • 需要做出连续决策才能实现的long horizon task

  • 自动化数据分析


这些能力的实现都会和我们期待的agent有着方向上的汇合。仔细看会发现Anthropic对AI的期待很多都落在软件和科学发现上。


三、人才更新


1. OpenAI


OpenAI依旧保持快速增长状态,已经从纯粹的AI Lab演进至更加工程、产品、收入导向的公司。公司目前有400名以上的Researcher,超过1200位非研究类员工,包含工程、销售、产品、后台支持等,对比2023年的770人增加近乎一倍。


从招聘侧重点看,近三个月,有460人新加入OpenAI,其中Member of Technical Staff依旧占主要,共有130人,偏工程类员工占整体MTS new hire的80%。Go-to-market是招聘数量第二多的团队,新招聘46人。产品新招聘24人,其中包括新加入的CPO Kevin Weil。


(1)离开的关键人才


Ilya于2024年5月与SuperAlignment Co-lead Jan Leike接连离职。Ilya在离职后创办了SSI,致力于构建安全超级智能。而GPT-4的核心人物Jakub接任了Chief Scientist的角色。Ilya对于OpenAI是指明方向的灵魂人物。但也有观点是Ilya的远见为OpenAI初期带来很大帮助,但在OpenAI已经明确远期方向后,Illya离开的影响并不大。


同样为OpenAI早期灵魂人物的Greg会休假至年底后再回归公司。


Andrej Karpathy在加入OpenAI一年后于2024年2月离开OpenAI,离职后创办Eureka Labs的AI课程教育公司,自己担任讲师帮助学生更好理解AI与LLM训练。


John Schulman离开OpenAI加入Anthropic。晋升为alignment lead前,John曾是reinforcement learning team lead,是RLHF的开创者,确定了OpenAI RL的路线。John是OpenAI创始团队之一,师从Pieter Abbeel。离开OpenAI后,John加入Anthropic。


Jan Leike跟随Ilya一同离职后加入Anthropic,继续负责Alignment方向工作。John Schulman和Jan Leike的加入意味着OpenAI的研究路线图对于Anthropic团队几乎是一张明牌。


Peter Deng作为Product VP离开OpenAI,Kevin Weil作为OpenAI新加入的CPO继续领导OpenAI的产品工作。Kevin在加入OpenAI前为Meta Diem、Instagram的VP of product,在Instagram任职期间帮助Instagram在与Snap竞争阶段获得优势。从Peter的离职也能感受到OpenAI对新产品开发落地的激进程度。


Aleksander Madry于一年前从MIT教职暂时离开,加入OpenAI创办Preparedness团队,目标是通过理论研究帮助OpenAI提前控制可能发生的重大风险。Aleksander于2024年7月离开,接任者为Joaquin Quiñonero Candela,加入OpenAI半年时间,先前在Meta带领Responsible AI团队近九年。


Jeffrey Wu是GPT-2的核心贡献者,参与了GPT的可解释性、可拓展监督方向的工作。也作为核心参与了InstructGPT这一RLHF的重要项目。Jeffrey于OpenAI任职6年,于2024年7月离职,加入Anthropic。


Yuri Burda是OpenAI reasoning team的创始成员之一,负责OpenAI的数学方向研究,并于早期项目:Dota、Codex中有核心贡献。离开OpenAI后Yuri加入Anthropic。


(2)值得关注的新团队和岗位


我们也观察到OpenAI出现了一些新的小组:


1)Solution Architect


在Success Team下新增了Solutions Architect团队,隶属于Success Team下。目前整体团队大约20人,均为一年内加入OpenAI,对Enterprise提供整体部署解决方案。Solutions Architect团队源于OpenAI的策略调整:OpenAI为了防御Azure捆绑销售策略下的折扣定价,承诺可以为大客户根据需求定制软件。


2)集群硬件


OpenAI从0到1搭建了新的硬件团队。从团队配置看,更像是计划搭建数据中心集群所需要的人才。目前硬件团队还是一个不到10人的小团队,由Richard Ho带领。Richard先前于Google任职近十年,是Google TPU的Senior Engineer Director。先前有报告提及OpenAI至少要等到2025年才可以自己开发芯片,并且目前在与博通商讨合作设计的形式,Richard作为Google TPU的负责人,在OpenAI的定位会是lead起co-design任务的角色。


Richard团队内,Reza Khiabani先前于Tesla Dojo、Google TPU负责数据中心液冷方向工作。Xin Li先前于Google负责数据中心电源工作。


3)投资了Opal团队


此外,消费硬件层面,OpenAI于2024年8月投资了Opal,有可能在之后一起合作AI硬件。Opal的产品为高清摄像头,并且十分重视设计。


Opal于2020年成立,是一个15人的小团队。创始团队为Uber背景。CEO Veeraj Chugh在创办Opal前于Uber任职3年,先后负责Uber Freight、Uber New Mobility的产品运营工作。Co-founder Stefan Sohlstrom是设计背景出身,2014年作为第5号员工加入Plaid,担任Plaid的Head of Design。2017年开始于Uber Freight从设计职责转换成产品经理,成为Uber Freight Shipper Platform的产品Head。


4)Model Behavior scientist



对于Model Behavior研究人员的招募可能揭示OpenAI希望增强模型的可控性并且希望能够发展新的交互方式,同时提升模型的创造能力。


5)mid-training scientist



Mid-training已经被正式定义为一个新的训练阶段。其主要环节可能包括一些比较接近模型基本能力的alignment,与human feedback离得相对远、更靠前。


2. Anthropic


2024年以来,公司人数从300人增加至500人左右。2024年起,公司招聘共180名新的Member of Technical Staf,使Anthropic整体Member of Technical数量达到约260人,其中90名Researcher,210名Engineer。Anthropic的第二大招聘重心为产品团队,2024年前,Anthropic的产品团队共10人,而今年已经是接近30名,包含产品经理、Product Partnerships/Marketing相关员工的团队。


Anthropic和OpenAI相比更看重Alignment、可解释性、AI社会影响三个方向研究,也是Anthropic官网上Research部分的三个主要构成部分。


可解释性团队由Shan Carter带领,现在已是20余人的团队。Shan先前于OpenAI、Google Research工作,主要负责可解释性方向研究,曾与Co-founder Chris Olah于Google时参与Google重要可解释性研究:The building blocks of interpretability。


可解释性团队在Claude3发布后发表了一篇新论文:Scaling Monosemanticity:Extracting Interpretable Features from Claude 3 Sonnet,突破了模型的透明度并且建立了新解决黑盒问题的机制。


除了前面提到的几位从OpenAI离职的几位早期重要researchers之外,还有这样几位重要OpenAI/DeepMind出身的重要科学家加入:


Pavel Izmailov自2023年6月加入OpenAI,工作一年后离开加入Anthropic。于OpenAI期间Pavel是superalignment的成员,加入Anthropic也有大概率与Jan继续合作alignment方向工作。


Steven Bills于2022年3月加入OpenAI,是superalignment团队的成员,参与了OpenAI发布GPT后的可解释性研究:Language models can explain neurons in language models。


David Choi:David于2017年至2023年12月于Deepmind担任Staff Research Engineer。先前是Deepmind的AlphaCode Co-lead,是Deepmind在2022年时的核心代码生成模型。David在agent方向的研究可以追溯至2019年与xAI的Igor共为一作的AlphaStar论文。


Jascha Sohl-Dickstein:Diffusion model核心一作,曾是Google的首席科学家。于2024年1月加入Anthropic,此外,Jascha曾发布了Score-based SDE,构建了生成Diffusion模型理论的框架。


Anthropic产品团队最大的更新是新CPO的加入。Mike Krieger原先是Instagram的Co-founder&CTO,经历了在Instagram被收购后从只有6位全栈工程师成长到包含300位工程师的full function工程团队的过程。Mike于2021年时与Instagram CEO Kevin开始做AI新闻推送创业ARTIFACT,于2024年5月停止项目,加入Anthropic。Mike本身的经历和Anthropic经历了只有80+人的小团队,但创造出了SOTA模型,之后迅速扩张的过程非常相符。加入Anthropic后Mike带领Claude APP,以及企业服务的产品工程、管理、设计工作。


Anthropic的产品团队自2024年也快速扩张,目前30位产品成员大多数来自Stripe、Google、AWS三家诞生了出色的enterprise产品的公司。


Artifacts是Mike加入Anthropic后负责的新产品,外部对Artifacts的评价是“又懂模型、又懂产品的人做出的产品”,对比OpenAI“互联网风格”的产品会更AI-native。而Artifacts的名字和Logo,都与Mike先前创业项目ARTIFACT高度相似。


Mike的Artifact项目


Artifacts与Claude的Logo


与Mike一同加入的还有先前共创Artifact的工程师Justin Bisignano。Justin 2020年加入Instagram团队任安卓工程师,所写的代码支持了20亿用户。2022年7月加入Artifact任职至2024年4月后加入Anthropic,负责Claude的产品工程方向工作。


四、研究更新


1. OpenAI


(1)Prover-Verifier Games improve legibility of language model outputs


新的训练方法:OpenAI开发了一种称为"Prover-Verifier Games"的新训练方法,旨在平衡模型的性能和可读性。


解决关键问题:这种方法解决了之前模型在性能和可读性之间存在的权衡问题。过去,注重可读性可能导致幻觉(hallucination),而过度注重正确性则可能降低可读性。


训练机制:


  • 使用一个强大的模型(prover)和一个较弱的模型(verifier)


  • verifier经过训练,预测prover生成解决方案的正确性。


  • prover被指示扮演"helpful"或"sneaky"角色,分别生成正确或错误的高分解决方案。


  • 通过多轮训练,verifier不断学习识别错误解决方案,迫使prover探索新策略。


意义:


通过multi-agent分工的方式实现,在减少人类直接干预的情况下,实现对超智能AI系统的对齐。


(2)CriticGPT,Finding GPT-4’s mistakes with GPT-4


基于GPT-4开发的模型,旨在发现ChatGPT代码输出中的错误。


实验表明,使用CriticGPT辅助的人在代码审查中,60%的情况下表现优于没有辅助的人。



研究意义:


  • OpenAI正在努力将类似CriticGPT的模型集成到他们的RLHF(Reinforcement Learning from Human Feedback)标注流程中。


  • 这将为他们的训练人员提供明确的AI辅助。


局限性和未来发展方向:


  • 目前CriticGPT主要针对较短的ChatGPT答案进行训练。


  • 未来需要开发能够帮助训练人员理解长期和复杂任务的方法,以便监督未来的AI代理。


  • 模型仍存在幻觉问题,有时训练人员会因这些幻觉而做出错误标注。


  • 当前研究主要关注可在一处指出的错误,未来需要解决分散在多个部分的错误。


  • CriticGPT的辅助能力有限:对于极其复杂的任务或响应,即使是有模型辅助的专家也可能无法正确评估。


长期目标:


  • 开发能够处理长文本的能力。


  • 最终目标是使用这种技术来监督AI agent的训练。


2. Anthropic


Scaling Monosemanticity,Extracting Interpretable Features from Claude 3 Sonnet


使用机器学习中“dictionary learning”的方式,并借助训练大模型的scaling law techniques,将这个技术沿用到大模型上,从中isolate出大模型激活神经元的pattern,解读模型激活神经元的方式。文章中提到探索了几种能力:


  • 针对不同entities(景点如golden gate,抽象概念如程序bugs,gender bias),神经元被激活,并且是multilingual和multim-modal的。


  • 可以根据激活神经元方式的不同,计算特征之间的“distance”,做近邻计算。


  • 可以人为改变特征被激活的方式,会直接影响模型生成的答案。也能从中发现一些模型可能被潜在激活的不好的方向,为之后监控这些潜在威胁提供了工具。


Anthropic真正做到了interpretability的scale-up:使用sparse autoencoder来解读神经网络中的feature。之前主要使用数学统计模型无法scale-up,sparse autoencoder的稀疏性可以很好地捕捉到一些关键点,其他不关键信息在vector中都不会激活。


对比OpenAI的可解释性工作:


  • OpenAI的研究较为浅层,主要捕捉LLM的行为模式;Anthropic的研究更深入,挖掘到了不同单词和实体在神经元激活上的规律。


  • Anthropic的研究通过干预可以直接改变模型的输出结果,而OpenAI的研究主要停留在观察层面。


从这几篇研究可以看出一些对RL方向研究的端倪,也可以发现Anthropic团队对可解释性的追求是更强的,很可能他们未来会给予可解释性设计更多的模型可控性feature。我们也期待这些研究能带来下一波AI-native use case的解锁。


本文来自微信公众号:海外独角兽 (ID:unicornobserver),作者:Cage、hanbo

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP