出品 | 虎嗅科技组
作者 | 王欣
编辑 | 苗正卿
头图 | 《无间道》
出品 | 虎嗅科技组
作者 | 王欣
编辑 | 苗正卿
头图 | 《无间道》
在追赶OpenAI之外,智谱还想做一件野心更大的事。
11月29日,中国AI界“追OpenAI最紧的人”——智谱CEO张鹏出现在发布会现场,他身着印有智谱白色logo的黑色智谱文化衫。
一如往常,这一次仍然很难从他的神情中读出什么。严肃之余,他也会在发布会间隙开一些小玩笑,调侃友商的“现场翻车”演示环节。
在发布今天的主角AI Agent产品GLM之前,站在台上的张鹏,描绘了智谱的野心蓝图——探索操作系统的新形态。
往前数几十年,也只有寥寥几家科技公司做成了操作系统这件事。
但张鹏却对此无比坚定,“大家会去选择用最好的”。
让张鹏看到其中机会的,是被各大AI公司反复cue到的AI Agent(智能体)——这是一种大模型时代下,用户与应用的全新交互方式。
让用户光说不干——智谱的"外挂"智能体AutoGLM能根据用户的语音指令,自主操作手机电脑,完成生活工作中的大小事情。
与传统RPA和手机AI助手不同的是,AI Agent的泛化性,使其具有自主学习能力。即便从未在微信小程序环境中训练,AutoGLM仍能遵循其他环境学习的步骤,进行小程序咖啡的下单。
张鹏用内测期间,用户平凡而真实的小事,来说明目前智谱AI Agent——AutoGLM的能力边界。
“一位盲人程序员每天使用它买东西、发消息、阅读公众号文章;也有很多忙碌的白领拿它出差订票和点外卖。”
他毫不避讳地承认,AutoGLM在内测期间也收到了很多diss,“你们的智能助手为什么不会(在美团、饿了么之间)比价?”
于是在一个月时间内,团队又临时打磨了新功能,比如“跨APP比价”来打破应用墙限制、“随便模式”让智能体自主帮用户决策“随便”吃点喝点什么。
但对张鹏来说,距离终点,还有一段路要走。
虽然他认为“Scaling Law确实不再涨了”,但仍在Agent、多模态、强化学习、扩散模型等不同方向上存在新场景、算法的scale可能。
毕竟智谱瞄向的是AGI,并不只是Transformer架构的语言模型。
图源:虎嗅摄
当张鹏坐到我面前,我注意到他t恤上长长一串logo,是The journey to AGI is now 42% completed…AGI进程已完成42%。
42源自《银河漫游指南》。其中一台叫“深思”的超级电脑,历经750万年的计算验证,给出了关于生命、宇宙以及任何事情的终极答案——42。
同时,这也是智谱对于AGI当前进程的预估。
——依旧还有58%等待他们去探索。
在交流结束后,“从清华实验室走出来的”张鹏匆匆离开,回到清华大学继续讲课。
以下是11月29日智谱Agent OpenDay发布后,张鹏交流实录:
怎么看大家从寻找超级应用到转向智能体?
张鹏:因为技术的能力积累到了一定程度,也验证了我们对于智能体的理解。
人类处理问题和处理任务,都是多模态的复杂交互情况。只有当模型不同能力都达到一定的水平线之后,才能聚合产生不同效应,不能存在特别明显的短板。
所以我们在技术战略和产品线布局上都做得都特别全面。
如何看待与大厂的差异性?
张鹏:我们看待问题更多是技术和结果导向,而不是仅局限于单项技术的快速变现。
这个事情与大厂或其他伙伴不一样。我们最终目标是解决生产力问题,而不是简单的PMF或快速盈利,所以有时候我们会相对看的更长远,生态更开放,我们会在开放的技术体系上上尝试构建发展应用和商业价值,有更多伙伴和客户,这是我们相对于垂直化发展的大厂不一样的地方。
GLM未来落地形态是什么?是开源吗?还是从技术底层去赋能手机厂商?
张鹏:皆有可能
AI Agent看起来像是在抢占用户的操作入口,也是未来新操作系统的雏形,这是否会对传统手机厂商产生威胁?您怎么看待这方面我们与传统手机pc的竞合关系?
张鹏:现在这个阶段并不构成所谓的威胁,目前GLM并没有很深入手机操作系统,还处于表层的一些操作,而且我们是站在用户端创造价值。
如果用户体验后感觉更好用,我相信,最后结果会是什么,大家都知道。
我们是多了一条路,努力去找增量,其实这个世界经济宇宙非常大,我们没有必要把自己圈在一个圈子里面或者一个天花板下面去内卷。我们应该努力去找新的可能性。所以这是我们一贯的态度,我们无意跟所谓的去争抢。
我们是寻找新的方式。
未来会探索新一代操作系统吗?
张鹏:我们不是说纯粹地像传统的操作系统去做。我们现在已经跟现有的操作系统厂商在合作,尝试把我们的AI能力去赋能进去,变成一个原生的大模型能力的新一代操作系统,我们已经在做一些这样的研究工作。
智谱和AutoGLM 下一步技术路线是什么?
张鹏:大家对于大模型的期待值过高,因为数据和训练规模原因,Scaling Law可能不像我们之前预测的一样,还是会指数级往上涨。但o1和Agent打开了新的Scaling技术突破路线,接下来就是在改进算法框架、数据、跑Scaling这条更长的路,还是有大的空间去延续技术进步。
在我们看来,语言可能遇到了瓶颈,但多模态视觉方向上依然保持了Scaling路径。
scaling做不通时,需要换一种思维方式。找到新场景,用新的方式、算法去实现可能是最关键的。
我们瞄向的是AGI,这里面并不只是transformer的语言模型,Scaling只是现象,本质是计算量的sacling。扩散模型、Dit、强化学习等不同路径都是在增加计算量。
为什么放弃智能体创建平台GLMs这个方向?
张鹏:我认为也不是放弃,只是在不同阶段做不同的探索,其实大家都是在不断地试错,GLMs是我们最原住的一代智能体,只是今天的GLM收束成更具像化的可scale的能力,本质是一样的。
C端用户每天都用电脑,用手机,每个人的对这个事情的接受理解程度更容易一些,to b或者企业内部应用也存在这些场景,只是体感上有些延后。
ToB进展如何?
张鹏:还行吧
如何打破美团、小红书应用墙?这些应用本身也有自己的Agent
张鹏:无论是连接硬件,还是连接应用服务的工具。能更好的通过自然语言的方式,让用户能够更加容易地去组装各种服务。
如果在封闭的生态做开发,没有办法去合作,模型也没法更好连接。
所以技术角度来说,连接这个事情是我们未来重点,做到这个事情并不简单,也是我们作为大模型公司的自信。
商业角度来说,他创作了新生态,解决了条快化的壁垒,大家是互利的方式。原有的厂商可以通过我们平台跟其他伙伴链接,自然而然变成了繁荣的生态。
端侧应用从去年到今年有什么进化?
张鹏:Agent能力是模型能力增长到一定程度之后的产能。在模型太笨的时候不能够去产生这样的效果。
为什么是端侧呢?是因为Agent在端侧效果比较明显,随着技术和关注度提升,端侧硬件厂商也开始来适配这个需求。
agent会搭载在原有硬件发展还是会在新一代硬件?智谱在其中定位是什么?
张鹏:目前的方式是否是最有效的,我们不知道。新技术的突破会带来各种可能性。
我们在尝试跟很多的合作伙伴,一起去做这种探索。
但任何一种方式,我们都是以赋能方式,开放合作的方式。
友商都在加码代码工具和智能语音工具,智谱为什么要押注智能体?
张鹏:大家看待问题视角不一样,会有不同发展路径。商业化这件事情重要,但不是唯一目标。如果考虑商业化,成功率、价值、安全隐私都要解决,但并不代表这个技术不好。
我个人的教训是不要用固有的一些逻辑和思维定式,去看待一个全新的东西。
当然我们会沿途下蛋。
(Tips:我是虎嗅科技医疗组的王欣,关注AI及创投领域,行业人士交流可加微信:13206438539,请注明身份。)
支持一下 修改