本文来自微信公众号:极客公园 (ID:geekpark),作者:张勇毅,编辑:郑玄
在昨天拿到Manus AI的测试码、连续进行了数个小时的测试之后,有不少在手机/PC厂商的工程师/产品经理朋友,来找我“打听”Manus AI的真正能力如何。
为什么硬件行业这么关注Manus?这与当下硬件行业最受关注的概念——LAM有关。LAM是一个从LLM延伸而来的名词,全名为大型行动模型(Large Action Models),也称为大型智能体模型。
与LLM致力于“超越人类”,因此在训练方法上也经常突破人类经验完全不同,现阶段LAM想要做到的,是成为人类的手,去作为人类用户在数字世界中的代理人。
这与Manus的核心理念有相通之处。目前而言,Manus AI的体验,围绕在一个运行在云端的Ubuntu操作系统虚拟机上,同时在操作系统中打开Chrome浏览器界面,在网页中或是调用其他软件,来完成各种用户的请求。
为了完成这个要求,Manus需求同时具备“自然语义理解和计算机视觉”,以及“用户行为习惯学习与场景感知”,同时拥有“意图识别自主决策”的能力,当然最重要的,同时也是让Manus AI与此前的Computer Use在体验上拉开明显差距的,还是“跨应用调用工具”的能力。
举例来讲,对于常见的“能不能用Manus AI生成一段视频”这个问题,严格来讲回答是“可以”,但Manus AI去生成一段视频的方式,也是通过在网络上搜索第三方AI视频生成工具,并在这个过程中使用到各种工具,来完成用户的请求。
一、LAM真正的未来
进入2025年,Agent AI,或者说LAM在端侧的落地,已经是再明显不过的趋势。但怎么落地,以及最终呈现给用户的会是怎样的商业产品,仍然有很多问题。
早在2024年初,彼时发布的Rabbit R1硬件,以及对应的LAM工具——Rabbit LAM Playground其实已经展现出了今天我们在Manus AI中看到的能力雏形。
在官方的演示中,Rabbit R1所搭载的LAM Playground,能主动帮助用户完成类似音乐播放、打车等服务,实际上背后的技术原理,就是通过使用LAM来访问对应服务的网站,通过模拟人类与网站的交互方式,完成用户指令中的工作内容。
Rabbit 发布的 LAM Playground,其实已经具备今天 Manus AI 的初步能力 | 图片来源:Rabbit
但彼时的Rabbit Playground受限于模型以及开发能力的限制,还并不能做到像人类一样,在互联网中畅通无阻。
在实际用户的测试中,面对类似人机验证这样的场景Rabbit Playground仍然难以通过,也无法使用第三方工具,来完成生成复杂表格、导出PPT这样的用户需求。
由于在实际使用中面临着诸多挑战,Rabbit R1作为一款明星AI硬件,很快就退出主流用户的视野,AI时代的热点变化的是如此之快,以至于到了2025年年初,在互联网上已经很难找到关于这款产品讨论的声音。
但LAM这个概念,作为一个可能改变人类用户与智能硬件设备交互的火种,留存了下来,仍然作为行业中一个重要的研究方向而存在。
Manus AI的出现,尤其是它在自然语义理解,以及在互联网访问网站时,面对各种各样的人机识别,都能“畅行无阻”的能力,让不少仍然在致力于LAM产品开发、并希望在今年推出相关测试产品的人,再次看到了一个契机,并希望通过Manus AI目前的能力以及展现出的短板,来进一步完善自己的产品。
Manus AI已经能在遇到各种人机验证时成功通过,大幅提升了对互联网的访问能力|图片来源:极客公园
目前,在致力于开发LAM产品、来提升用户对手机/电脑等产品使用体验的硬件厂商中,系统级厂商在做LAM中,有着最明显的优势。
“Manus AI这种命令执行方式,对于算力要求非常高,但如果是浏览器或智能手机操作系统来做这件事,能通过获得更多高质量数据的方式,大幅降低算力成本与提升运行速度”。
“做通用LAM并不用针对某些单一网站去适配,虽然在某些场景下可能”
“ManusAI中的一些简单的场景,并不需要完全搬到(云端)上面去处理,反而是留在端侧效果会更好”据这位面向桌面端开发LAM应用的开发者介绍,当前的端侧模型经过针对性训练之后,目前也能实现简单的通用网页访问并内容识别能力,已经能初步完成例如“访问旅游相关网站并制定旅游计划”这样的需求。
此外由于端侧有着更便捷的文件管理系统,同时也有更强大的本地文件管理工具,遇到类似“整理并分析简历”这样的需求,端侧LAM同样能做到更好的效果。
在我的实际测试中,我想要让Manus AI帮我生成一个PPT文件,它就能自动在电脑上安装对应的依赖环境,然后利用工具来自动完成PPT生成,虽然最终仍然完成了用户指令中的需求,但仍然因此大幅拉低了对请求的响应时间。
二、如何理解Manus的意义
当前,Manus AI展示出的逻辑中,已经向外界展示了LAM在“生产力”领域能带来怎样的改变,但仍然有很多问题亟待解答。
其中最重要的,也是被问到最多的,或许就是商业化这件事:不少用户对于Manus AI这样的服务,最终会定价多少有着诸多的猜测。
除了类似Manus AI这样,完全交给云端运行,用户端只需要“输入命令-返回成果”的模式,前面提到的不少硬件厂商,实际上是将端侧/云端混合运行的模式作为主流方案。
这其实也暗示了,未来LAM的发展,或许将分为两个不同的主流方向;不仅有基于现有硬件算力,在端侧实现性能稍差的LAM,也有完全基于云端的“数字代理”服务。
但这样的服务,距离最终投向市场可能还有不小的距离。“Manus AI如果订阅的话,这样的服务20美元(订阅费)显然是完全不够的。”一位目前就职于手机厂商,研发LAM端侧应用的工程师对此评价道。
仅仅是全程虚拟机运行以及实时显示内容串流的高昂成本,就足以成为此类服务现阶段面向普通消费级市场的最大阻力。
对于以ChatGPT为代表的LLM产品来讲,过去几年已经迅速建立起一套行之有效的订阅系统,用户也在“每个月20美元”的周期往复中,建立起了一个准确的心理预期。
如果LAM未来想要以这种“前端硬件+后端云服务”的方式继续存在,同样也要经历这样一个过程,同时在这个过程中将订阅成本快速拉低,最终将这一商业模式跑通。
随着完全在云端部署的LAM进一步完善,我们大概率会再次看到像Rabbit R1这样、有着更灵活形态的AI硬件设备出现:它可以是智能手表、也可以是AI眼镜,甚至都可能是完全不需要屏幕的智能耳机等设备。
到这个阶段,LAM实际上已经进化成了Agent UI:用户并不再需要传统手机桌面、浏览器那样的用户交互界面,只需要一个供用户输入指令的方式,以及接受LAM最终交付成果的终端。
当初 Rabbit R1 的展示场景中,就已经出现了一些 Manus AI 的案例 | 图片来源:Rabbit
它或许不如LLM那样科幻,但它却是在现有硬件的基础上,短期内我们能看到最明显、最有能力给用户与硬件的交互,带来改变的方向。
随着Manus AI进一步将LAM以及Agent AI能做到什么,展现给更多普通用户,这或许就是Manus AI在这场浪潮最终退去之后,给我们留下的最重要的收获。
“即便最终赢家不是它,它也足够意义重大。”一位LAM产品经理这样评价Manus AI的行业价值。