狂热过后，我和几位硬件工程师聊了聊Manus 的价值和意义-虎嗅网

本文来自微信公众号：极客公园（ID：geekpark），作者：张勇毅，编辑：郑玄

在昨天拿到Manus AI的测试码、连续进行了数个小时的测试之后，有不少在手机/PC厂商的工程师/产品经理朋友，来找我“打听”Manus AI的真正能力如何。

为什么硬件行业这么关注Manus？这与当下硬件行业最受关注的概念——LAM有关。LAM是一个从LLM延伸而来的名词，全名为大型行动模型(Large Action Models)，也称为大型智能体模型。

与LLM致力于“超越人类”，因此在训练方法上也经常突破人类经验完全不同，现阶段LAM想要做到的，是成为人类的手，去作为人类用户在数字世界中的代理人。

这与Manus的核心理念有相通之处。目前而言，Manus AI的体验，围绕在一个运行在云端的Ubuntu操作系统虚拟机上，同时在操作系统中打开Chrome浏览器界面，在网页中或是调用其他软件，来完成各种用户的请求。

为了完成这个要求，Manus需求同时具备“自然语义理解和计算机视觉”，以及“用户行为习惯学习与场景感知”，同时拥有“意图识别自主决策”的能力，当然最重要的，同时也是让Manus AI与此前的Computer Use在体验上拉开明显差距的，还是“跨应用调用工具”的能力。

举例来讲，对于常见的“能不能用Manus AI生成一段视频”这个问题，严格来讲回答是“可以”，但Manus AI去生成一段视频的方式，也是通过在网络上搜索第三方AI视频生成工具，并在这个过程中使用到各种工具，来完成用户的请求。

一、LAM真正的未来

进入2025年，Agent AI，或者说LAM在端侧的落地，已经是再明显不过的趋势。但怎么落地，以及最终呈现给用户的会是怎样的商业产品，仍然有很多问题。

早在2024年初，彼时发布的Rabbit R1硬件，以及对应的LAM工具——Rabbit LAM Playground其实已经展现出了今天我们在Manus AI中看到的能力雏形。

在官方的演示中，Rabbit R1所搭载的LAM Playground，能主动帮助用户完成类似音乐播放、打车等服务，实际上背后的技术原理，就是通过使用LAM来访问对应服务的网站，通过模拟人类与网站的交互方式，完成用户指令中的工作内容。

Rabbit 发布的 LAM Playground，其实已经具备今天 Manus AI 的初步能力 | 图片来源：Rabbit

但彼时的Rabbit Playground受限于模型以及开发能力的限制，还并不能做到像人类一样，在互联网中畅通无阻。

在实际用户的测试中，面对类似人机验证这样的场景Rabbit Playground仍然难以通过，也无法使用第三方工具，来完成生成复杂表格、导出PPT这样的用户需求。

由于在实际使用中面临着诸多挑战，Rabbit R1作为一款明星AI硬件，很快就退出主流用户的视野，AI时代的热点变化的是如此之快，以至于到了2025年年初，在互联网上已经很难找到关于这款产品讨论的声音。

但LAM这个概念，作为一个可能改变人类用户与智能硬件设备交互的火种，留存了下来，仍然作为行业中一个重要的研究方向而存在。

Manus AI的出现，尤其是它在自然语义理解，以及在互联网访问网站时，面对各种各样的人机识别，都能“畅行无阻”的能力，让不少仍然在致力于LAM产品开发、并希望在今年推出相关测试产品的人，再次看到了一个契机，并希望通过Manus AI目前的能力以及展现出的短板，来进一步完善自己的产品。

Manus AI已经能在遇到各种人机验证时成功通过，大幅提升了对互联网的访问能力|图片来源：极客公园

目前，在致力于开发LAM产品、来提升用户对手机/电脑等产品使用体验的硬件厂商中，系统级厂商在做LAM中，有着最明显的优势。

“Manus AI这种命令执行方式，对于算力要求非常高，但如果是浏览器或智能手机操作系统来做这件事，能通过获得更多高质量数据的方式，大幅降低算力成本与提升运行速度”。

“做通用LAM并不用针对某些单一网站去适配，虽然在某些场景下可能”

“ManusAI中的一些简单的场景，并不需要完全搬到（云端）上面去处理，反而是留在端侧效果会更好”据这位面向桌面端开发LAM应用的开发者介绍，当前的端侧模型经过针对性训练之后，目前也能实现简单的通用网页访问并内容识别能力，已经能初步完成例如“访问旅游相关网站并制定旅游计划”这样的需求。

此外由于端侧有着更便捷的文件管理系统，同时也有更强大的本地文件管理工具，遇到类似“整理并分析简历”这样的需求，端侧LAM同样能做到更好的效果。

在我的实际测试中，我想要让Manus AI帮我生成一个PPT文件，它就能自动在电脑上安装对应的依赖环境，然后利用工具来自动完成PPT生成，虽然最终仍然完成了用户指令中的需求，但仍然因此大幅拉低了对请求的响应时间。

二、如何理解Manus的意义

当前，Manus AI展示出的逻辑中，已经向外界展示了LAM在“生产力”领域能带来怎样的改变，但仍然有很多问题亟待解答。

其中最重要的，也是被问到最多的，或许就是商业化这件事：不少用户对于Manus AI这样的服务，最终会定价多少有着诸多的猜测。

除了类似Manus AI这样，完全交给云端运行，用户端只需要“输入命令-返回成果”的模式，前面提到的不少硬件厂商，实际上是将端侧/云端混合运行的模式作为主流方案。

这其实也暗示了，未来LAM的发展，或许将分为两个不同的主流方向；不仅有基于现有硬件算力，在端侧实现性能稍差的LAM，也有完全基于云端的“数字代理”服务。

但这样的服务，距离最终投向市场可能还有不小的距离。“Manus AI如果订阅的话，这样的服务20美元（订阅费）显然是完全不够的。”一位目前就职于手机厂商，研发LAM端侧应用的工程师对此评价道。

仅仅是全程虚拟机运行以及实时显示内容串流的高昂成本，就足以成为此类服务现阶段面向普通消费级市场的最大阻力。

对于以ChatGPT为代表的LLM产品来讲，过去几年已经迅速建立起一套行之有效的订阅系统，用户也在“每个月20美元”的周期往复中，建立起了一个准确的心理预期。

如果LAM未来想要以这种“前端硬件+后端云服务”的方式继续存在，同样也要经历这样一个过程，同时在这个过程中将订阅成本快速拉低，最终将这一商业模式跑通。

随着完全在云端部署的LAM进一步完善，我们大概率会再次看到像Rabbit R1这样、有着更灵活形态的AI硬件设备出现：它可以是智能手表、也可以是AI眼镜，甚至都可能是完全不需要屏幕的智能耳机等设备。

到这个阶段，LAM实际上已经进化成了Agent UI：用户并不再需要传统手机桌面、浏览器那样的用户交互界面，只需要一个供用户输入指令的方式，以及接受LAM最终交付成果的终端。

当初 Rabbit R1 的展示场景中，就已经出现了一些 Manus AI 的案例 | 图片来源：Rabbit

它或许不如LLM那样科幻，但它却是在现有硬件的基础上，短期内我们能看到最明显、最有能力给用户与硬件的交互，带来改变的方向。

随着Manus AI进一步将LAM以及Agent AI能做到什么，展现给更多普通用户，这或许就是Manus AI在这场浪潮最终退去之后，给我们留下的最重要的收获。

“即便最终赢家不是它，它也足够意义重大。”一位LAM产品经理这样评价Manus AI的行业价值。