完整复盘：Manus是怎么诞生的？-虎嗅网

去年获得最多精神养分的创业故事，来自Dify创始人张路宇。

第一次见到他是在2023年“西溪论道”活动上，现场一众星光熠熠的名字中，张路宇三个字并不起眼。2024年再次见到，Dify已经是另一个故事了——一位没有光鲜背景的创业者，愣是在所有人都问商业模式的质疑声中，做出了全球最成功的AI开源产品之一。

一年的时间里在这家公司上发生的，比如意外在“因循守旧、易守难攻”的日本市场大受欢迎等故事，让我进一步理解“创业”。多的是意外，更需要运气，最终是要有本事在持续变化与事与愿违中摸出一条道路。

现在，相似的故事发生在另一位备受关注的创业者——Manus.im肖弘和他的团队身上。

4个月前，肖弘提过一个困惑，“团队擅长从0到1，抓机会的能力很强，一旦开始1到N，状态就没有那么好”。

在他过往的经历中，创业项目大都获得了相对稳定、可观的营收，上一家公司也被成功收购。2023年，他的新公司“蝴蝶效应”更是以一款浏览器插件Monica.im，在百模大战的AI叙事中错位竞争，成为增长最快、产品体验极佳的AI应用之一。看上去，他是一路很顺的创业者。做到这些事情，也才32岁。

但实际上，他并没有太多爽感。在肖弘看来，所谓“连续退出创业者”、所谓不断从0到1的爽感，像是围城——从0到1抓机会的能力很强、很爽，但是反过来，也担心会不会又需要再来一次。

2024年，行业人士认为，像Monica.im这样带有记忆功能的AI助手，会面临来自比如豆包这样的强劲对手的压力，做起来并不会像2023年那样容易。Monica.im有一个很好的从0到1，但未必能冲击1到N。

而他之所以会困惑，也是因为“团队接下来真的要做更难的事情、天花板更高的事情”，探索能够跨越1到N的事情。

更早之前，很多关注Monica.im的声音都假定这件“更难、天花板更高的事”是指传了很久、但团队迟迟未发布的AI浏览器。

现在看，确实，猜错了。

这段更难的探索其实是：放弃已经达到发布状态的AI浏览器、寻找下一个“ChatGPT时刻”的AI产品、找到了通用型agent这个目标、做出了最新发布的Manus.im。

Manus是什么程度的创新、未来能做到什么水平，现在已经是一聊就炸了的话题。但值得看的，依旧是在“事与愿违”中找到的方向和找到方向的过程。Manus.im未必就能让这支团队做成1到N的事情，甚至未必会复刻Monica.im的势头，但就像这家公司的名字——“蝴蝶效应”，许多小的动作和决定无意间对未来竟有深远的影响，“Connect the Dots”，明天的路会藏在今天的经历里。

一、Manus的独特产品体验，源自做“AI浏览器”的教训

去年中下旬以来，“蝴蝶效应”团队做AI浏览器成为行业“半公开”的秘密。正式对外亮相的产品，是引发失控般关注度的Manus。

如果你亲自上手体验过Manus，或者看过演示视频，你会感觉到它和聊天机器人或一些类agent应用相比，有一个明显的不同：Manus可以异步、并行执行任务。

当你打开比如豆包、Kimi或者类Computer Use等应用，向它发一个问题，你要等它回复完。否则在它回复或者做任务的过程中跟它说话，上一段回复/任务就中断了，你和它只能是A-B-A-B接力式的对话。

但是，在Manus.im里，尽管看着还是聊天机器人的产品形态，你却可以提出比如20个问题让它同步执行任务。一旁的你可以在电脑上做其他任何事情，看视频、写文档、打游戏等等，都不耽误它工作。一旦这些任务有完成的或者执行过程遇到问题，Manus可以通知你。如果在执行任务中途，你看到它的思考出现了偏差，也可以随时在对话框补充提示词，它会带着新的上下文接着思考和执行任务。

体验是异步的、可以并行的，确实像有了一支可以帮你干活的真人实习生团队。

事实上，Manus对异步体验的产品架构设计，源自团队在上一个未公开的产品——AI浏览器中学到的一课。同时这也是团队投入了很大精力、但在去年10月决定终止做浏览器的原因。

The Browser Company于2024年10月25日宣布停止对Arc浏览器的新功能开发，决定将资源转移到一款新浏览器Dia上，旨在打造一个更简洁、更易用的AI浏览器。｜来源：Arc官网

“在AI浏览器里，AI在不断打断用户。”因为它是为单用户设计的场景，AI用了，你就用不了了，当AI开始工作，你只能看着AI工作，很难上手。看着AI抢走了你的鼠标、电脑，你不仅不敢抢过来，而且还怕一不小心碰到键盘、鼠标导致它的整个流程崩掉需要再来一次。

这让团队做出两个判断：

1. 直接用电脑去做Computer Use，短时间内不太可行。

2. AI应该用浏览器，但不是在你的浏览器里用，它应该有自己的浏览器，这个浏览器最好在云端，最后把结果反馈给你。

在和腾讯科技张小珺的采访对话中，肖弘提到团队在总结从Jasper到ChatGPT到Monica到Cursor到Devin的产品形态时，发现“人类程序员”Devin就很符合这个异步体验的架构。

它不像用Windsurf时，有时要让你确认你的电脑要不要装这个库；或者它执行一个命令行操作，让你填yes or no，因为它可能真会把你的电脑搞坏，或者是某个东西冲突——它让你填“yes”才能到执行下一步，但要甩锅。

所以在Manus团队看来，“Chatbot应该在云上有个电脑，把它写的代码、要通过浏览器查的东西都在那台电脑上执行。因为是虚拟服务器，坏了无所谓，可以再来一台。它甚至可以在当前任务执行完之后释放掉那个服务器。”

值得注意的是，相比Devin选择了垂直领域、硬核的工程师，Manus团队则选择了通用型、消费级的AI助手，有Web，也会有App。它是一个可以根据指令，调用工具、完成与工作与生活中的各类任务的一款通用型AI助手，未来也会以一个消费级可负担得起的价格交付任务结果。

二、Less Structure，More Intelligence

有了明确的思路和目标，下一步就是实现这个想法。Manus到底是怎么做到的？

在其产品合伙人张涛看来，这需要给大模型配一台电脑，同时也给它配系统权限（接入代码仓库、专业数据查询网站等私有API），并给予一定的培训。

这样一来，AI可以自己用这台电脑打开浏览器，做动作去调度工具，再根据工具产生的反馈观察它的动作对真实世界造成的影响，再思考下一步，再做动作，再观察……这是AI在探索和调研中完成任务的过程。期间，Manus也会在你的“调教”下越来越懂你的要求，未来即便你没有清晰定义需求，它也可以根据一个个任务中沉淀下来的知识“揣摩圣意”。

华为天才少年、Logenic AI创始人李博杰认为Manus有一眼不同于其他产品的厉害之处：以极客程序员的方式解决问题。｜图片来源：微信截图

Manus产品的理念，在其团队的产品实践过程中逐渐明确：即Less Structure、More Intelligence（更少的结构，更多的智能）。

这也是让Manus团队产生一个个“A-Ha，Wait！”（惊呆了）的时刻。举个例子，这是今年1月在团队发生的一幕：

当让Manus试着做GAIA测试集上的一个题目：“在一个类似国家地理风格的Youtube视频链接里，各种企鹅们来来回回走出又进来画面，让Manus数一帧画面里面同时出现最多种企鹅时，是有几种？”

然后，神奇的事情发生了。

Manus先是打开这个视频链接，接着做的第一个动作是“Press K”，接着挨个截图记录哪一帧出现了哪种企鹅后，最后得出最多的一帧画面有3种企鹅。Manus接下来要回去检查，它的下一个动作是“Press 3”……。最后检查后给出的答案就是3。

作为建造Manus背后的人，理应很了解它的能力边界，但对团队来说，真实情况是“总有惊喜发生”。意外的不仅是Manus做对了题目，而且，用了多年电脑和Youtube的人类朋友可能都不一定清楚，键盘上“K”“3”这些按键是什么？

看着有些恍惚的眼前一幕，团队跟着Manus做了一遍，键盘上的“K”是暂停键，可以让Manus暂停后挨个截图记录哪一帧出现了哪种企鹅后；“3”也是一个快捷键，从0到9分别代表进度条的0%到90%，3是进度条的30%，可以精确定位到那个视频的那一秒钟，然后告诉人类这个画面有几种企鹅。

“这个过程跟传统意义上的Chatbot不一样。第一，它能看YouTube的画面，而不是看字幕。第二，我们甚至发现它在用YouTube快捷键，非常震惊，它回答出来了这个问题。”肖弘在此前腾讯科技的采访中也提到了这一幕。

突然就发现，Manus不仅在编程上比人擅长，就连在人们天天使用的Web、App上，Manus的知识量也远超想象，作为一个全知全能的AI，它可以在任何工具里了解所有途径和手段，然后选择最优的方法。

这让团队再一次感受到了“Less Structure，More intelligence”——尽量减少人工对AI的限制，让AI通过自己的进化来发挥作用，而不是教它怎么做。

在Manus官网的最底部，悄悄呈现了Manus背后最重要的发现：“Less Structure，More intelligence”。｜截图来源：Manus

这是“蝴蝶效应”联合创始人、首席科学家Peak在Manus产品上线当天，对Manus产品背后最重要的第一性原理——“Less Structure，More intelligence”作出的阐述和延展思考：

当你的数据足够优质、模型足够智能、架构足够灵活、工程足够扎实，那么Computer Use、Deep Research、Coding Agent等概念就从产品特性变为了自然涌现的能力。

回归第一性原理也让我们对产品形态有了全新的思考：

AI浏览器不是在浏览器里加AI，而是做给AI用的浏览器；

AI搜索不是从索引召回再总结，而是让AI以用户的权限去获取信息；

操作GUI不是抢夺用户设备的控制权，而是让AI有自己的虚拟机；

编写代码不是最终目的，而是解决各种问题的通用媒介；

生成网站的难点不是搭建框架，而是让内容言之有物；

Attention不是all you need，解放用户的attention才能重新定义DAU；

……

一次次“Less Structure，More intelligence”的发现与实践，Manus产生了超出期待的效果，包括在GAIA benchmark中的pass@1分数超过了OpenAI Deep Research在cons@64下的成绩；同时，在内部测试中，Manus也能够直接覆盖Y Combinator W25中76%的专用agent产品的场景。

三、“Agent可能是‘对齐’的问题，而不是基础模型能力的问题”

现在，这些洞察的含金量正在更大的范围内引起讨论：

Hugging Face创始人、CEO Clement Delangue在X平台提出Peak的发现值得思考：智能体的能力不是卡在基座模型上，而是像GPT-3与InstructGPT（ChatGPT）的差别一样，是对齐的问题。一些开源基础模型被简单训练成“无论问题的复杂程度如何，都能在一个轮次中回答完所有问题”，但这是聊天机器人场景中的要求，只需要对智能体的路径做一些后训练，就能立即带来巨大的不同。｜截图来源：X

Manus并未引入MCP（《模型上下文协议》），而是让AI能够自己写代码去调用API，来胜任各种各样的长尾任务。｜截图来源：X

在过去几天对Manus的讨论中，听到最多的一个问题是：“通用的AIAgent”行不行得通，边界在哪里？

在Peak看来，因为人与世界的交互其实非常标准，有眼睛、手、耳朵，如果把action space（行动空间）定义好，就应该能把一个agent嵌入到一个本来由人来进行的一个环节中。

既然人能够使用各种工具来完成垂直领域很深的操作，那么如果一个agent本身具有足够好的知识，经过了适当的培训，又有很好的一个与世界交互的界面，它应该能像人一样工作，甚至可以让这个agent用某个SaaS产品。比如在Manus.im官网呈现的一个找房子的案例，其实就是让AI用一个房地产领域专用的SaaS产品工作。

他认为，应该定义清楚的是agent使用工具的边界，而不是它为哪群人服务。Manus不是在模拟一个干具体事的一个人，不是比如按照研发、产品经理等划分的角色智能体；而是在模拟一个能干事的人、是模拟一个实习生是怎么工作的。

Manus的多智能体系统（Multi-agent system），指的是规划（Planning）和执行（Execution）的分离。

在执行器（Executor）上，Manus采用了在编程、以及长程规划和逐步解决问题的能力暂时领先的Claude，也在用Qwen的一系列模型做后训练。

昨天，Manus也与阿里通义千问达成战略合作，致力于在国产模型和算力平台上实现Manus的全部功能。｜图片来源：Manus

在规划器（Planner）的部分，Manus则做了很多工作。

由于目前市面上的货架API或者说模型，本质上是为聊天机器人的场景做对齐的，在训练的时候，无论用户提了一个多么复杂的问题，其训练的优化目标都是在一个回复里把用户的问题回答清楚，但这其实跟agent所需要的planning完全相反。

所以如果把市面上现有的模型直接用在agent场景，并没有“对齐”，这个模型永远会急功近利地在一轮对话内给出一个“稀里糊涂”的结果，就像很多bullet point总结。

“对齐方式应该会不一样，我们团队认为，需要不同数据去专门做对齐”，肖弘说。

去年10月，Peak在知乎也记录过一个尝试复现OpenAI o1兴趣项目——Steiner开源模型的进展与失败，实际上这个项目恰是在做Manus规划器部分step by step planning（一步步规划）的预研。

总体上，Manus是在模拟一个做事的人，这是团队对Manus作为通用型AI助手的产品定义。至于对其边界的思考，团队大概率也仍在探索中，需要更多的用户使用案例。

在Manus发布前放出的腾讯科技采访中，肖弘其实已经提到了对Manus通用性所在的初步思考，“一个很核心问题，或者说产品经理很重要的一个职责，是控制好用户预期。假定它能干世界上所有事，比如：我要怎么赚100万美金？这本来就不是应该由一个Agent去执行的事情。但如果我们能够给出更多更具体的例子，让大家的预期更合理，大家会用起来更顺畅。”

四、“壳有壳的用”，最懂壳的团队

2月27号凌晨，Manus产品合伙人张涛和首席科学家季逸超（Peak）看到Manus.im打榜成绩出来的一瞬间，两位都落泪了。Manus在GAIA Benchmark上的成绩超过OpenAI的Deep Research，而且以OpenAI打榜时1/10左右的成本（2美元/任务）做到了这个意外的成绩。

图片来源：Manus.im

几十人的团队，在agent达成全行业共识的竞争态势之时，成为第一波做出通用agent产品的团队之一，在产品工程、前端交互体验上，也有独特性。

做成事情的正反馈，胜过所有。对创业团队来说，没有比这更好的激励了。但在这之前，Manus是怎么发生的？为什么是这个团队做出来的？

“今天的模型能力是能够完成一些复杂、多步才能搞定的任务。只是没有这样的产品，所以大家感受不到。”肖弘在此前腾讯科技的采访中提到的洞察可以用来理解这一问题。

同时，“能有机会尝试做Agent的产品的团队，并不多。因为，需要很多复合能力。他要搞过Chatbot，搞过一点AI编程相关，搞过浏览器相关，因为要调用浏览器，而且对LLM的边界有不错感知——今天发展到什么水平，接下来会发展到什么样的水平。这些能力首先同时拥有的公司没那么多，而且有这些能力的公司，可能手头正在干一个很具体的业务。我们恰好有些同学刚好有时间一起把这些事做出来。”

“恰好”。

在恰好的时间发现模型能力达到了可以做agent的程度，而不一定非要等一个像Operator一样的端到端大模型出来；

也恰好发现了问题出在对齐上；

也恰好做过聊天机器人延展出来的所有功能和AI浏览器；

同时因为一直在所谓“套壳”做大模型应用产品所以对LLM有敏锐的感知；

“蝴蝶效应”团队达成了在当下做出这样一款通用agent的全部要素，所以现在有了完成度相对行业比较高的通用agent。

在被问及要做Manus的决定性瞬间是什么时，Peak还原了更多的细节，他表示，“创业其实没有‘干净的’pivot”，这一切是连贯的、没有明确界限的。

“在做一款产品的时候，也会频繁关注外界的情况。”当时有几件事，一是做浏览器的时候，做过端侧模型，后来发现浏览器需要的场景非常非常宽，有不同的feature，做的过程发现了基座模型变强的速度在加快，强到它跟agent之间的差距可能是一个alignment问题。尽管可能外界觉得好像大语言模型已经要逐渐收敛、撞墙。

同期，外界也在发生变化。去年年初Cursor开始火，然后是Windsurf和Devin。这背后对应同一个脉络，agent在编程领域火了，火的途径逐级递进。Cursor是程序员的一个copilot，提升编程效率，从Windsurf开始逐渐有些自动化的流程进来，让你在本机有更强的自动化能力，Devin又达到了自动化新高度。

VC的动向也是一致的，比如在去年和前年，YC投了两类公司，一是云端的Browser，比如Browser base；第二类是类似于e2b这种轻量级的AI Sandbox虚拟机这些东西。

这说明“模型的基建在迅速成熟，Infra的基建也在迅速成熟，再加上看见外界产品逐渐有更多的接受度，我们就觉得这是一个值得all in的方向。这是一个非常渐进的、平滑的过程，再加上做浏览器时的积累比如chromium那些基建可以无缝迁移过来，这也是为什么我们敢在云端搞浏览器”。

总结来说，在所谓“套壳”中对需求和模型的敏锐感知和经验积累，共同造就了Manus。Monica的很多场景需要做模型后训练，同时在AI浏览器的实践中强化了最重要的一课“less structure、more intelligence”，发现模型能力达到了做agent，问题在于对齐。接着就是Manus飞速进化的3个月。

此前，“蝴蝶效应”团队一度被质疑“套壳”的价值何在，其在不自研大模型的情况下，通过整合现有大模型做出了Monica，把聊天、搜索、阅读、写作、翻译等功能整合在一起，也通过一个个接API的方式集成了很多任务执行的场景，去年底用户量达千万。

现在，当豆包、夸克、元宝都大力推广各自的Monica类产品，当一个小团队又把现有技术利用起来做出第一个通用消费级agent时，是时候该重新理解“壳”了。

“套壳”以及“壳”究竟是什么？

在肖弘看来，所有突破都是模型带来的，基本上是模型先驱动、模型先行。壳是要把模型技术上的创新点，以一个用户可感知的方式展示出来，把模型创新能力封装成用户最能感知的样子。

从这个定义出发，DeepSeek App（包括思维链的展示）是DeepSeek-R1的壳，Cursor是Anthropic Sonnet 3.5的壳，Perplexity是GPT-4的壳，ChatGPT是InstructGPT的壳。

随着模型能力在快速进化，“那个壳”也需要进化。每一代模型能力进化之后，甚至不一定是原厂，是一个第三方厂商把它的用户可感知价值给呈现出来。就像Cursor把Claude 3.5 Sonnet的用户可感知的价值。

3月5日，在Monica.im发布两周年的时间点，为什么是这几十个人做出了超过各类Deep Research和OpenAI Operator的产品体验，答案就在对壳的理解和实践里。

如何做出新的、可以做agent的模型下最好的壳？

作为Manus的建造者，张涛认为，“从后台去看它整个的架构，我们看到每个地方都有大量的未完成的工作要去做，而那些地方每一个地方都是决胜的关键，都是让产品面都不一样的地方。”

在团队看来，最重要的优势是创新速度（pace of Innovation），无论是应用还是模型，现在都到了一个相对饱和的状态，真正到最后的核心能力唯有一个，就是跑得快，尽管“数据飞轮”“网络效应”这些东西还未被验证有没有。

“在一个全新的领域里，一切未定，一切未知，最重要的就是创新速度，拼的是在各种各样的方向上探索、试错，快速找到正确的路径。”而Manus团队从管理理念、组织架构、产业流程上，足够灵活。当新机会出现时，能在有限的资源里能够贯通整个公司从上到下所有的资源，并且极高的决策速度，并适应犯错的反馈。

对于Manus的预期，肖弘认为“哪怕有窗口期你也值得试一试。”过去一年，他的思考也在发生剧烈变化，比如现在的他认为“当意识到自己提前的时候，更激进，超级激进。今天复盘，觉得23年Monica不够激进。”“如果你知道你在创新，你在领先，你就应该激进。”

不知道Manus能不能给肖弘和他的团队带来从1到N的体验与跨越，但这个最懂“壳”的团队相信心手合一地创造、也相信创造带来的蝴蝶效应——Manus来源于MIT的一个motto：Mens at manus，强调心手合一。不能光学，还得做，对现实世界产生impact，才是真正的知识。

未来，随着Manus背后更多的沉淀开源出来，更广范围的蝴蝶效应也会进一步释放。

本文来自微信公众号：极客公园（ID：geekpark），作者：宛辰，编辑：郑玄