本文来自微信公众号:极客公园 (ID:geekpark),作者:宛辰,编辑:郑玄,题图来自:AI生成
本文来自微信公众号:极客公园 (ID:geekpark),作者:宛辰,编辑:郑玄,题图来自:AI生成
去年获得最多精神养分的创业故事,来自Dify创始人张路宇。
第一次见到他是在2023年“西溪论道”活动上,现场一众星光熠熠的名字中,张路宇三个字并不起眼。2024年再次见到,Dify已经是另一个故事了——一位没有光鲜背景的创业者,愣是在所有人都问商业模式的质疑声中,做出了全球最成功的AI开源产品之一。
一年的时间里在这家公司上发生的,比如意外在“因循守旧、易守难攻”的日本市场大受欢迎等故事,让我进一步理解“创业”。多的是意外,更需要运气,最终是要有本事在持续变化与事与愿违中摸出一条道路。
现在,相似的故事发生在另一位备受关注的创业者——Manus.im肖弘和他的团队身上。
4个月前,肖弘提过一个困惑,“团队擅长从0到1,抓机会的能力很强,一旦开始1到N,状态就没有那么好”。
在他过往的经历中,创业项目大都获得了相对稳定、可观的营收,上一家公司也被成功收购。2023年,他的新公司“蝴蝶效应”更是以一款浏览器插件Monica.im,在百模大战的AI叙事中错位竞争,成为增长最快、产品体验极佳的AI应用之一。看上去,他是一路很顺的创业者。做到这些事情,也才32岁。
但实际上,他并没有太多爽感。在肖弘看来,所谓“连续退出创业者”、所谓不断从0到1的爽感,像是围城——从0到1抓机会的能力很强、很爽,但是反过来,也担心会不会又需要再来一次。
2024年,行业人士认为,像Monica.im这样带有记忆功能的AI助手,会面临来自比如豆包这样的强劲对手的压力,做起来并不会像2023年那样容易。Monica.im有一个很好的从0到1,但未必能冲击1到N。
而他之所以会困惑,也是因为“团队接下来真的要做更难的事情、天花板更高的事情”,探索能够跨越1到N的事情。
更早之前,很多关注Monica.im的声音都假定这件“更难、天花板更高的事”是指传了很久、但团队迟迟未发布的AI浏览器。
现在看,确实,猜错了。
这段更难的探索其实是:放弃已经达到发布状态的AI浏览器、寻找下一个“ChatGPT时刻”的AI产品、找到了通用型agent这个目标、做出了最新发布的Manus.im。
Manus是什么程度的创新、未来能做到什么水平,现在已经是一聊就炸了的话题。但值得看的,依旧是在“事与愿违”中找到的方向和找到方向的过程。Manus.im未必就能让这支团队做成1到N的事情,甚至未必会复刻Monica.im的势头,但就像这家公司的名字——“蝴蝶效应”,许多小的动作和决定无意间对未来竟有深远的影响,“Connect the Dots”,明天的路会藏在今天的经历里。
一、Manus的独特产品体验,源自做“AI浏览器”的教训
去年中下旬以来,“蝴蝶效应”团队做AI浏览器成为行业“半公开”的秘密。正式对外亮相的产品,是引发失控般关注度的Manus。
如果你亲自上手体验过Manus,或者看过演示视频,你会感觉到它和聊天机器人或一些类agent应用相比,有一个明显的不同:Manus可以异步、并行执行任务。
当你打开比如豆包、Kimi或者类Computer Use等应用,向它发一个问题,你要等它回复完。否则在它回复或者做任务的过程中跟它说话,上一段回复/任务就中断了,你和它只能是A-B-A-B接力式的对话。
但是,在Manus.im里,尽管看着还是聊天机器人的产品形态,你却可以提出比如20个问题让它同步执行任务。一旁的你可以在电脑上做其他任何事情,看视频、写文档、打游戏等等,都不耽误它工作。一旦这些任务有完成的或者执行过程遇到问题,Manus可以通知你。如果在执行任务中途,你看到它的思考出现了偏差,也可以随时在对话框补充提示词,它会带着新的上下文接着思考和执行任务。
体验是异步的、可以并行的,确实像有了一支可以帮你干活的真人实习生团队。
事实上,Manus对异步体验的产品架构设计,源自团队在上一个未公开的产品——AI浏览器中学到的一课。同时这也是团队投入了很大精力、但在去年10月决定终止做浏览器的原因。
The Browser Company于2024年10月25日宣布停止对Arc浏览器的新功能开发,决定将资源转移到一款新浏览器Dia上,旨在打造一个更简洁、更易用的AI浏览器。|来源:Arc官网
“在AI浏览器里,AI在不断打断用户。”因为它是为单用户设计的场景,AI用了,你就用不了了,当AI开始工作,你只能看着AI工作,很难上手。看着AI抢走了你的鼠标、电脑,你不仅不敢抢过来,而且还怕一不小心碰到键盘、鼠标导致它的整个流程崩掉需要再来一次。
这让团队做出两个判断:
1. 直接用电脑去做Computer Use,短时间内不太可行。
2. AI应该用浏览器,但不是在你的浏览器里用,它应该有自己的浏览器,这个浏览器最好在云端,最后把结果反馈给你。
在和腾讯科技张小珺的采访对话中,肖弘提到团队在总结从Jasper到ChatGPT到Monica到Cursor到Devin的产品形态时,发现“人类程序员”Devin就很符合这个异步体验的架构。
它不像用Windsurf时,有时要让你确认你的电脑要不要装这个库;或者它执行一个命令行操作,让你填yes or no,因为它可能真会把你的电脑搞坏,或者是某个东西冲突——它让你填“yes”才能到执行下一步,但要甩锅。
所以在Manus团队看来,“Chatbot应该在云上有个电脑,把它写的代码、要通过浏览器查的东西都在那台电脑上执行。因为是虚拟服务器,坏了无所谓,可以再来一台。它甚至可以在当前任务执行完之后释放掉那个服务器。”
值得注意的是,相比Devin选择了垂直领域、硬核的工程师,Manus团队则选择了通用型、消费级的AI助手,有Web,也会有App。它是一个可以根据指令,调用工具、完成与工作与生活中的各类任务的一款通用型AI助手,未来也会以一个消费级可负担得起的价格交付任务结果。
二、Less Structure,More Intelligence
有了明确的思路和目标,下一步就是实现这个想法。Manus到底是怎么做到的?
在其产品合伙人张涛看来,这需要给大模型配一台电脑,同时也给它配系统权限(接入代码仓库、专业数据查询网站等私有API),并给予一定的培训。
这样一来,AI可以自己用这台电脑打开浏览器,做动作去调度工具,再根据工具产生的反馈观察它的动作对真实世界造成的影响,再思考下一步,再做动作,再观察……这是AI在探索和调研中完成任务的过程。期间,Manus也会在你的“调教”下越来越懂你的要求,未来即便你没有清晰定义需求,它也可以根据一个个任务中沉淀下来的知识“揣摩圣意”。
华为天才少年、Logenic AI创始人李博杰认为Manus有一眼不同于其他产品的厉害之处:以极客程序员的方式解决问题。|图片来源:微信截图
Manus产品的理念,在其团队的产品实践过程中逐渐明确:即Less Structure、More Intelligence(更少的结构,更多的智能)。
这也是让Manus团队产生一个个“A-Ha,Wait!”(惊呆了)的时刻。举个例子,这是今年1月在团队发生的一幕:
当让Manus试着做GAIA测试集上的一个题目:“在一个类似国家地理风格的Youtube视频链接里,各种企鹅们来来回回走出又进来画面,让Manus数一帧画面里面同时出现最多种企鹅时,是有几种?”
然后,神奇的事情发生了。
Manus先是打开这个视频链接,接着做的第一个动作是“Press K”,接着挨个截图记录哪一帧出现了哪种企鹅后,最后得出最多的一帧画面有3种企鹅。Manus接下来要回去检查,它的下一个动作是“Press 3”……。最后检查后给出的答案就是3。
作为建造Manus背后的人,理应很了解它的能力边界,但对团队来说,真实情况是“总有惊喜发生”。意外的不仅是Manus做对了题目,而且,用了多年电脑和Youtube的人类朋友可能都不一定清楚,键盘上“K”“3”这些按键是什么?
看着有些恍惚的眼前一幕,团队跟着Manus做了一遍,键盘上的“K”是暂停键,可以让Manus暂停后挨个截图记录哪一帧出现了哪种企鹅后;“3”也是一个快捷键,从0到9分别代表进度条的0%到90%,3是进度条的30%,可以精确定位到那个视频的那一秒钟,然后告诉人类这个画面有几种企鹅。
“这个过程跟传统意义上的Chatbot不一样。第一,它能看YouTube的画面,而不是看字幕。第二,我们甚至发现它在用YouTube快捷键,非常震惊,它回答出来了这个问题。”肖弘在此前腾讯科技的采访中也提到了这一幕。
突然就发现,Manus不仅在编程上比人擅长,就连在人们天天使用的Web、App上,Manus的知识量也远超想象,作为一个全知全能的AI,它可以在任何工具里了解所有途径和手段,然后选择最优的方法。
这让团队再一次感受到了“Less Structure,More intelligence”——尽量减少人工对AI的限制,让AI通过自己的进化来发挥作用,而不是教它怎么做。
在Manus官网的最底部,悄悄呈现了Manus背后最重要的发现:“Less Structure,More intelligence”。|截图来源:Manus
这是“蝴蝶效应”联合创始人、首席科学家Peak在Manus产品上线当天,对Manus产品背后最重要的第一性原理——“Less Structure,More intelligence”作出的阐述和延展思考:
当你的数据足够优质、模型足够智能、架构足够灵活、工程足够扎实,那么Computer Use、Deep Research、Coding Agent等概念就从产品特性变为了自然涌现的能力。
回归第一性原理也让我们对产品形态有了全新的思考:
AI浏览器不是在浏览器里加AI,而是做给AI用的浏览器;
AI搜索不是从索引召回再总结,而是让AI以用户的权限去获取信息;
操作GUI不是抢夺用户设备的控制权,而是让AI有自己的虚拟机;
编写代码不是最终目的,而是解决各种问题的通用媒介;
生成网站的难点不是搭建框架,而是让内容言之有物;
Attention不是all you need,解放用户的attention才能重新定义DAU;
……
一次次“Less Structure,More intelligence”的发现与实践,Manus产生了超出期待的效果,包括在GAIA benchmark中的pass@1分数超过了OpenAI Deep Research在cons@64下的成绩;同时,在内部测试中,Manus也能够直接覆盖Y Combinator W25中76%的专用agent产品的场景。
三、“Agent可能是‘对齐’的问题,而不是基础模型能力的问题”
现在,这些洞察的含金量正在更大的范围内引起讨论:
Hugging Face创始人、CEO Clement Delangue在X平台提出Peak的发现值得思考:智能体的能力不是卡在基座模型上,而是像GPT-3与InstructGPT(ChatGPT)的差别一样,是对齐的问题。一些开源基础模型被简单训练成“无论问题的复杂程度如何,都能在一个轮次中回答完所有问题”,但这是聊天机器人场景中的要求,只需要对智能体的路径做一些后训练,就能立即带来巨大的不同。|截图来源:X
Manus并未引入MCP(《模型上下文协议》),而是让AI能够自己写代码去调用API,来胜任各种各样的长尾任务。|截图来源:X
在过去几天对Manus的讨论中,听到最多的一个问题是:“通用的AIAgent”行不行得通,边界在哪里?
在Peak看来,因为人与世界的交互其实非常标准,有眼睛、手、耳朵,如果把action space(行动空间)定义好,就应该能把一个agent嵌入到一个本来由人来进行的一个环节中。
既然人能够使用各种工具来完成垂直领域很深的操作,那么如果一个agent本身具有足够好的知识,经过了适当的培训,又有很好的一个与世界交互的界面,它应该能像人一样工作,甚至可以让这个agent用某个SaaS产品。比如在Manus.im官网呈现的一个找房子的案例,其实就是让AI用一个房地产领域专用的SaaS产品工作。
他认为,应该定义清楚的是agent使用工具的边界,而不是它为哪群人服务。Manus不是在模拟一个干具体事的一个人,不是比如按照研发、产品经理等划分的角色智能体;而是在模拟一个能干事的人、是模拟一个实习生是怎么工作的。
Manus的多智能体系统(Multi-agent system),指的是规划(Planning)和执行(Execution)的分离。
在执行器(Executor)上,Manus采用了在编程、以及长程规划和逐步解决问题的能力暂时领先的Claude,也在用Qwen的一系列模型做后训练。
昨天,Manus也与阿里通义千问达成战略合作,致力于在国产模型和算力平台上实现Manus的全部功能。|图片来源:Manus
在规划器(Planner)的部分,Manus则做了很多工作。
由于目前市面上的货架API或者说模型,本质上是为聊天机器人的场景做对齐的,在训练的时候,无论用户提了一个多么复杂的问题,其训练的优化目标都是在一个回复里把用户的问题回答清楚,但这其实跟agent所需要的planning完全相反。
所以如果把市面上现有的模型直接用在agent场景,并没有“对齐”,这个模型永远会急功近利地在一轮对话内给出一个“稀里糊涂”的结果,就像很多bullet point总结。
“对齐方式应该会不一样,我们团队认为,需要不同数据去专门做对齐”,肖弘说。
去年10月,Peak在知乎也记录过一个尝试复现OpenAI o1兴趣项目——Steiner开源模型的进展与失败,实际上这个项目恰是在做Manus规划器部分step by step planning(一步步规划)的预研。
总体上,Manus是在模拟一个做事的人,这是团队对Manus作为通用型AI助手的产品定义。至于对其边界的思考,团队大概率也仍在探索中,需要更多的用户使用案例。
在Manus发布前放出的腾讯科技采访中,肖弘其实已经提到了对Manus通用性所在的初步思考,“一个很核心问题,或者说产品经理很重要的一个职责,是控制好用户预期。假定它能干世界上所有事,比如:我要怎么赚100万美金?这本来就不是应该由一个Agent去执行的事情。但如果我们能够给出更多更具体的例子,让大家的预期更合理,大家会用起来更顺畅。”
四、“壳有壳的用”,最懂壳的团队
2月27号凌晨,Manus产品合伙人张涛和首席科学家季逸超(Peak)看到Manus.im打榜成绩出来的一瞬间,两位都落泪了。Manus在GAIA Benchmark上的成绩超过OpenAI的Deep Research,而且以OpenAI打榜时1/10左右的成本(2美元/任务)做到了这个意外的成绩。
图片来源:Manus.im
几十人的团队,在agent达成全行业共识的竞争态势之时,成为第一波做出通用agent产品的团队之一,在产品工程、前端交互体验上,也有独特性。
做成事情的正反馈,胜过所有。对创业团队来说,没有比这更好的激励了。但在这之前,Manus是怎么发生的?为什么是这个团队做出来的?
“今天的模型能力是能够完成一些复杂、多步才能搞定的任务。只是没有这样的产品,所以大家感受不到。”肖弘在此前腾讯科技的采访中提到的洞察可以用来理解这一问题。
同时,“能有机会尝试做Agent的产品的团队,并不多。因为,需要很多复合能力。他要搞过Chatbot,搞过一点AI编程相关,搞过浏览器相关,因为要调用浏览器,而且对LLM的边界有不错感知——今天发展到什么水平,接下来会发展到什么样的水平。这些能力首先同时拥有的公司没那么多,而且有这些能力的公司,可能手头正在干一个很具体的业务。我们恰好有些同学刚好有时间一起把这些事做出来。”
“恰好”。
在恰好的时间发现模型能力达到了可以做agent的程度,而不一定非要等一个像Operator一样的端到端大模型出来;
也恰好发现了问题出在对齐上;
也恰好做过聊天机器人延展出来的所有功能和AI浏览器;
同时因为一直在所谓“套壳”做大模型应用产品所以对LLM有敏锐的感知;
“蝴蝶效应”团队达成了在当下做出这样一款通用agent的全部要素,所以现在有了完成度相对行业比较高的通用agent。
在被问及要做Manus的决定性瞬间是什么时,Peak还原了更多的细节,他表示,“创业其实没有‘干净的’pivot”,这一切是连贯的、没有明确界限的。
“在做一款产品的时候,也会频繁关注外界的情况。”当时有几件事,一是做浏览器的时候,做过端侧模型,后来发现浏览器需要的场景非常非常宽,有不同的feature,做的过程发现了基座模型变强的速度在加快,强到它跟agent之间的差距可能是一个alignment问题。尽管可能外界觉得好像大语言模型已经要逐渐收敛、撞墙。
同期,外界也在发生变化。去年年初Cursor开始火,然后是Windsurf和Devin。这背后对应同一个脉络,agent在编程领域火了,火的途径逐级递进。Cursor是程序员的一个copilot,提升编程效率,从Windsurf开始逐渐有些自动化的流程进来,让你在本机有更强的自动化能力,Devin又达到了自动化新高度。
VC的动向也是一致的,比如在去年和前年,YC投了两类公司,一是云端的Browser,比如Browser base;第二类是类似于e2b这种轻量级的AI Sandbox虚拟机这些东西。
这说明“模型的基建在迅速成熟,Infra的基建也在迅速成熟,再加上看见外界产品逐渐有更多的接受度,我们就觉得这是一个值得all in的方向。这是一个非常渐进的、平滑的过程,再加上做浏览器时的积累比如chromium那些基建可以无缝迁移过来,这也是为什么我们敢在云端搞浏览器”。
总结来说,在所谓“套壳”中对需求和模型的敏锐感知和经验积累,共同造就了Manus。Monica的很多场景需要做模型后训练,同时在AI浏览器的实践中强化了最重要的一课“less structure、more intelligence”,发现模型能力达到了做agent,问题在于对齐。接着就是Manus飞速进化的3个月。
此前,“蝴蝶效应”团队一度被质疑“套壳”的价值何在,其在不自研大模型的情况下,通过整合现有大模型做出了Monica,把聊天、搜索、阅读、写作、翻译等功能整合在一起,也通过一个个接API的方式集成了很多任务执行的场景,去年底用户量达千万。
现在,当豆包、夸克、元宝都大力推广各自的Monica类产品,当一个小团队又把现有技术利用起来做出第一个通用消费级agent时,是时候该重新理解“壳”了。
“套壳”以及“壳”究竟是什么?
在肖弘看来,所有突破都是模型带来的,基本上是模型先驱动、模型先行。壳是要把模型技术上的创新点,以一个用户可感知的方式展示出来,把模型创新能力封装成用户最能感知的样子。
从这个定义出发,DeepSeek App(包括思维链的展示)是DeepSeek-R1的壳,Cursor是Anthropic Sonnet 3.5的壳,Perplexity是GPT-4的壳,ChatGPT是InstructGPT的壳。
随着模型能力在快速进化,“那个壳”也需要进化。每一代模型能力进化之后,甚至不一定是原厂,是一个第三方厂商把它的用户可感知价值给呈现出来。就像Cursor把Claude 3.5 Sonnet的用户可感知的价值。
3月5日,在Monica.im发布两周年的时间点,为什么是这几十个人做出了超过各类Deep Research和OpenAI Operator的产品体验,答案就在对壳的理解和实践里。
如何做出新的、可以做agent的模型下最好的壳?
作为Manus的建造者,张涛认为,“从后台去看它整个的架构,我们看到每个地方都有大量的未完成的工作要去做,而那些地方每一个地方都是决胜的关键,都是让产品面都不一样的地方。”
在团队看来,最重要的优势是创新速度(pace of Innovation),无论是应用还是模型,现在都到了一个相对饱和的状态,真正到最后的核心能力唯有一个,就是跑得快,尽管“数据飞轮”“网络效应”这些东西还未被验证有没有。
“在一个全新的领域里,一切未定,一切未知,最重要的就是创新速度,拼的是在各种各样的方向上探索、试错,快速找到正确的路径。”而Manus团队从管理理念、组织架构、产业流程上,足够灵活。当新机会出现时,能在有限的资源里能够贯通整个公司从上到下所有的资源,并且极高的决策速度,并适应犯错的反馈。
对于Manus的预期,肖弘认为“哪怕有窗口期你也值得试一试。”过去一年,他的思考也在发生剧烈变化,比如现在的他认为“当意识到自己提前的时候,更激进,超级激进。今天复盘,觉得23年Monica不够激进。”“如果你知道你在创新,你在领先,你就应该激进。”
不知道Manus能不能给肖弘和他的团队带来从1到N的体验与跨越,但这个最懂“壳”的团队相信心手合一地创造、也相信创造带来的蝴蝶效应——Manus来源于MIT的一个motto:Mens at manus,强调心手合一。不能光学,还得做,对现实世界产生impact,才是真正的知识。
未来,随着Manus背后更多的沉淀开源出来,更广范围的蝴蝶效应也会进一步释放。
本文来自微信公众号:极客公园 (ID:geekpark),作者:宛辰,编辑:郑玄
支持一下 修改