智能体可以商业化了？-虎嗅网

你用智能体吗？类似聊天机器人的东西。

以前，了解一个行业，得看大量数据，查好多资料，现在AI改变了做事、生活的方式；只要问几个问题，它就能帮我整理出清晰的计划。

日常工作生活中，智能体能直接帮我找到答案，很方便。但智能体是最好的AI应用方向吗？我不知道。

不过，百度“李厂长”在百度世界2024大会上提到：

AI智能体时代快要来了，应用爆发点就在我们眼前；智能体可能会成为AI应用的主流，还会迎来爆发式的增长。这个观点引起业界的讨论，也让我对智能体有了更深的认识。

我一直在关注这个领域。我觉得智能体不仅是提供提示、旅行建议、分析文档的工具。它们更像有智慧的专家，能进行深入的交流。

智能体和传统的问答机器不一样，它们能和用户连续对话，一步步深入问题的核心，这是它们的强项。前几天，我就用智能体解决了obsidian插件冲突的问题。

不过，进一步探索中，我发现，智能体还有很多问题需要解决。什么问题呢？

第一个：使用距离。

使用距离？什么意思？别人不会用吗？不是的。准确说，是用户习惯。

智能体不仅是一个聊天机器人，更像一个超级大脑，我们用聊天的方式跟它交流，但要认识到它真的可以解决系统问题。

这个过程，不是简单的一问一答那么简单，是可以让思考更上一层楼，让效率翻一倍。

举个身边的例子：前几天，有个朋友在群里说要做PPT。咱们以前做PPT，基本上两种方法。第一种非常老土，不用AI，自己把内容整理好，结构搭起来，然后动手做，这种方法虽然踏实，但费时费力，效率不高。

第二种呢，用AI帮忙，先给个提示词，再给AI一些背景资料，让它根据提示词和资料来辅助你整理后，再给新的提示词，让它帮我们把内容做得更结构化，最后，用这些内容去做PPT。

这种方法效率提升了，但还缺少点人性化的互动。智能体呢，它更高级，属于第三种方法。

我们可以直接跟它说：接下来有个做PPT的任务，你跟我一起完成。我先给你一些资料，你学习下，然后，学习过程中，给我提出问题，类似于问我要多少页？每页突出什么？

如此循环渐进的像一个合作伙伴，不仅理解了需求，还能提出建设性意见，同时又节省了写提示词的时间，还能达到我们想要的目的。

所以，智能体真的很能干活儿。它是三维思考的。

想用好它，我们得有点项目思维、或者任务思维，这样才能发挥巨大作用；但是，很多人还在用二维思维，你问我答的方式，如果一直这样想，用智能体的速度和效率就上不去。

比起使用距离，第二个关于API的问题要厂商们思考下。

事情是这样：前两天百度上搜比亚迪，看到官网用了智能体，我就跟它说：“帮我找找比亚迪内饰的照片。”结果，你猜怎么着？它给我生成了四张图。

我差点笑出声，这不是搞笑吗？我要生成图吗？当然不是。我更希望它能直接从官网上给我调出照片来。

紧接着，我带着疑问，又试了豆包、腾讯元宝，想让他们帮我P个图。结果都差不多，我发现他们对P图的理解跟我不一样。

我理解的P图是用Photoshop那样去掉背景，但他们好像把P图理解成生成新照片。

这个问题可能出在智能体本身。因为，它们现在还做不到那种专业的修图效果，背后缺少某种插件或能力模块；只有当能调用这些模块时，才能帮我修图。

为什么大公司都做不到智能体处理一整套任务呢？

因为，一个智能体要完成一个复杂的工作流，背后不是靠一个生成模块就能搞定的，它要调动很多数据和应用程序。

打个比方：你去餐厅吃饭，不需要知道厨师是怎么做菜的，菜就端到你面前了。但其实，厨师得用各种材料，比如白菜、辣椒、调料，把它们放到锅里一炒，菜就出来了。

智能体也是这样，得调用各种API，API像菜单一样，集合所有的服务和请求，让不同的软件能够互相交流合作，最后才能达到想要的效果。

现在，很多网站和APP都有自己的API，API不统一，不标准化，这导致智能体没有足够的接口可以用，限制了它的发展。

还有，以前没有统一的底层开发框架，技术团队开发智能体时得从零开始，现在阿里、百度都做了统一开发框架，解决了底层数据处理、模型训练、监控部署的问题，但中小型软件服务商还是不多。

因此，也就限制了其他能力模块的发展。

当然，这也是个好机会，因为如果有人能在细分场景下，利用自己对特定业务场景的了解，开发出一个更符合一线需求的智能体，那就有机会成功。

比如：你在教育赛道很多年，凭借个人对教育技术和孩子学习需求的理解，开发一个智能体，帮孩子提升学习进度和测试成绩，就能赚到钱。

所以，API的问题需要时间和更多中小开发者入局。

能写出这些想法，自然不会错过开发智能体的好机会；开发中，我发现一个第三个问题：能力泛化。

什么意思呢？

起初，我设计占卜师智能体，目的是让它进行占卜。没想到，它不仅能占卜，还能算命，甚至能总结文章。

我以为提示词没写清楚。后来，试了其他智能体，发现也有类似情况。

为什么会这样？

我认为智能体知识可以分为两部分：一部分通用知识，像我们学的基础知识，这是智能体必须掌握的。

另一部分则是针对特定行业的，随着行业人士的使用，智能体也能跟着学习。这有点像能力的二八法则：80%的能力是基础的，剩下20%在实际工作中边干边学。

实际上，过去一年，大厂都在训练大型语言模型，这些大模型的本质，是通过海量数据训练得到的，目的是生成最有可能的回答，而不是专注于特定能力或任务。

这种泛化能力，让智能体在多任务中表现不错，因为这些任务都涉及语言处理和推理，这意味着，要进行任务微调，就必须做任务分离。

而开发多个智能体，是一种过程性的解决方案。

你想想看，各大平台现在都在尝试将智能体做垂直细分，专注于特定领域或任务，比如法律助手、医疗问诊、学习辅助等。

这种趋势也表明，未来肯定会有更多人根据不同需求，选择和使用专门化的智能体，推动AI更深入地融入日常生活和工作场景。这是第一点。

第二点，目前市面上缺少专业的智能体开发者，能培养的也很少，我想去，居然还找不到；要不，厂牌们考虑下开个班吧？

现在的开发者，很多是对AI感兴趣的人，他们在设计智能体时，主要是用提示词来引导模型的行为。

但是，提示词这种东西，像个软性的约束，并不能真正限制智能体能干什么，这种设计方式，很容易让智能体“越界”。

你想想看，我设计一个占卜师智能体，占卜本身可能“顺便”会提供点儿心理咨询，甚至还会推荐人生规划；这种能力的模糊性，不是我不愿意解决，而是目前工具和方法还不够成熟，我很难精准控制。

就像禅宗里说的：“少即是多（Less is more）”。少比多难，少不是减少，是聚焦，得用技术聚焦。

还有一点：现在智能体缺少明确场景。这听起来像废话。但你有没有想过，这些场景究竟从哪里来？

钉钉总裁不穷说过一句话：“AI得从下面开始，先让懂行的人用起来。”

只有对AI有需求、愿意尝试的人开始用了，才能慢慢积累出真正有用的场景，找到AI真正的价值。

我觉得，就算智能体慢慢融入了医疗、法律、金融这些领域，它还是停留在“看起来懂，但不专业”的阶段。

因为现在大多数人还是把智能体当成“聊天工具”，聊天工具是什么？即弄个董宇辉文案、搞个妈妈式唠叨，这不能帮助行业。

如果这种情况一直这样下去，最后的结果就是，大家还是只把它当聊天工具玩，没法真正用到工作中；这样的话，别说提高行业效率了，这不仅是对智能体的浪费，更是错过了行业变革的机会。

所以，一个简单的结论即：我们要思考清楚，哪类智能体做工具？哪类做平台？需要什么样的开发者来开发智能体？

这三个问题回答清楚，智能体才会在场景中发挥作用。

看到这，别误会，我不是说通用智能体不行，确实有它们的好处。

垂直单一的智能体可能比较局限，但能处理多种任务处理就厉害了，因为能同时搞定好几个工作流程，不仅速度快，而且思考的过程也更清楚、更靠谱。

而且，这些智能体还能处理各种类型数据，在很多场景下都能派上用场。

在公司里，这种能干多种事情的智能体，已经开始发挥作用了，比如：RPA技术，现在已经被看作是智能体的一个工具。

这种通用智能体在营销、生产管理、运营自动化这些地方也有很多可能。

最近特别火的一个话题就是：智能体在手机界面上的应用。大家都觉得，将来它们会成为重要的用户界面入口，就像人一样，能自动操作界面，根据需要自动用APP完成任务。

比如：腾讯的AppAgent和阿里的MobileAgent项目，或者手机厂商发布会上展示的“一句话点单”的功能，这些都是很好的例子。

我相信，在电脑、手机、自动驾驶这些领域，将来这种多功能的智能体会有很多应用场景，比如：接管系统级操作，或者用通用智能体管理子智能体等等。

我也看到，很多智能体在一些特定场景中的开发和工程化潜力，但是，话说回来，智能体的使用和能不能商业化，是两回事。

你想想看，如果一个公司用了被随意开发的智能体，然后问它另一个公司的情况，它也回答了，岂不是很荒谬？

所以，不能光看宏观叙事，还是要扎根行业去思考，希望大公司能多想想行业的实际问题。

比如：智能体怎么帮一个职员做决定，怎么规划某个工作流程，怎么提供真正管用的解决方案。

我说的行业，更准确地是行业里在用、想用智能体的人，因为只有这些人，才能会不断给智能体特定知识；换句话说：智能体学习了他们的东西，它才会进步。

你觉得呢？‍‍‍‍‍‍‍‍‍‍‍‍‍‍

本文来自微信公众号：王智远，作者：王智远