性爱机器人，离现实永远还有十年？-虎嗅网

这两天的机器人大会竟被吐槽为“蜡像博览会”，我翻了翻大家现场发回的视频和照片——可以理解成“赛博聊斋”或“恐怖谷嘉年华”，大概就是这么个意思。

“机器人”的确不必像人，但性爱机器人还是越像越好——至少大多数人是这么期望的。

甚至很多人还会迫不及待给出一个自己的预测——一个性爱机器人“进入千家万户”的具体时间：

2014年，皮尤研究中心预测，机器人性伴侣将在十年内很快普及；

2015年，英国媒体预测，大约2025年前后，人类与机器将能够建立性关系；

2016年，一家为公关公司做未来趋势预测的机构，十年左右，性爱机器人将进入中高收入群体。

2014—2016，正是上一轮AI和机器人被广泛讨论，并被给予厚望的时代，就如同今天一样。十年过去了，说好的性爱机器人呢？（我没急！谁急了？！）

一万美元的温存

大多数机器人是不必执念于“做个人”的。工厂里的机械臂伸出来是“螃蟹钳”，拧螺丝、搬重物，早就比真人好使多了；

商场、酒店里的来回跑的，专业的名字叫“服务型机器人”，“没脸”，轮子上顶个带iPad的“床头柜”，在这样的空间中，轮子比双足跑得又稳又快；

而至于如今最常见的机器人，则是满大街跑的蔚小理、特斯拉，除非能变形，不然更是和人形没有半点关系。

但一类机器人，必须像人。性爱机器人（Sex Robot），人形机器人的终极“圣杯”，要模仿人制造出生理功能，在每一次动作、表情、接触中都不让人产生“恐怖谷效应”；满足人的情感诉求，将机器“人”的每一项技术要求“拉满”。

打开目前最先进的性爱人偶官网，随便选择一款叫做“Novax”的sexrobot（机器人的性别只有女性可选），基础版本标价7199.99美元。

Novax是模块化设计的，以防万一哪天你厌倦了她的长相或身体。她的脖子、眼睛、嘴、眉毛都可以做“有限制的”运动。这家公司做人体模型和情趣玩偶起家，Novax们的外形都很“写实”，脸部仿生度很高。使用者甚至可以和她接吻，但小心有浸液风险，因为她的芯片和线路大多布在后脑。

嵌入机器人下体的传感器，需要另外付钱。它可以模拟人体的接触，检测使用者的运动，反馈给机器人，让她做出逐渐兴奋的反应——但目前也仅仅是声音上的。

如果你想要对五官、形体、器官等特征做一些特殊“爱好”的自定义，估计还要再多付5000美元。

这种性爱玩偶其实仍无法被严格地称为“机器人”，但相比多年前的产品已经能体现出更复杂的交互和更好的使用体验。

比如，曾经美国性玩具品牌Roxxxy推出的性爱玩偶，有男女两个版本，只是在内部嵌入了铰链金属骨架，以实现手动摆出并固定各种姿势……在当时售价就要近一万美元。

如果你真的被Novax打动，并且觉得这钱花得真值，把你的机器伴侣接回家之后，或许才是麻烦的开始……

爱的姿势与套路

某个深夜，孤枕难眠，你搬出了你可人的伴侣——“宝贝儿，先凹个造型～”但“宝贝儿”的身体忽然不听使唤了，就像是卡壳的洗衣机，恼人的蜂鸣声中，她停在了一个贞子一般的姿势，还直抽抽。

你气得找售后理论，“买的时候，说挺好，无缝更换姿势。”客服解释道：“这就跟人上了年纪，身体没那么活泛一样，这机器人的关节还是没法跟人比的。”

目前最火的人形机器人特斯拉“擎天柱”来举例，它身上有40个驱动器（躯干28个，双手12个），可实现全身200多个自由度，手部11个自由度。相比之下，人类（按照大多数人将关节定义为两块骨头相交的地方）大概有350个关节。

机器人若想实现精准的动作，需要运动控制算法将各“关节”的轨迹规划出来，并给出各关节的控制参数（比如力度、角度、速度等）。

一些先进的控制策略，旨在提高机器人的自主性和对环境的判断力。比如MPC（Model Predictive Control，模型预测控制），在每一个采样瞬间，求解未来一段时间内达到最佳状态的一序列动作，再回过头来确定当前动作。例如，观察到斜坡上有水，就放慢速度；预见后面要腾空，就加几个垫步过渡，使连接更流畅。

但在此之前，机器人得有一套尽可能全的动作库，和一张描述了它行动路线的地图。

你或多或少也听明白了，从“智能”程度上来说，“Atlas（来自波斯顿动力）们”还是一个编程好的机器人，与工厂里机械的单任务装配线工具无异。环境感知和运动控制算法的能力的提升，让它的“表演”看上去是自发性的，但还远称不上智能。

这就好像，你的性爱机器人只被“调教”过公主抱。有一天，你对它娇嗔：“举高高～”先不说它的“双手”会不会把你肋骨掐得生疼，最怕，它会把你一头塞进天花板。

原因是传统机器人的运动控制方法不具备泛化性。进入全新的、开放的环境中的前提是得建立环境准确的模型。

拆解目前市面上人形机器人的各部分，其实可以勉强做出对应真实人体的类比：

“身体”，机器人本体（构型，材料等）和负责各功能的硬件模块；

“小脑”，运动控制系统，向上承接大脑给出的任务指令，向下控制本体整机的运动；

以及“大脑”，负责推理、规划、决策，和环境感知和交流——以目前的技术成熟度来说，机器人的身子强于脑子，硬件本身领先于智能水平。

前戏，有戏

人类对于机器人“智能”的定义，十分模糊，各执一词。但又几乎都能矫情到一个点上，比如要求朝夕相处的机器人，在含情脉脉看向你时，得知道你是你，不能把你认成别人。如果认错了，就跟人类伴侣在睡梦醉酒中，梦呓着他人名字一样。

过去，机器人要知道你是你，得事先给它看人在各种样子、角度、光线下的照片，穿衣服的裸体的、长发的短发的、化妆的素颜的……

将大语言模型作为“大脑”，它能在过往训练数据中学习到共性，将知识迁移到一个全新问题上，做到闻一知二、举一反三。大模型在自然语言理解和逻辑推理能力的进步，正在改变机器人的人机交互和决策规划方式（也是机器人摆脱智障标签的关键）。

机器人听到“帮我从冰箱里拿一个苹果”的指令后，通常分四步：定义任务；做任务分解和动作拆分（来到冰箱前-开门-取苹果-关门-到你跟前-递给你苹果）；为每一步调取机器能读懂的符号式指令；执行。过去机器人靠自己只能完成最后一步，前面都由人类工程师设计，编程好。而现在机器人可以直接处理自然语言指令，如果指令复杂就自行按逻辑拆解成一序列步骤，按步解决。

测试者对正在做家务的Figure AI机器人说，“你能把它们收到那里吗？”一并指了指桌台上的收纳筐。它“秒懂”，还知道把洗好的杯子倒放，盘子立着叠——上下文模糊指代，说话抽象，这些人类的对话习惯，机器人也懂了。

还是某个深夜，你又孤枕难眠了，搬出伴侣后，你问它：“达令～你爱我吗？”它回复：“根据斯滕伯格的爱情三元理论，爱情由亲密、激情和承诺三种成分构成。论亲密，你经常跟我讲老板的八卦；说到激情，我们刚刚才体验到生理上的兴奋；而我愿意与你维持这样的关系下去。”

不对，性爱机器人不能是过于顺从的“电子舔狗”。

我们期待的灵魂（机器）伴侣，大概是这样的：你一句“我累了”，它或许只是坐到床边，静静陪伴你，并在必要时给你一个拥抱。

你对Figure AI机器人说“我饿了”，它会思考片刻后，拿一只苹果给你。不耐烦的人类伴侣要小心了，看来机器人真的准备好提供情绪价值了。

在机器甜心面前，不必伪装

除了决策，控制，交互，一个合格的“机器尤物”还要具备通用感知能力。感知也是实现上述这些的前提。

人类的感知天然是多模态的，五感会对应一个token存储在人脑中。不同感知方式互为补充，构成对现实世界尽可能全面的体验和理解。

力反馈对于人来说，是再普通不过的事。机械“关节”想握鸡蛋而不碎，需要非常精准的扭矩控制，其驱动系统的软硬件之间，要做大量配合和调试，这在过去更多靠内部感知（力矩、IMU等）。

如今很多“灵巧手”声称具备了环境感知能力和力控算法。特斯拉“擎天柱”Gen2就曾展示了“轻松拿捏鸡蛋”。有了这双手，机器人就能把控好力道，在安慰时轻轻抚摸，而不是给一个“大比兜”。

对于性爱机器人来说，触感是最必要的“模态”——压力的变化，强度和频率的变化，让机器人判断出对方是兴奋中还是兴奋过头了……

然而触感之外，还需要机器伴侣懂得你情绪的变化，床帏之间，或许是一些声音，或许是一些微表情。人最擅长心口不一，他们情感复杂又多变。即便正常人类能捕捉到的情绪，也不过是他人的“表面工夫”。

据说，今天的AI已经能“感受”到人的情绪了。

就像在GPT-4o（虽然一再跳票）的语音交互展示里，AI能听懂语气词，会说人话，对话有来有回，流畅自然，且有情感，延时控制在一个字之内。

在大模型涌现出人类情感模仿的能力之前，就有情感引擎（Emotion Engine）之类的技术，在试图解决机器人情感理解，共情回应问题。

声音、表情识别（声音、视觉模态）之外，如果辅以PSiFI（个性化皮肤集成面部接口）技术，能采集到说话者面部微小肌肉运动和声带振动，并加以分析其中蕴含的情感信息。诸如此类，更多模态和精细的传感器将被开发出来，让复杂的情感识别不成问题。

人类一句话中，含惊讶量、含悲伤量、含兴奋量等……各有多少，人工智能势必要搞清楚喜极而泣，和强颜欢笑，哪一种才是真正的快乐。

拥抱电子皮肤能分泌真实催产素么？

先是传统的充气或硅胶娃娃，然后是能摆姿势的性爱玩偶，最终期待是会嘘寒问暖的机械姬……

性爱机器人的命题若想成立，它们需要拥有可双足直立的躯干构型和拟人化的运动控制；转得快的大脑；会回应，甚至主动表达情绪；模拟真实的生理接触等等一些极为基本的类人的行为表达，和生理特征。

但是其中随便一点拿出来，都是技术还没攻克的难题。而且这是一个既技术栈复杂，又长链条的行业。

机器人维持身体平衡很难（所以才会不断有被踹不倒的鲁棒性测试），所以无法完成下蹲、弯腰等重心改变的动作。

如果你仔细回想，是不是总觉得机器人的走路姿势别扭？那是因为它们的腿都站不直。弯曲是为了提高运动可控性，让关节可达空间变大，补偿行走时重心有所浮动，让机器人有更好的缓冲能力。如果只是让机器人走得更快更稳，有其他很多替代方式。

大模型这个“通用的认知引擎“如何落到机器人的运动控制上，解决机器人的任务泛化和通用性难题，是接下来的重点。“擎天柱”们当前也只是在工厂里拣拣货，安安零件，相比之下，像整理好随手乱丢的衣服这些生活里的随机事件，是对通用机器人更难的命题。

脸是人类所拥有的带宽最高的通信工具。人类已经能让AI生成各式各样，听上去也自然的声音。关键是，声音得配合着面部表情来，做到准确、生动、无延迟。

有研究者试着用26个微小电动机，模拟肌肉在做表情时的状态。当机器人看到人类嘴角似乎上扬，眼睛似乎微微眯起，就判断人类是想微笑。通过这种模仿、预测、修正，以至未来能自发做出表情反应。

但现实是，拿到各大展会上进行展示的机器人在做完张嘴、眨眼、转动眼球等一些基本面部动作后，还不“死机”，就挺不容易了。

性爱机器人被认为是人形机器人的终极“圣杯”，而将性爱机器人做到“极致”，是机械工程与仿生学的结合。运用仿生学原理，通过模仿人类的身体结构和运动规律，为机器人创造类似“骨骼”“关节”“肌肉”和“皮肤”系统的机械结构。

有机器人试图在指腹处配置柔性触觉传感器，就是为了模仿人类皮肤的功能，靠它可以检测出触摸到的基础力度、温度、湿度、震动、材质、软硬等特性。

如果要将“电子皮肤”铺满全身，需要大约两平方米，一家供应商估计光是这些传感器成本就要超过三万人民币。

这样一看，一万美元的玩偶也不觉得贵了。好好待“它”，真机械姬到来之前，“它”还得陪你度过无数个漫漫长夜。

本文来自微信公众号：果壳（ID：Guokr42），作者：沈知涵，编辑：卧虫