本文来自微信公众号:经济观察报观察家 (ID:eeoobserver),作者:陈永伟,题图来自:AI生成
本文来自微信公众号:经济观察报观察家 (ID:eeoobserver),作者:陈永伟,题图来自:AI生成
几天前,洛杉矶街头发生了一起车祸。一辆Waymo公司的Robotaxi无人出租车在经过一个十字路口时,突然遇到一位迎面驶来的“行人”。尽管Robotaxi紧急刹车,但由于惯性作用,仍以每小时4英里(约合6.4公里)的速度撞上了“行人”。
又一起无人车事故!然而,神奇的一幕发生了:被撞的“行人”与车辆僵持了几秒后,竟直接绕过Robotaxi,离开了事故现场。当这位“受害者”绕出镜头死角,再次完整地出现在人们面前时,大家惊讶地发现,这位“行人”根本不是人,而是一台正在配送外卖的机器人。原来,这不仅是一场无人车事故,更是一场无人车撞机器人事故。
虽然这场交通事故没有造成严重后果,但作为世界上首次肇事者和受害者都不是人的交通事故,它具有重要的标志性意义。
近几年,科技的发展和普及日新月异。在ChatGPT横空出世之前,若有人说AI不仅可以像真人一样无障碍交流,还能帮人写文章、画漫画、制作视频,甚至编程、解数学题,恐怕大多数人会觉得这是科幻小说或异想天开。而仅仅两年后,人们已经对类似的AI大模型习以为常,见怪不怪了。根据最新研究,在许多任务上,AI的能力已接近甚至超过了人类。
如今,人们已不再满足于让AI拥有“超级大脑”,更致力于为其赋予实体形态,“具身智能”(Embodied Inteligence)由此成为人工智能领域的一个热点方向。
那么,具身智能技术是如何发展的?它的兴起将带来哪些新的机遇和挑战?关于这一切,且让我们慢慢说来。
一、具身智能发展简史
灵魂与身体的关系在过去主要是哲学家的讨论话题。然而,随着人工智能的出现,这一哲学问题成为了科学问题。1956年的达特茅斯会议被认为是人工智能学科的起点。
在会上,学者们试图通过计算机模拟和理解人类智能。他们普遍认为,智能来源于大脑或计算系统的内部结构与机制,而认知和思维可以通过计算、推理和信息处理实现。这种观点契合笛卡尔的灵魂独立性理论,被称为“内在主义”。内在主义的核心流派是符号主义,主张智能可以通过形式化的符号系统来模拟,通过逻辑推理处理符号来完成复杂任务。
尽管内在主义在人工智能发展的初期占据主流,但也有另一批学者从不同的角度进行实践。他们关注机械如何像人一样感知和行动,理论基础源于控制论。他们试图创造依照物理法则运行的“身体”,这逐渐发展为机器人学。最初,内在主义与控制论是两条平行发展的研究领域。内在主义专注于“灵魂”,而控制论聚焦于“身体”。
然而,20世纪80年代,局势发生了变化。尽管符号主义在语言理解和专家系统等领域取得了一些突破,但其进展开始变得缓慢,许多学者对符号主义能否实现人工智能产生怀疑。而与此同时,机器人学的进展却非常显著。尤其是日本早稻田大学的研究团队为机器人安装摄像头和传感器,使其拥有视觉、听觉和触觉,并能够根据环境调整行为。原本只关注“身体”的研究者,开始让“身体”拥有“灵魂”的特质。
在这样的背景下,一些学者开始质疑笛卡尔的观点,转而支持亚里士多德的身心合一论。他们认为,智能应从灵魂与身体结合的角度研究。乔治·莱考夫、马克·约翰逊、洪贝尔托·梅图拉纳、弗朗西斯科·瓦雷拉、罗德尼·布鲁克斯和詹姆斯·吉布森等人主张从这一角度重新思考智能问题,“具身智能”由此诞生为一个正式研究领域。
在20世纪80年代,“具身智能”领域曾经风光一时。在这一时期,该领域涌现出了一批重要的理论成就。1980年,莱考夫和约翰逊发表了《我们赖以生存的隐喻》(Metaphors We LiveBy),提出了具身认知(Embodied Cognition)理论。这一理论强调,认知不仅依赖于大脑,还与身体的感觉和动作密切相关,从理论层面对内在主义提出了挑战。
在此基础上,吉布森提出了“生态学知觉”(Ecological Perception)理论。他认为,感知是个体直接从环境中提取信息的过程,而不是通过内部符号化或推理的间接过程,其本质是对环境的嵌入性。当人们感知到环境后,会根据“机会场”(Affordances)调整行为。例如,人们看到一张椅子,就会感知到可以坐的机会,然后再做出坐下的动作。机会场的感知是动态的,不同环境下,人们可能从同一事物中感受到不同的机会场,并做出不同的决策。根据吉布森的理论,行为并非仅由大脑思维驱动,而是一个由感知发动、与环境互动的复杂过程,身体的参与必不可少。
在实践领域,具身智能的最大成就是布鲁克斯的“行为型机器人”(Behavior-based Robotics)。与符号主义者预先设计符号规则系统以形成决策、控制机器的方式不同,行为型机器人不依赖内部符号推理,而是通过感知与运动的行为层次进行控制。布鲁克斯仅为这些机器人设置了一些简单规则,如“遇到障碍应绕行”,这些机器人便能通过与环境的互动完成许多复杂任务。相比当时停滞不前的内在主义,具身智能领域可谓风景独好,俨然有成为人工智能主流之势。
然而,具身智能的风光并未持续很久。这主要有两方面原因。一是当时的具身智能过于侧重感知等低级智能行为,而对思维等高级智能活动涉及较少,这对关注人类思维的人工智能专家来说难以接受。二是受限于当时的算力,行为型机器人难以进一步完成更复杂的任务。在这种情况下,一些机器人专家重新回归对算力需求较少的符号主义,而另一些专家则转向复杂推理、规划算法和建模技术,试图找到新的解决方案。在这一背景下,具身智能技术路线在20世纪90年代陷入低谷。
进入21世纪后,受多方面因素推动,具身智能重新成为关注焦点。首先,认知科学和神经科学的进步使人们逐步认识到身体与感知、行为之间确实存在着亚里士多德所说的那种密不可分的关系。尤其是贾科莫·里佐拉提对镜像神经元(mirror neurons)的研究表明,人们对他人活动的理解和认识实际上是通过身体反应实现的,这为具身智能理论提供了有力的经验证据。
其次,机器学习领域的突破为具身智能提供了许多新工具。深度学习(Deep Learning)的发展让机器人拥有了更强的“视觉”,可以更好地与环境互动;强化学习则显著提高了机器人的训练效率。
再次,计算能力和硬件技术的飞跃为具身智能的复兴提供了坚实基础。处理能力、存储能力和传感器技术的提升,使得实时感知、运动控制和反馈循环等任务变得更可行。
最后,大量的社会需求也推动了具身智能的发展。21世纪以来,人们对生产和生活自动化的要求不断提升,工业机器人和无人车等领域备受追捧,而这些领域对人工智能与硬件的结合有着极高的要求,从而进一步推动了具身智能的发展。在上述一系列因素的共同作用下,沉寂十多年的具身智能终于再次成为显学。
值得注意的是,这一轮具身智能的兴盛与20世纪80年代那一轮具身智能的风光有很大不同。当时,具身智能主要作为内在主义,尤其是符号主义的反对者而存在,两者之间是竞争关系。而这一轮,由于深度学习成为内在主义主流,同时又成为具身智能的重要基础,内在主义与具身智能之间的壁垒被打破,二者的关系从冲突转向合作。在实践层面,二者也实现了“双向奔赴”。人工智能公司在大模型领域取得突破后,迅速推进大模型的多模态化,让智能体学会“看”“听”“说”;机器人制造商在协调机械关节和躯体之后,也尝试将其接入GPT等大模型,使机器人拥有更智能的交互能力。在这种跨领域合作下,具身智能的发展前景前所未有的广阔。可以预见,不久的将来,具身智能体将越来越多地出现在我们的生活中。
二、具身智能带来的机遇
尽管生成式人工智能以及由其衍生的AI智能体已经在相当程度上改变了生产和生活的格局,但与具身智能可能带来的改变相比,这些仍然显得微不足道。目前的AI智能体虽然可以实现许多交互功能,但这些交互大多停留在非物理层面。因此,它们与人类的互动始终存在局限性,难以实现自然和直观的协作。例如,当GPT被用来辅导小孩做数学题时,用户需要先将题目扫描并上传,然后读取GPT生成的文字输出,而无法像老师一样手把手教导孩子。这种不自然的交互方式在很大程度上削弱了其能力。此外,许多任务,尤其是与体力相关的任务,仍然需要有形的身体来完成。即使GPT能够详细说明如何照料老人,我们也无法指望它承担养老职责。具身智能的兴起为解决这些问题带来了希望。
在智能制造领域,具身智能的价值主要体现在三个方面:
首先,具身智能可以大幅度提升自动化水平。虽然在现阶段,自动化流水线已经得到了广泛的应用,但它们主要依赖固定的程序和流程,只能执行固定任务,不能根据环境变化进行实时调整。以汽车装配为例,如果传输带上的零件出现了缺陷或者其型号与预定不符,那么自动化流水线将可能难以处理,甚至因此而发生事故。相比之下,具身智能作为一个自适应系统,则可以较好地处理类似的问题。当发现零件异常时,它们会主动把这些异常零件挑拣出来,以保证流水线的顺利进行。这样,整个流水线的故障率就可以大幅降低,其安全性将得到有效的提升。
其次,具身智能可以很好地支持“柔性化生产”(Flexible Manufactur-ing)。所谓“柔性化生产”,通俗来说,就是多品种、小批量的生产方式。随着消费者需求的多样化,市场对个性化产品的需求越来越强烈,这就对制造业企业的生产柔性化提出了更高的要求。对于这样的要求,只能执行固定任务的传统工业机器人将很难满足,相比之下,具身智能则可以根据需要,很快给出对应的解决方案。《纽约时报》记者约翰·马可夫曾对具身智能在“柔性化生产”领域中的应用前景做过很多讨论。根据他的描述,“具身智能将实现定制化生产的普及。届时,无论是个人化汽车,还是定制化手机,机器人都能根据客户需求灵活调节生产线。”
再次,具身智能将会实现更高效的人机合作。现在,虽然AI智能体已经可以对很多任务提供建议,但它们并不具有独立完成任务的能力。而具身智能则不一样,在拥有了“身体”之后,它们不仅仅是单独执行任务的机器,而是与工人协同工作,发挥各自的优势。很多专家都对具身智能在人机协同生产方面的潜力表达出了乐观。比如,日本著名机器人专家石黑浩就认为,未来工厂将成为人类与机器人密切协作的场所,机器人通过具身智能与人类工人一起完成生产任务,发挥团队协作的优势。他在一次TED讲座中讲道:“具身智能不仅仅是让机器人完成任务,它们还将与工人协作,形成团队优势,提高整体生产力。通过分工,机器人可以处理重复性高、危险性大的任务,而人类工人则专注于创造性和决策性较强的工作。这就能让生产的效率得到巨大的提升。”
在数字服务领域,具身智能也将带来颠覆性变化。服务行业曾被认为是AI智能体难以介入的领域,但这一状况正在改变。
养老和健康护理是具身智能的重要应用场景之一。随着出生率下降和人均寿命延长,全球老龄化问题日益严峻。照料老年人不仅需要专业技能,还对体力和精力提出了较高要求,雇佣专业人士的成本往往超出普通家庭的承受范围。在北京,雇佣一位全职保姆的工资约在6000元到10000元之间,还需提供食宿。由于成本限制,许多老人只能依赖子女的有限照顾。然而,子女因工作繁忙,能够陪伴父母的时间极为有限,这使得养老行业出现了巨大的需求缺口。具身智能可以在一定程度上缓解这一问题。
当前,许多机器人公司已经开发出专门的养老机器人,这些机器人能够提供全天候看护、健康监测、情感陪伴和紧急响应功能。通过联网,它们还能帮助医生实时监控患者的健康状况,并在医生指导下提供健康服务。这种技术能够分担部分养老责任,未来,随着技术的进一步发展,养老机器人将能承担更多重体力任务,成为养老队伍中的重要力量。
教育培训是另一个重要应用场景。知识和技能的传递需要师生间的互动,而非简单的数据输入输出。尽管AI智能体储备了海量知识,但其当前的交互模式限制了其在教育中的应用潜力。成年用户或许可以通过与ChatGPT对话自学知识,但对于儿童而言,坐在电脑前通过聊天学习的吸引力较低。元宇宙曾被寄予厚望,但由于虚拟现实技术的发展受限,交互性不足的问题始终未能得到有效解决。而具身智能的出现为这一领域带来了新希望。已有的教育机器人能够通过内置的大模型与学生互动,回答问题并引导学习进度。实践证明,学生对这类机器教师较为接受,互动性良好。随着技术的进一步改进,未来每个家庭可能都能为孩子配备一位机器人教师。
具身智能的潜在应用场景极其广泛,因此其经济潜力备受关注。麦肯锡估计,到2030年,全球约有4亿个岗位将采用自动化机器人,若人形机器人的渗透率达到20%,以单价15万元至20万元计,全球人形机器人市场规模可达12万亿元至16万亿元。而人形机器人仅是具身智能的一种形式,若考虑无人车、无人机及其他异形机器人的潜力,市场总值可能高达数十万亿元。
三、具身智能发展的挑战
随着具身智能概念的热度不断攀升,越来越多的创业者投身这一赛道,许多地方政府也竞相推出支持政策。这些趋势固然值得肯定。然而,作为技术的理性乐观派,我们在面对这项技术的火热发展时,必须正视其发展中存在的障碍及可能带来的问题。
一个显而易见的挑战是技术瓶颈问题。尽管经过数十年的发展,具身智能领域已积累了较为丰富的技术储备,尤其是在吸收深度学习和强化学习技术后,许多原本的技术难关得到了突破。然而,当前仍存在以下关键难点:
一是感知能力的提升尚有不足。尽管视觉、听觉和触觉传感器技术不断进步,要让机器人像人类一样准确感知复杂环境并识别动态目标和环境变化,仍是一个巨大的技术挑战。例如,机器人在处理复杂的交通场景或社交场景时,可能会出现误判或反应迟钝。
二是环境适应与学习能力的限制。目前,大多数具身智能系统只能在实验室或工厂车间等结构化环境中运行,而在开放、无序的环境中,机器人仍难以高效适应。在复杂任务的学习能力上,短板更为明显。
三是多模态协同的挑战。具身智能需要整合视觉、听觉等多种感知通道,并协同处理相关数据。虽然多模态技术得益于大模型的发展取得了一定进展,但要进一步整合空间和行为数据,仍面临算法优化和硬件支持的双重挑战。在这种情况下,要让具身智能真正走入家庭,承担养老、教育等急需的任务,恐怕还有很长的路要走。
需要注意的是,技术与需求之间可能存在“低均衡”问题。在现有技术条件下,具身智能最有潜力的应用场景难以实现,这使消费者对其需求不足,进而导致企业难以获得改进技术所需的数据支持。如果这一循环得不到突破,具身智能的发展可能陷入停滞。
另一个重要问题是数据隐私与安全问题。与当前AI智能体的“虚拟交流”不同,人们与具身智能的互动是面对面的。随着具身智能在日常生活中的普及,我们的行为数据将被智能体记录,其中可能包括许多敏感信息,如健康数据、位置信息和行为习惯。这对隐私保护提出了更高的要求。此外,具身智能的广泛应用也意味着其系统可能成为攻击目标。恶意软件或其他方式的攻击可能影响机器人的判断和行为,从而带来物理上的安全隐患。由于具身智能具有实体,其可能造成的伤害比现有AI智能体更为严重。如果这些问题不能妥善解决,具身智能的应用和推广将面临巨大的阻力。
从社会和伦理角度看,具身智能的普及还涉及一系列深层次的问题。具身智能的普及不仅仅是技术问题,还涉及社会和伦理层面。
一方面,具身智能可能对劳动力市场造成冲击。随着其应用范围的扩大,大量就业岗位可能因此流失,进而引发失业和收入分配不均等问题。另一方面,具身智能在决策时需要遵循特定的伦理规范。例如,在健康护理领域,机器人需要判断何时干预或不干预,而这些决策是否符合伦理标准,以及如何制定规则确保其行为符合社会道德,仍是重要的挑战。此外,随着具身智能逐步融入日常生活,人类与机器之间的关系也变得更加复杂。人类是否会对智能体产生依赖,甚至影响社会行为与情感,这些都是需要深入研究的问题。如果这些问题得不到有效回应,社会对具身智能的接受度将受到很大影响。
第四是法律与监管框架的不完善。目前,全球范围内针对具身智能的法律和监管仍处于探索阶段。例如,在无人车与机器人的交通事故中,如何归责?机器人对个人数据的使用应如何规范?这些问题尚无明确答案。这种法律上的空白为行业发展带来了不确定性。
各国目前都在加快对具身智能立法的研究,但如何在实践与规范之间取得平衡仍存在争议。法律是否应超前制定以应对潜在问题,还是“让子弹飞一会儿”,也有不同观点。如何在技术发展与规范之间找到微妙的平衡,仍需进一步探讨。
总而言之,尽管具身智能展现出了巨大的潜力,其发展仍面临诸多障碍。从技术瓶颈到隐私安全,从社会伦理到法律规制,要全面拥抱具身智能,仍需要更多的准备与努力。
(本文首发于《经济观察报·观察家》2025年1月13日第21版)
支持一下 修改