1 1 2 2 3 3 4 4 5 5 文集 深度 号外 热文 时间线
谷歌Gemini Robotics,想做人形机器人的安卓系统?
2025-03-14 09:00

谷歌Gemini Robotics,想做人形机器人的安卓系统?

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,原文标题:《谷歌Gemini Robotics,物理智能觊觎人形机器人安卓系统》,题图来自:AI生成

文章摘要
谷歌探索人形机器人的通用物理智能系统。

• 🤖 谷歌推出Gemini Robotics模型,着眼于机器人具身智能。

• 🛠️ 机器人可动态生成代码,提升零样本任务应对能力。

• 🌐 模型适应多种机器人,并开放给多家企业使用。

大模型正从语言、视觉向行动延伸。人形机器人还会现场写代码,出手解决问题。


谷歌DeepMind发布了两款新的具身智能模型,Gemini Robotics-ER与Gemini Robotics,正式宣告对物理智能的探索,从以往的RT模型系列,切换到了Gemini模型系列。用该公司高级研究科学家Ted Xiao的话说,这是前沿大模型与机器人的第一次接触。


无论是OpenAI、Anthropic,还是Meta,还都没有做到这一步。即使马斯克如此喜欢夸下海口,也还没让特斯拉的擎天柱用上xAI最新的Grok3。国内的DeepSeek或者Qwen,都没有直接让前沿开源大模型端到端地驱动人形机器人的记录。


遇到麻烦自己写代码


谷歌DeepMind先训练出具身推理模型Gemini Robotics-ER,基于Gemini 2.0 Flash模型,将多模态模型的语义理解能力扩展至物理几何(3D结构、物体位姿)、动态场景(运动轨迹、接触效应)等等,让身处复杂而动态的现实世界的具身智能,强化了推理能力。从中蒸馏出物理智能,就是Gemini Robotics,它能对现实世界做出反应。


比如,如果一个机器人遇到一个咖啡杯,Gemini Robotics可以识别出来,“指向”可以与自己互动的部分(比如把手),并识别出在拿起它时需要避开的物体。


机器人还会自己写代码去解决遇到的新问题(Zero-Shot Via Code Generation),就是个活生生的智能体。具体来说,就是模型接收输入,包括系统提示、机器人API的描述、任务指令以及环境的实时图像,然后基于这些输入,模型分析场景,理解任务需求,并生成与机器人API交互的代码。


这一过程是动态的,模型会根据环境变化与接触后的反馈,来调整代码,确保任务顺利完成


(概览图:感知和控制API,以及在任务执行过程中对智能体的协调和管理。该系统用于零样本控制。)


不过,这项技术还处于早期阶段,面对折叠衣服这样的精细任务,谷歌发现,还是通过少量人类示范的上下文学习(Few-shot in-context learning),成功率要更高一点。


或许这就是从RT系列模型转向Gemini系列模型的意义之一。以后,可能谁家的基础模型编码能力更强,谁家的机器人就是更灵巧的智能体。


但是,完成所有这些现场智能体推理和动作,需要强大的本地算力,目前仍然是个大问题。Gemini Robotics的视觉语言动作模型主干(VLA Backbone)就放到了云端,其物理世界的理解能力适用于不同形态的机器人,可以通过日常对话与人类亲切交互。


Gemini Robotics还有一个动作解码器,负责将VLA主干的输出转化为低级控制信号,部署于本地,可以完成精细动作。


人形机器人的安卓


谷歌把Gemini Robotics用于自己投资的Apptronik人形机器人开发,还开放给受信任的机器人企业使用,包括德国的Agile Robots,法国的Enchanted Tools,美国的Agility Robotics,以及被韩国现代收购的Boston Dynamics。


看起来,谷歌想做出一个人形机器人的安卓系统,初步实现了适配不同机器人。


巨头们毫不怀疑,未来,人形机器人的数量将比智能手机还多。它正在走向通用化,关键就在于通用的物理智能。谷歌、特斯拉、Meta与OpenAI等巨头,对此充满野心。


特斯拉的擎天柱是垂直自研的方式。Meta已经展露出类似的企图。而OpenAI在自己投资的Physical Intelligence与FigureAI纷纷垂直自研后,亲自下场的可能性同样大增。


上个月,Meta旗下的Reality Labs新设立了人形机器人部门。Reality Labs最为知名的就是它的元宇宙、可穿戴设备Quest,以及AI眼镜,累计亏损超600亿美元。Meta首席技术官Andrew Bosworth说,公司砸钱搞出来的核心技术,可用于开发机器人,通过Llama覆盖消费者。


去年底,OpenAI在公司内部重启了人形机器人团队,并从Meta处挖来了Orion眼镜负责人,今年已经公开开始招兵买马,点名要那些精通传感器与系统集成的硬件工程师,“专注于解锁通用机器人技术,并在动态的现实环境中推动AGI级智能”。


让前沿模型与机器人接触,可以让机器人从多模态环境的经验中汲取智能,也可以在不断尝试中摸索数字世界的智能如何触及物理世界。谷歌CEO桑达尔·皮查伊(Sundar Pichai)介绍新发布的两个模型时称,机器人技术是将人工智能的进步转化为现实世界的有益试验场。


难以做题评估


谷歌承认,Gemini Robotics对具身智能的探索,仍然处于非常早期的阶段。谷歌在官方介绍中,放出了制作精美的视频。但随后,团队成员通过自己的X账号,放出了几段未经删节的视频。


如何评估具身智能模型实际水平,是该团队在发布Gemini Robotics前,一直思考的问题。在去年底的一次演讲中,团队提出三大瓶颈:机器人扩展定律,机器人上下文带宽,以及可扩展的评估体系。这是具身智能当前的短板,还将影响未来几年的研究方向。其中,评估体系的发展程度最低。



机器人扩展定律的核心,听起来与大模型扩展定律类似,数据越多,规模越大,理应效果越好。但是,谷歌DeepMind团队发现,在机器人领域,目前它并不每次都成立。


面对物理世界,扩展定律更像一门艺术,而不是科学(尽管本来也并非真正的物理定律)机器人数据的质量、分布、多样性和覆盖范围,比数据数量本身更重要,研究者需要找到机器人扩展定律的那条曲线,预测投入和产出的关系。在机器人领域,扩展往往意味着比大型语言模型更高的成本,尤其是后者的边际效应已经开始降低。


还有“上下文带宽”问题,这是指机器人能接收和理解的动作指令的信息量。多模态或世界模型存在丰富细节与物理维度,作为大模型,已经拥有越来越大的上下文窗口,但是机器人动作相关的低层次指令往往相对简单,接受的token数量相对较少、模态丰富程度较低。如何在这种低带宽的输入方式下执行更精细的动作,或拓展其上下文窗口,是具身智能亟待解决的瓶颈之一。


最大的问题是验证。这次,谷歌DeepMind团队提出了ERQA基准,即包含400道多选的视觉问答(VQA)风格问题,涵盖包括空间推理、轨迹推理、动作推理、状态估计、指向、多视角推理和任务推理。语言模型可以用考试题测试,但机器人还得在真实世界里跑来跑去,才能试出它的真实性能;受限环境下的真机测试,在开放环境下不一定管用。


状况会在机器人越来越通用后变得更为复杂,因为评估它们的能力的难度与成本也随之暴涨。很多测试费时费力,还不够全面,难以覆盖极端案例。如果评估系统跟不上,机器人再聪明,也没法证明自己行不行。


一种方法是改进模拟环境,让它更接近现实,甚至期待用“世界模型”去代替部分实测。但是,这意味着后者可能必须学会建模出比机器人基础模型更多的信息。


我们周围会充斥着大量精心编辑的书面测评与视频演示,但现实世界的表现,仍将是具身智能领域的黄金标准。


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定