AI · 2024-12-31

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

苹果要搞人形机器人这事儿现在传得沸沸扬扬。

最近他们确实有新动作 —— 开发了一套机器人感知系统!

系统名为 ARMOR,软硬件协同增强机器人的“空间意识”,能动态防碰撞的那种。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

硬件方面,ARMOR 通过在机器人手臂上安装小型智能深度传感器,为机器人提供几乎完整的环境视图,解决了传统机器人感知中的盲点和遮挡问题。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

软件方面,苹果开发了一个基于 Transformer 的 AI 驱动 ARMOR-Policy,能够从人类动作中学习,帮助机器人动态规划行动。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

团队还将 ARMOR 部署在了傅利叶 GR-1 机器人上进行实验。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

实验结果显示,与使用四个头戴式和外部安装的深度相机(外心感知)相比,ARMOR 系统使碰撞降低了 63.7%!

与基于采样的运动规划专家系统 cuRobo 相比,ARMOR-Policy 计算效率提升 26 倍,确保机器人能够迅速行动。

看到苹果在人形机器人方面的布局,网友直呼这是大势所趋:

他们不可能永远依赖智能手机赚钱。从长远来看,机器人市场将远大于智能手机市场。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

ARMOR 系统长啥样?

当前,传统人形机器人通常依赖头部或躯干安装的集中式相机和激光雷达进行环境感知,这种方式虽然易于集成且能提供较好的视野范围,但在手臂和手部区域常常存在严重的遮挡问题。

虽然一些研究尝试在机器人终端执行器上集成触觉传感,但这种方案成本高昂,且难以大规模应用于机器人手臂,同时在策略学习中如何有效利用触觉输入仍待解决。

ARMOR 系统,提供了一种硬件和软件整合设计,它由来自卡内基梅隆大学的学者 Daehwa Kim 在苹果实习期间与苹果团队共同开发。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

在硬件方面,与集中式 RGBD 相机一次性捕捉密集帧中的全部细节不同,团队选择了 SparkFun VL53L5CX 飞行时间(ToF)激光雷达作为基础传感单元,将稀疏感知分布在多个传感器上,形成“以自我为中心的感知”。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

这种传感器体积为 6.4×3.0×1.5mm,可以以 15Hz 的频率提供 8×8 分辨率的深度图像,对角视场为 63°,测距范围达 4000mm。

研究团队在机器人的每个手臂上布置了 20 个这样的传感器,共计 40 个传感器形成分布式感知网络。

每四个传感器连接到一个 XIAO ESP 微控制器,通过 I2C 总线进行数据读取,再通过 USB 传输到机器人的板载计算机(Jetson Xavier NX),最后无线传输到配备 NVIDIA GeForce RTX 4090 GPU 的 Linux 主机进行处理,确保整个系统能够维持 15Hz 的刷新率。

在软件方面,研究团队开发了基于 Transformer 编码器-解码器架构的 ARMOR-Policy,类似于动作分块 Transformer(ACT)。

该策略通过模仿学习从无碰撞的人类运动演示中学习。

为了训练这个策略,研究团队使用了 AMASS 数据集中的 311922 个人类真实运动序列(约 86.6 小时),这些数据包含了各种相关的人类姿态,如操作、舞蹈和社交行为等。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

团队将这些人类动作轨迹重定向到机器人的关节配置上,并在轨迹周围生成紧凑的障碍物,确保轨迹本身不发生碰撞。

训练数据的生成采用了三种策略:避障运动、紧急停止和无碰撞运动。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

ARMOR-Policy 的网络架构设计考虑到了运动规划可能存在多个有效解的特点。通过引入额外的编码器层来推断潜在变量 z,使策略能够通过调整 z 生成不同的运动轨迹候选。

在推理阶段,系统会并行计算 N 个候选轨迹,并通过最小化机器人与点云之间的距离来选择最优路径。网络输入包括潜在变量 z、当前和目标关节位置(28 维向量),以及 40 个 ToF 激光雷达传感器的深度图像数据。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

深度图像通过修改后的单通道 ResNet18 骨干网络处理,提取 512 维特征。整个网络架构包含约 84M 参数。

实验验证显示,ARMOR 系统在多个方面都优于现有方案。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

与使用四个头戴式和外部安装的深度相机(外部感知)的传统策略相比,ARMOR 系统在避障性能上取得了显著提升,碰撞降低 63.7%,成功率提升 78.7%。

同时,与基于采样的运动规划专家系统 cuRobo 相比,ARMOR-Policy 表现出更好的性能,碰撞减少 31.6%,成功率提高 16.9%,计算效率更是提升了 26 倍。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

研究团队还通过在傅利叶 GR-1 人形机器人上部署 28 个 ToF 激光雷达,实际验证了 ARMOR 系统在真实环境中的应用可行性,系统能够实现 15Hz 的实时避障轨迹更新。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

“苹果做机器人几乎是必然的”

最近,关于苹果发力人形机器人的爆料频出。

比如彭博社爆料,苹果正在寻找其“下一个重大项目”,机器人正是其关注的领域之一。苹果工程团队正在开发多种家庭机器人设备以及可能增强家庭机器人实用性的 AI 软件和功能。

而苹果机器人研发活动由硬件工程部门和 John Giannandrea 领导的 AI 与机器学习团队共同进行。

更有爆料指出,苹果将优先打造桌面机器人,它将作为“家庭指挥中心”,可用于 FaceTime 视频通话以及家庭安全监控。

这一系列举动也引发了网友大量讨论。

有网友分析,苹果在人形机器人赛道的布局,几乎是必然的:

苹果人形机器人?这不仅是可能的,几乎是必然的。凭借他们的设计理念和生态系统整合,他们将为个人机器人设定一个高标准。

随着智能手机的逐渐淘汰,机器人确实有可能成为下一个普遍存在的技术。想象一下,Siri 体现在一个时尚的人形助手中,这将是一个游戏规则的改变者!

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

这种分析立马遭到其他网友反驳,揭老底:

苹果之前也吵吵着要做自动驾驶汽车,但最后还是放弃了。虽然苹果有能力开发人形机器人,但会不会真做还是不太清楚。

苹果偏好主导市场,不喜欢面对激烈的竞争,而人形机器人和 AI 市场将极具竞争性。

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达 cuRobo 计算效率提升 26 倍

那么,你看好苹果做人形机器人吗?

论文链接:https://arxiv.org/pdf/2412.00396v1