手映智控 — 面向具身智能科普的 SO-101 机器人感知-行动仿真实验平台

官方资料

基于 SO-101 与 LeRobot 的具身智能科普平台

SO-101 是 Hugging Face LeRobot 文档中的机械臂平台。我们的工作不是单纯展示网页，而是把官方机器人、开源机器人学习工具和可交互仿真组织成适合公众理解的“感知-行动”实验。

Hugging Face SO-101 文档 官方文档把 SO-101 作为可组装、可校准、可接入 LeRobot 的机械臂平台。 TheRobotStudio SO-ARM100 / SO-101 SO-101 是 SO-100 的下一代机械臂，面向开源硬件、低成本组装和 LeRobot 软件生态。 LeRobot 官方资源 LeRobot 提供机器人学习模型、数据集、仿真环境和 PyTorch 工具链，适合讲解从示教到学习的路径。

科普重点：让观众看到“机器人智能”不是只在屏幕里识别图像，而是要把感知结果转换成身体动作，再通过反馈和数据记录形成可学习闭环。

为什么

为什么用普通相机就能控制机器人？

传统机器人控制依赖昂贵的深度相机、动作捕捉设备或专用手柄。我们的答案是：让每个人电脑上都有的摄像头，成为机器人的"眼睛"。

📷

零额外硬件

一枚普通 USB 摄像头即可。无需深度传感器，无需标记点，无需校准设备，把门槛降到最低。

✋

自然手势交互

伸出手，像平时比划一样自然地控制机器人。21 个手部关键点实时追踪，把直觉变成指令。

🛡️

仿真先行，安全可控

所有动作先在 MuJoCo 物理仿真中验证，确认无误再考虑真机。零风险学习和实验。

核心原理

从像素到动作：四步管线

一张摄像头画面如何变成机器人在三维空间中的运动？四步逐层翻译。

📷

1. 图像采集

普通 RGB 摄像头以 30fps 捕捉手部画面，不做任何特殊处理。

🫱

2. 关键点检测

MediaPipe 提取 21 个手部关键点坐标、掌心 3D 姿态和拇指-食指捏合比例。

⚙️

3. 语义映射

手部位移→末端目标，腕部旋转→wrist_roll，捏合比例→夹爪开合度。

🤖

4. 仿真执行

SO-101 机器人在 MuJoCo 物理引擎中响应指令，完成感知-行动闭环。

RGB 感知

看见手，理解手

系统不只看"有没有手"，而是精确提取手的结构 — 指尖在哪、掌心朝向、手指是否捏合。这些信息成为控制机器人的语言。

摄像头画面实时手部输入

01

普通摄像头输入

无需深度传感器。手完整入画即可，系统自动检测并开始追踪。

02

21 个关键点 + 骨架

每帧定位指尖、指节和掌心。骨架叠加显示让追踪过程完全透明可见。

03

建立中位基准

一键记录当前手势为"零点"，后续动作使用相对偏移量，消除镜头位置造成的偏差。

04

驱动仿真机器人

位移、旋转和捏合数据映射为 SO-101 末端执行器的三维运动指令。

动作语义

五类手势 → 五类机器人动作

把人类连续的手部运动，拆解成机器人能够执行的五种基本动作类型。每一种都可单独演示、独立解释。

⇄ 水平平移

手部左右移动控制末端侧向运动，基座同步跟随。

↕ 上下移动

手部高度变化映射为末端 Z 轴升降，肩膀和肘部联动。

↔ 近远趋势

手靠近/远离摄像头控制机械臂伸展与收回。

⟳ 腕部旋转

3D 掌面姿态估计驱动 SO-101 腕关节旋转。

⌁ 夹爪捏合

拇指与食指捏合比例直接控制夹爪开合，直觉自然。

位移控制演示

三类位移同步演示

手势位移转换为机器人末端目标。三组视频同时展示手部输入与仿真输出，参数条随视频实时更新。

Near / Far等待播放

Base Side等待播放

Z Height等待播放

Shoulder / Elbow等待播放

Reach X等待播放

Arm Extension等待播放

腕部与夹爪

精细控制：旋转与捏合

除了位置，机器人还需要方向与抓取。腕部旋转读取手掌 3D 朝向，夹爪开合跟踪拇指与食指的距离。

腕部旋转演示3D Palm Roll

Wrist Roll等待播放

Pinch Ratio等待播放

旋腕张开捏合

夹爪捏合演示Pinch → Gripper

人类示教采集

从真实主臂到示教数据

操作者直接移动 SO-101 主臂，系统读取六个舵机关节角并实时映射到 MuJoCo 仿真从臂。多组示教样本展示了动作采集、轨迹复现和数据沉淀的完整链路。

人类示教样本 01Leader → MuJoCo

01

读取主臂

脚本直接读取 SO-101 主臂六个舵机的当前角度，保留真实人类示教的运动节奏。

02

映射仿真

主臂关节角被转换为 MuJoCo 控制目标，驱动修正碰撞模型后的仿真从臂同步运动。

03

沉淀样本

每组示教都可保存视频、控制量和关节状态，进一步整理为 LeRobotDataset。

人类示教样本 02Trajectory sample

人类示教样本 03Trajectory sample

LeRobot 训练后策略复现Place cube to right side

04

训练后效果

三组 SO-101 主臂示教被整理为 LeRobot 具身智能训练样本，策略学习到“靠近、夹取、右移、放置”的动作链。

05

任务复刻

仿真复现把原本位于机械臂前方的红色方块移动到机械臂右侧地面，展示示教数据到策略执行的完整闭环。

注

阶段性效果

目前训练样本量较小，策略复现效果还不够稳定。后续会继续补充示教数据，优化训练流程和评估指标。

遥测仪表

完整动作参数实时跟随

完整流程视频播放时，所有控制参数同步更新 — 基座侧向、末端伸展、高度、腕部、夹爪，每个维度都是真实遥测数据的回放。

Base Sideidle

Reach Xidle

Height Zidle

Wristlocked

Gripperidle

Timeline0%

同步回放

手 vs 机器人：同步对比

左为摄像头输入（用户手势），右为 MuJoCo 仿真输出（SO-101 响应）。同一时刻，两个视角。

📷 摄像头输入用户手势示教

🤖 SO-101 仿真MuJoCo 物理仿真

两条视频将同时从起点以 1.5 倍速开始播放

应用场景

不止是演示 —科普·教学·研究

这个平台是一个低风险的具身智能科普工具。它把抽象的"机器人智能"拆成观众能看见、能理解、能复现的过程。

🏫

课堂教学

面向青少年和社会公众，用可视化方式解释"机器人如何从视觉输入产生动作"。适合科普场馆互动展项、大学课堂演示。

🔬

安全验证

所有动作先在高保真物理仿真中验证 — 调方向、限速度、设软限位 — 确认无误再考虑真机迁移，零风险迭代。

🤖

遥操作研究

低成本手势遥操作方案，拓展人机交互、模仿学习数据采集、灵巧操作等研究方向。轨迹数据可对接 LeRobot 训练管线。

1

示教

用户通过普通相机完成手势示教，无需穿戴设备。

2

记录

保存视频、关节目标、夹爪参数和完整遥测数据。

3

训练

整理为 LeRobot Dataset，服务后续模仿学习研究。

4

迁移

先仿真验证策略，再考虑迁移到真实 SO-101 硬件。

技术栈

系统技术架构

从硬件层到应用层的完整管线。所有组件均为开源框架，可复现、可扩展。

📷

相机层

USB RGB Camera
30fps 视频采集

🧠

感知层

MediaPipe Hands
21点 + 3D姿态

⚙️

映射层

动作语义引擎
手势→位姿转换

🎯

仿真层

MuJoCo Physics
逆运动学求解

OpenCVMediaPipeNumPyMuJoCoPyTorchLeRobotHugging FaceFastAPI

作品信息

作品信息与致谢

▸ 作品信息

作品名称
手映智控：面向具身智能科普的 SO-101 机器人感知-行动仿真实验平台

技术路线
RGB 手部感知 → 动作语义映射 → MuJoCo 仿真执行 → 轨迹数据记录

开源框架
LeRobot · MuJoCo · MediaPipe · PyTorch · Hugging Face

本作品基于 LeRobot 开源框架构建，使用 MuJoCo 物理仿真引擎与 MediaPipe 手部感知模型。感谢开源社区的支持与贡献。