具身智能科普展

手映智控

用一枚普通 RGB 摄像头,让机器人看懂你的手 —
从感知、理解、行动到学习的完整具身智能科普演示。

向下滚动,开始探索
为什么

为什么用普通相机就能控制机器人?

传统机器人控制依赖昂贵的深度相机、动作捕捉设备或专用手柄。我们的答案是:让每个人电脑上都有的摄像头,成为机器人的"眼睛"。

📷

零额外硬件

一枚普通 USB 摄像头即可。无需深度传感器,无需标记点,无需校准设备,把门槛降到最低。

自然手势交互

伸出手,像平时比划一样自然地控制机器人。21 个手部关键点实时追踪,把直觉变成指令。

🛡️

仿真先行,安全可控

所有动作先在 MuJoCo 物理仿真中验证,确认无误再考虑真机。零风险学习和实验。

核心原理

从像素到动作:四步管线

一张摄像头画面如何变成机器人在三维空间中的运动?四步逐层翻译。

📷

1. 图像采集

普通 RGB 摄像头以 30fps 捕捉手部画面,不做任何特殊处理。

🫱

2. 关键点检测

MediaPipe 提取 21 个手部关键点坐标、掌心 3D 姿态和拇指-食指捏合比例。

⚙️

3. 语义映射

手部位移→末端目标,腕部旋转→wrist_roll,捏合比例→夹爪开合度。

🤖

4. 仿真执行

SO-101 机器人在 MuJoCo 物理引擎中响应指令,完成感知-行动闭环。

RGB 感知

看见手,理解

系统不只看"有没有手",而是精确提取手的结构 — 指尖在哪、掌心朝向、手指是否捏合。这些信息成为控制机器人的语言。

摄像头画面实时手部输入
01

普通摄像头输入

无需深度传感器。手完整入画即可,系统自动检测并开始追踪。

02

21 个关键点 + 骨架

每帧定位指尖、指节和掌心。骨架叠加显示让追踪过程完全透明可见。

03

建立中位基准

一键记录当前手势为"零点",后续动作使用相对偏移量,消除镜头位置造成的偏差。

04

驱动仿真机器人

位移、旋转和捏合数据映射为 SO-101 末端执行器的三维运动指令。

动作语义

五类手势 → 五类机器人动作

把人类连续的手部运动,拆解成机器人能够执行的五种基本动作类型。每一种都可单独演示、独立解释。

⇄ 水平平移

手部左右移动控制末端侧向运动,基座同步跟随。

↕ 上下移动

手部高度变化映射为末端 Z 轴升降,肩膀和肘部联动。

↔ 近远趋势

手靠近/远离摄像头控制机械臂伸展与收回。

⟳ 腕部旋转

3D 掌面姿态估计驱动 SO-101 腕关节旋转。

⌁ 夹爪捏合

拇指与食指捏合比例直接控制夹爪开合,直觉自然。

位移控制演示

三类位移同步演示

手势位移转换为机器人末端目标。三组视频同时展示手部输入与仿真输出,参数条随视频实时更新。

Near / Far等待播放
Base Side等待播放
Z Height等待播放
Shoulder / Elbow等待播放
Reach X等待播放
Arm Extension等待播放
腕部与夹爪

精细控制:旋转捏合

除了位置,机器人还需要方向与抓取。腕部旋转读取手掌 3D 朝向,夹爪开合跟踪拇指与食指的距离。

腕部旋转演示3D Palm Roll
Wrist Roll等待播放
Pinch Ratio等待播放
旋腕 张开 捏合
夹爪捏合演示Pinch → Gripper
遥测仪表

完整动作参数实时跟随

完整流程视频播放时,所有控制参数同步更新 — 基座侧向、末端伸展、高度、腕部、夹爪,每个维度都是真实遥测数据的回放。

Base Sideidle
Reach Xidle
Height Zidle
Wristlocked
Gripperidle
Timeline0%
同步回放

手 vs 机器人:同步对比

左为摄像头输入(用户手势),右为 MuJoCo 仿真输出(SO-101 响应)。同一时刻,两个视角。

📷 摄像头输入用户手势示教
🤖 SO-101 仿真MuJoCo 物理仿真
两条视频将同时从起点以 1.5 倍速开始播放
应用场景

不止是演示 —科普·教学·研究

这个平台是一个低风险的具身智能科普工具。它把抽象的"机器人智能"拆成观众能看见、能理解、能复现的过程。

🏫

课堂教学

面向青少年和社会公众,用可视化方式解释"机器人如何从视觉输入产生动作"。适合科普场馆互动展项、大学课堂演示。

🔬

安全验证

所有动作先在高保真物理仿真中验证 — 调方向、限速度、设软限位 — 确认无误再考虑真机迁移,零风险迭代。

🤖

遥操作研究

低成本手势遥操作方案,拓展人机交互、模仿学习数据采集、灵巧操作等研究方向。轨迹数据可对接 LeRobot 训练管线。

1

示教

用户通过普通相机完成手势示教,无需穿戴设备。

2

记录

保存视频、关节目标、夹爪参数和完整遥测数据。

3

训练

整理为 LeRobot Dataset,服务后续模仿学习研究。

4

迁移

先仿真验证策略,再考虑迁移到真实 SO-101 硬件。

技术栈

系统技术架构

从硬件层到应用层的完整管线。所有组件均为开源框架,可复现、可扩展。

📷

相机层

USB RGB Camera
30fps 视频采集

🧠

感知层

MediaPipe Hands
21点 + 3D姿态

⚙️

映射层

动作语义引擎
手势→位姿转换

🎯

仿真层

MuJoCo Physics
逆运动学求解

OpenCVMediaPipeNumPyMuJoCoPyTorchLeRobotHugging FaceFastAPI
作品信息

团队与致谢

▸ 作品信息

作品名称
手映智控:面向具身智能科普的 SO-101 机器人感知-行动仿真实验平台

技术路线
RGB 手部感知 → 动作语义映射 → MuJoCo 仿真执行 → 轨迹数据记录

开源框架
LeRobot · MuJoCo · MediaPipe · PyTorch · Hugging Face

▸ 团队信息

所属单位
[ 请填写学院 / 单位名称 ]

团队成员
[ 请填写团队成员姓名 ]

指导教师
[ 请填写指导教师姓名 ]

联系方式
[ 请填写联系邮箱 ]

本作品基于 LeRobot 开源框架构建,使用 MuJoCo 物理仿真引擎与 MediaPipe 手部感知模型。感谢开源社区的支持与贡献。

手映智控 · Shouying Zhikong · 面向具身智能科普