用一枚普通 RGB 摄像头,让机器人看懂你的手 —
从感知、理解、行动到学习的完整具身智能科普演示。
传统机器人控制依赖昂贵的深度相机、动作捕捉设备或专用手柄。我们的答案是:让每个人电脑上都有的摄像头,成为机器人的"眼睛"。
一枚普通 USB 摄像头即可。无需深度传感器,无需标记点,无需校准设备,把门槛降到最低。
伸出手,像平时比划一样自然地控制机器人。21 个手部关键点实时追踪,把直觉变成指令。
所有动作先在 MuJoCo 物理仿真中验证,确认无误再考虑真机。零风险学习和实验。
一张摄像头画面如何变成机器人在三维空间中的运动?四步逐层翻译。
普通 RGB 摄像头以 30fps 捕捉手部画面,不做任何特殊处理。
MediaPipe 提取 21 个手部关键点坐标、掌心 3D 姿态和拇指-食指捏合比例。
手部位移→末端目标,腕部旋转→wrist_roll,捏合比例→夹爪开合度。
SO-101 机器人在 MuJoCo 物理引擎中响应指令,完成感知-行动闭环。
系统不只看"有没有手",而是精确提取手的结构 — 指尖在哪、掌心朝向、手指是否捏合。这些信息成为控制机器人的语言。
无需深度传感器。手完整入画即可,系统自动检测并开始追踪。
每帧定位指尖、指节和掌心。骨架叠加显示让追踪过程完全透明可见。
一键记录当前手势为"零点",后续动作使用相对偏移量,消除镜头位置造成的偏差。
位移、旋转和捏合数据映射为 SO-101 末端执行器的三维运动指令。
把人类连续的手部运动,拆解成机器人能够执行的五种基本动作类型。每一种都可单独演示、独立解释。
手部左右移动控制末端侧向运动,基座同步跟随。
手部高度变化映射为末端 Z 轴升降,肩膀和肘部联动。
手靠近/远离摄像头控制机械臂伸展与收回。
3D 掌面姿态估计驱动 SO-101 腕关节旋转。
拇指与食指捏合比例直接控制夹爪开合,直觉自然。
手势位移转换为机器人末端目标。三组视频同时展示手部输入与仿真输出,参数条随视频实时更新。
除了位置,机器人还需要方向与抓取。腕部旋转读取手掌 3D 朝向,夹爪开合跟踪拇指与食指的距离。
完整流程视频播放时,所有控制参数同步更新 — 基座侧向、末端伸展、高度、腕部、夹爪,每个维度都是真实遥测数据的回放。
左为摄像头输入(用户手势),右为 MuJoCo 仿真输出(SO-101 响应)。同一时刻,两个视角。
这个平台是一个低风险的具身智能科普工具。它把抽象的"机器人智能"拆成观众能看见、能理解、能复现的过程。
面向青少年和社会公众,用可视化方式解释"机器人如何从视觉输入产生动作"。适合科普场馆互动展项、大学课堂演示。
所有动作先在高保真物理仿真中验证 — 调方向、限速度、设软限位 — 确认无误再考虑真机迁移,零风险迭代。
低成本手势遥操作方案,拓展人机交互、模仿学习数据采集、灵巧操作等研究方向。轨迹数据可对接 LeRobot 训练管线。
用户通过普通相机完成手势示教,无需穿戴设备。
保存视频、关节目标、夹爪参数和完整遥测数据。
整理为 LeRobot Dataset,服务后续模仿学习研究。
先仿真验证策略,再考虑迁移到真实 SO-101 硬件。
从硬件层到应用层的完整管线。所有组件均为开源框架,可复现、可扩展。
USB RGB Camera
30fps 视频采集
MediaPipe Hands
21点 + 3D姿态
动作语义引擎
手势→位姿转换
MuJoCo Physics
逆运动学求解
作品名称
手映智控:面向具身智能科普的 SO-101 机器人感知-行动仿真实验平台
技术路线
RGB 手部感知 → 动作语义映射 → MuJoCo 仿真执行 → 轨迹数据记录
开源框架
LeRobot · MuJoCo · MediaPipe · PyTorch · Hugging Face
所属单位
[ 请填写学院 / 单位名称 ]
团队成员
[ 请填写团队成员姓名 ]
指导教师
[ 请填写指导教师姓名 ]
联系方式
[ 请填写联系邮箱 ]
本作品基于 LeRobot 开源框架构建,使用 MuJoCo 物理仿真引擎与 MediaPipe 手部感知模型。感谢开源社区的支持与贡献。