RGB 感知 → 手势语义 → MuJoCo 行动 → 轨迹记录 → LeRobot 学习

普通相机看见手
SO-101 在仿真中行动

面向具身智能科普,用一枚普通 RGB 摄像头展示机器人从感知、理解、行动到数据学习的完整闭环。 低成本、可解释、可演示,让观众直观感受具身智能的感知-行动过程。

对齐科技创新与科普表达

作品以软件系统形式呈现具身智能的核心过程:机器人不是只“看见”图像,而是把感知结果转化为身体动作,并把全过程可视化。

📷

低成本入口

一枚普通 USB 摄像头即可完成手部感知,不依赖深度传感器、标记点或穿戴设备,适合课堂、展台和个人电脑复现。

过程可解释

系统把手部平移、远近趋势、腕部旋转和捏合动作拆成可解释的动作语义,让观众能看懂“手势如何变成机器人动作”。

🛡️

安全仿真闭环

所有控制量先在 MuJoCo 三维环境中响应,通过限幅、平滑和逆运动学降低真实机械臂调试风险,形成安全的科普实验入口。

从普通相机进入具身感知

普通 RGB 摄像头捕捉手部画面,系统提取关键点、掌心、腕部姿态和捏合状态,将图像输入转化为机器人可执行的动作语义。

感知-行动转换链路

从图像输入到 SO-101 仿真行动,系统将每一步拆成可展示、可复盘的中间状态:

1
图像采集: 普通 RGB 摄像头捕捉手部画面。
2
关键点检测: 提取手部关键点、掌心位置和腕部姿态。
3
语义映射: 平移、近远、旋转、捏合转换为末端目标和夹爪指令。
4
仿真执行: 通过 IK、平滑和限幅驱动 SO-101 在 MuJoCo 中响应。

把手势翻译成机器人动作语义

把一个连续遥操作过程拆成五类可解释动作,页面上同时展示人类示教、控制量和机器人身体响应。

基础位移控制

手部的横向、纵向和深度移动分别映射到 SO-101 末端在三维空间中的目标位移。

水平平移 (X / Y轴)

上下移动 (Z轴高度)

深度控制 (前后伸展)

精细操作:腕部旋转与夹爪捏合

系统识别手掌三维朝向来控制腕部姿态,并用大拇指与食指距离比例控制夹爪开合,形成可解释的细粒度操作语义。

腕部旋转映射

夹爪捏合比例映射

同步比对:人类示教与仿真行动

科普教学与应用方向

这套系统首先是一个低风险的具身智能科普实验平台:把抽象的“机器人智能”拆成观众能看见、能操作、能复盘的过程。

🏫

科普教学

把感知、控制、仿真讲成可互动实验,让学生和公众直观理解具身智能的核心概念。

🔬

仿真验证

先在 MuJoCo 中调整方向、速度、工作空间和软限位,降低真实机械臂调试风险。

🤖

学习扩展

低成本手势遥操作方案,可拓展人机交互与机器人模仿学习研究,后续可整理为 LeRobotDataset 解释从示教到学习的路径。

从示教到模仿学习的扩展路径

1
示教: 普通相机完成手势遥操作,无需穿戴设备。
2
记录: 保存 camera / sim 双视频、控制量和 telemetry。
3
复盘: 对照目标位姿、关节跟随和夹爪状态解释动作结果。
4
学习: 整理为 LeRobotDataset,讲清从示教数据到模仿学习的路线。

具身智能四段链路

新展示把原有架构转成具身智能科普语言:机器人先感知环境,再解析动作语义,随后驱动身体行动,并把过程记录为可学习数据。

📷

感知

普通 RGB 摄像头采集手部画面并识别关键点。

🧠

理解

解析平移、近远趋势、腕部旋转和捏合动作语义。

⚙️

行动

通过 IK、平滑和限幅驱动 SO-101 在 MuJoCo 中响应。

🎯

反馈

展示目标位姿、关节跟随、夹爪状态和可视化 HUD。

📊

记录

输出 camera / sim 双视频和 telemetry,用于复盘。

🧪

学习扩展

整理为 LeRobotDataset,解释从示教到模仿学习的路径。

作品信息与团队致谢

作品档案

作品名称

手映智控:面向具身智能科普的 SO-101 机器人感知-行动仿真实验平台

核心技术路线

RGB 手部感知 → 动作语义映射 → MuJoCo 仿真执行 → 轨迹数据记录

开源技术依赖

LeRobot · MuJoCo · MediaPipe · PyTorch · Hugging Face

申报团队

所属单位

[ 请填写学院 / 单位名称 ]

团队成员

[ 请填写团队成员姓名 ]

指导教师

[ 请填写指导教师姓名 ]

联系方式

[ 请填写联系邮箱 ]