ASAP/PBHC Whole-Body Control
Project Overview
This project integrates ASAP (Acceleration-level Specified-Acceleration Policies) with PBHC (Projected Hierarchical Control) to achieve robust whole-body motion on humanoids across manipulation and locomotion tasks. The stack focuses on operational-space control, task prioritization, and contact-consistent dynamics.
ASAP
核心技术:
- ✓ 两阶段框架:先在仿真环境中预训练,后用 delta action 模型对齐真实物理。
- ✓ 动作重定向:将 SMPL 人体模型动作映射到机器人动作空间。
- ✓ 非对称 Actor-Critic:训练用 privileged 信息,部署仅依赖自身感知。
训练策略:
- ✓ 参考状态初始化(RSI):提升探索效率、加速收敛。
- ✓ 终止条件课程:逐步收紧跟踪容差,提升策略稳定性。
- ✓ 分层奖励设计:任务奖励、正则化、惩罚项结构清晰,利于优化。
PBHC
核心技术:
- ✓ 多阶段动作处理管线:估计 → 过滤 → 接触掩码修正 → IK 重定向,确保稳定与物理合理性。
- ✓ 自适应跟踪因子:动态调整奖励容差,解决难以精确模仿的动作问题。
- ✓ 双层优化与在线反馈:结合 EMA 平滑,实现鲁棒训练与部署。
- ✓ 非对称 Actor-Critic + 奖励向量化:提升泛化能力与训练效率。
训练策略:
- ✓ 课程学习 + 域随机化:逐步增加难度,提升对扰动的鲁棒性。
- ✓ 参考状态初始化(RSI):提高采样效率、加快探索与收敛。
Continuous Front Kicks
Side Kick
Broadsword Form
Boxing