>100 Views
June 26, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Sim-and-Real Co-Training: A Simple Recipe for VisionBased Robotic Manipulation Makoto Sato, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1
書誌情報 • タイトル Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation • 著者 Abhiram Maddukuri, Zhenyu Jiang, Lawrence Yunliang Chen, Soroush Nasiriany, Yuqi Xie, Yu Fang, Wenqi Huang, Zu Wang, Zhenjia Xu, Nikita Chernyadev, Scott Reed, Ken Goldberg, Ajay Mandlekar, Linxi Fan, Yuke Zhu • 所属 UT Austin, NVIDIA, UC Berkeley, New York University • 会議 RSS 2025 • リンク https://co-training.github.io/ 2
概要 • Sim-and-Real Co-Training Recipe – Task-AwareなSimデータ,Task-Agnosticな Simデータの2種類のデータとRealデータを活 用した方策学習のレシピを提供 – ロボットアーム,ヒューマノイドのVisionbasedマニピュレーションタスクにおいて, Simデータが平均38%性能向上に寄与すること を検証 大規模なシミュレーションのデータがあるなら 使おう! 3
背景 • ロボット基盤モデルのための大規模ロボットデータセット [1] – 実環境におけるロボットデータ収集はコストが高い – シミュレーションデータは自動収集可能で大規模化可能だがReality Gapが 含まれる – Data Pyramidの各層のデータの使い方や 全データの利用,様々な研究が提案 どう混ぜるか?どう使うか?に関する 検証が十分ではない 4
関連研究 • Demonstration Sythesis Using Human Demonstration [2, 3] – ユーザーが収集した少量のデータセットから大規模なシミュレーションデータ の合成 – Simデータを混ぜると性能が上がることを確認 5
本研究の貢献 1. Real-WorldのロボットデータとSimデータのCo-Trainingに関する体 系的な研究を確立し,実世界でのロボット操作にシミュレーション データを活用するシンプルな手法を提案 2. SimデータとのCo-Trainingが,実世界のタスクにおける方策学習を 促進し,性能を平均38%向上させることを実証 3. Simデータは実世界のデータと顕著な違いがあっても有効であり,多 様なSimデータが実世界の未見のシナリオへの汎化を促進することを 明らかにした 6
問題設定① • Co-Training on Real-World and Simulation Data 𝑀 – Realデータ𝒟real = 𝜉𝑖 𝑁 とSimデータ 𝒟 = 𝜉 sim 𝑖 𝑖=1 (𝑀 ≫ 𝑁 )を用いて方策𝜋𝜃 𝑖=1 を学習 – 以下のCo-Training目的関数を最小化 ℒtotal 𝜃; 𝒟real , 𝒟sim = 𝛼 ∙ ℒ 𝜃; 𝒟sim + (1 − 𝛼) ∙ ℒ 𝜃; 𝒟real – RGB画像とロボットの関節角などを入力としたDiffusion Policyを学習 7
問題設定② • データセットの変数: 𝒵 (1) , 𝒵 (2) , ⋯ 𝒵 (𝐾) – タスク構成:シミュレーションと実世界データに含まれるタスク,サブタスク, および動作の種類 – シーン構成:シミュレーションと実世界データにおけるシーンの数,および照 明条件,背景テクスチャなどの要素の範囲と多様性 – オブジェクト構成:シミュレーションと実世界データに含まれるオブジェクト カテゴリ,および各カテゴリのオブジェクト数 – 初期状態の分布:データセット内の各軌跡の初期状態における,ロボットの初 期姿勢とシーン内のオブジェクトの初期配置の分布 – カメラパラメータ:エージェントの学習に使用されるカメラの内部パラメータ と外部パラメータ – 物理パラメータ:摩擦,質量,慣性といった主要な物理パラメータやコント ローラーの種類とゲインなどのコントローラー変数 8
明らかにしたい問い 1. 既存の大規模なSimデータが,視覚的特徴やタスク,動作において実 世界との顕著な相違があるにもかかわらず,実世界の方策学習にそ のまま役立つのか 2. タスク設定の近いSimデータを用いてCo-Trainingを行う場合,Sim 環境と実世界環境を厳密に一致させることなく,どのデータ構成要 素を整合させることが最も重要であり,人間の労力を削減できるの か 9
Workflow • ①実環境のタスクセットアップ,②Digital Cousinの構築と3環境での データ収集,③Co-Trainingと検証 10
実験設定① • 実環境タスク(Panda KitchenとHumanoid Tabletop) – CounterToSinkPnP,CounterToCabPnP,CloseDoorでそれぞれ50データ – CupPnP,MilkPnP,Pouringでそれぞれ20データ 11
実験設定② • Task-Agnostic Priorデータ(Prior) – Panda Kitchen • RoboCasaの60kデータを使用 – Humanoid Tabletop • GR-1でキッチンの10 taskにおいてDexMimicGenを使用し,10kデータを使用 • Task-Aware Digital Cousinデータ(DC) – Panda Kitchen • ロボットの初期姿勢や使用する物体を実環境に合わせてデータを収集 • MimicGenを使用して,10kデータをそれぞれのタスクで収集 – Humanoid Tabletop • ロボットの初期姿勢やカメラの位置を実環境に合わせてデータを収集 • DexMimicGenを使用して,1kデータをそれぞれのタスクで収集 12
結果①:Effectiveness of Sim-and-Real Co-Training 1. Co-training with task-aware digital cousin data significantly enhances realworld performance beyond real-only policies. – Real + DCの2つのデータでRealのみの場合に比べて平均35.8%性能改善 2. Co-training with task-agnostic prior simulation data also improves realworld performance. – Real + Priorの2つのデータでRealのみの場合に比べて平均31.5%性能改善 ※ 論文中ではCloseDoorの性能低すぎでは?に関しても議論されている 13
結果②:Generalization Beyond Real Demonstrations 1. Co-training with simulation data enhances policy robustness to novel object entities. – Real + DCにより未知物体に対しての性能が50%,80%と両者ともに改善 2. Co-training with simulation data enhances policy robustness to novel object positions. – Real + DCにより未知の配置に対して性能が28%,100%と両者ともに改善 14
結果③:Effectiveness of Co-Training in Data-Rich Settings 1. Co-training with simulation and real data remains effective even when a large amount of real-robot data is already available. – 実世界のデータ数が増えた場合にも同様にCo-Trainingが機能する 15
Co-Trainingが機能する重要な要素 1. Simデータの量の確保 2. データの比率調整 3. 実世界データとのカメラの位置のキャリブレーション ※ What Matters in Learning from Large-Scale Datasets for Robot Manipulationでも同様な議論があった 16
Co-Trainingの簡単レシピ 1. タスク・シーンの構成 – Digital Cousin上で収集したデータを用いること 2. データの比率調整 – Simで扱う物体の種類を極力増やし,初期位置もランダマイズすること 3. SimとReal-Worldのアライメント – タスクの定義や成功判定を実世界と合わせ,カメラ視点を極力合わせる 4. Co-Trainingのハイパーパラメータ – 実世界データよりも数倍多いSimデータを用意し,混合比を調整すること 17
まとめ • 大規模なSimデータは,実環境データだけで学習した方策を上回る性 能向上と,未知シナリオへの汎化能力向上に寄与 • タスク定義やカメラ視点の大まかな整合を維持しつつ,合成データと 実データを組み合わせることで,Co-Trainingが最大の性能向上を実 現することを明らかにし,レシピを提供 • 今後は,より多様な操作タスクや複雑な環境,さらにはCosmosなど を用いた新しい合成データ生成技術を取り入れ,実世界の汎用性と性 能をさらに高める研究が必要? 18
参考文献 1. 2. 3. Johan Bjorck, Fernando Casta˜neda, Nikita Cherniadev, Xingye Da, Runyu Ding, Linxi Fan, Yu Fang, Dieter Fox, Fengyuan Hu, Spencer Huang, et al. Gr00t n1: An open foundation model for generalist humanoid robots. arXiv preprint arXiv:2503.14734, 2025. Soroush Nasiriany, Abhiram Maddukuri, Lance Zhang, Adeet Parikh, Aaron Lo, Abhishek Joshi, Ajay Mandlekar, and Yuke Zhu. Robocasa: Large-scale simulation of everyday tasks for generalist robots. In Robotics: Science and Systems, 2024. Jun Wang, Yuzhe Qin, Kaiming Kuang, Yigit Korkmaz, Akhilan Gurumoorthy, Hao Su, and Xiaolong Wang. Cyberdemo: Augmenting simulated human demonstration for real-world dexterous manipulation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 17952– 17963, 2024. 19
Appendix • 3種類(Real, DC, Prior)のデータの特性 20