>100 Views
June 26, 25
スライド概要
DL輪読会資料
DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models Yongdong Wang Real World Robot Informatics Lab (Yamashita An Hamada Lab) i-Constructionシステム学寄付講座 1
書誌情報 • DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution for Construction Robotics Using Large Language ModelsART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models • DART-LLM: 大規模言語モデルを用いた建設ロボット向けの、依存関係を考慮したマルチロボットのタスク分割と実行 • Paper: https://arxiv.org/pdf/2411.09022 • Github: https://wyd0817.github.io/project-dart-llm/ • 著者: Yongdong Wang1,*, Runze Xiao1, Jun Younes Louhi Kasahara1, Ryosuke Yajima1, Keiji Nagatani1, 2, Atsushi Yamashita3, Hajime Asama4 ¹東京大学大学院工学系研究科, ²筑波大学システム情報工学研究科, ³東京大学大学院新領域創成科学研究科, ⁴東京大学東京カレッジ • 特に断りのない限り,図表等の出典は本論文からの引用 2
提案 • • 自然言語指示からマルチ建設ロボットシステム向けのタスク実行を行う LLM ベースのフレームワーク – モジュール構成 • QA LLM: 指示解析と依存関係を考慮したタスク分解 • Breakdown Function: タスク解析とロボット割当 • Actuation: タスク実行 • VLM-based Object Detector: 環境認識と物体マップ更新 フレームワークの特徴 –有向非循環グラフ(DAG)を活用した明示的な依存関係モデリング – エンドツーエンドのリアルタイム実行 – 小規模言語モデルでも高い成功率 • 評価 – – – • 3つのタスク複雑度レベル (L1, L2, L3) でテスト 既存手法 (SMART-LLM) と比較して大幅な成功率向 上 Llama3.1、GPT-4o、DeepSeek-r1 など複数のLLMで 性能評価 利点 – – – 明示的な依存関係モデリングによる性能向上 小型モデルでも高性能を実現可能 エンドツーエンドのリアルタイム実行フレームワーク 3
背景 自然災害の増加 災害救援 災害後の復興 建設機械で効率救援 Number of recorded natural disaster Japan infrastructure pushing 50 years old [2] events, 1900 to 2022 [1] 老朽化するインフラ・高齢化社会 インフラの老朽化 建設業界における高齢労働者の 増加と若年労働者の減少 大規模言語モデルで プラニング Trends in Ageing Population and Projection for the Future [3] ネットワーク接続の制限 屋外・地下で通信不安定や断絶のリスク リアルタイム制御に必須な低遅延・高信頼性 通信遅延やパケットロスで作業効率・安全性に影響 プライバシーとセキュリティ ローカル処理で漏洩リスクと法規制に対応 エッジデバイスにオフラインでも動作可能な大規模言語モデルを搭載し、建設現場の作業効率を向上させる手法 [1] https://ourworldindata.org/grapher/number-of-natural-disaster-events [2] https://asia.nikkei.com/Spotlight/Datawatch/Aging-infrastructure-a-major-roadblock-to-Japan-s-future [3] https://www.gov-online.go.jp/eng/publicity/book/hlj/html/202102/202102_09_en.html 4
背景 • 大規模言語モデル(LLM)の可能性 – – – • 従来のアプローチの限界 – – – • 自然言語指示から複雑なタスク計画の生成 推論能力と世界知識の活用 マルチモーダル情報の統合 マルチロボットシステムでのタスク依存関係の明示的な 表現が不足 パラメータ数が多いモデルを使わないと行けない • リモートでLLMを動く エンドツーエンドのリアルタイム実行をサポートしていない 関連研究の課題 – – Roco: 固定位置のロボットアームに特化 SMART-LLM: 依存関係の明示的処理がなく、Python コード生成に依存 依存関係を考慮したタスク分解と実行のための 新しいフレームワークDART-LLMを提案 5
提案と貢献 • 依存関係を考慮したタスク分解メカニズム – 有向非循環グラフ(DAG)を使用したサブタスク依存関係のモデル化 – 小規模モデルの推論能力を向上 – 適切なタスク実行順序の保証と効率の最大化 • エンドツーエンドリアルタイム実行フレームワーク – – – – QA LLMモジュール: 指示解析とタスク分解 Breakdown Functionモジュール: タスク解析とロボット割当 Actuationモジュール: タスク実行 VLMベースオブジェクト検出モジュール: 物体マップの更新 • 建設ロボット評価のためのベンチマークデータセット – 102の高レベル自然言語指示 – 3つの複雑度レベル(L1, L2, L3) – 厳密な実行順序制約を含む 6
手法 モジュール構成 QA LLM Module: 指示解析と依存関係を考慮したタスク分 Breakdown Function Module : タスク解析とロボット割当 Actuation Module : タスク実行 VLM-based Object Detector: 環境認識と物体マップ更新 7
問題定義 8
手法 9
手法 10
手法 11
手法 12
手法 13
実験セットアップ 評価環境 •建設ロボットシナリオにおける自然言語駆動タスク計画用ベンチマークデータセット •3つのタスクレベル: L1, L2, L3 •L1レベル:基本操作タスク、シンプルな単一または少数ステップのロボット操作、依存関係 が単純または無依存 •L2レベル:中程度の複雑さの協調タスク、複数ステップの順次実行が必要、線形の依存関 係を持つ •L3レベル:高複雑度の多段階タスク、複雑な依存ネットワークと並列/直列実行の組み合 わせを含む •データセット: 102の高レベル指示(L1: 47タスク、L2: 33タスク、L3: 22タスク) •シミュレーション環境: Unity + PhysXフィジックスエンジン •実機環境: ヤンマー製C30R履帯式輸送ロボット2台、日立建機製ZX120掘削機1台 評価指標 • SR (Success Rate): タスク完全成功率 • IPA (Instruction Parsing Accuracy): 指示解析精度 • DSR (Dependency Satisfaction Rate): 依存関係満足率 • SGSR (Semantic Grounding Success Rate): 意味的接地成功率 • RTR (Response Time Reliability): 応答時間信頼性 14
結果 • L1タスク: すべての実装がSR, IPA, DSR, SGSRで完璧なスコア(1.00)を達成 • RTRではDART-LLM with Llama3.1が最高スコア(0.96) • L2タスク: DART-LLM with Deepseek-r1が最高のSR(0.97)を達成 • すべてのDART-LLM実装が完璧なIPAスコアを維持 • SMART-LLMベースラインは性能が大幅に低下(SR: 0.36〜0.78) • L3タスク: DART-LLM with Deepseek-r1が最高のSR(0.94)を達成 • SMART-LLMベースラインの性能は大幅に低下(SR: 0.24〜0.65) • RTR: DART-LLM with Llama3.1が一貫して高いスコアを維持(0.96, 0.90, 0.86) • SMART-LLMベースラインは非常に低いRTRスコア(0.02〜0.24) 15
アブレーション実験結果 • • • • • • L3複雑度タスクで5つの異なるLLMを使用して実験 「依存関係あり」(DAGを使用)と「依存関係なし」(DAGを使用しない)の2条件を比較 すべてのモデルで「依存関係なし」条件で性能が低下 Llama3.1が最大の性能低下(0.84→0.45) GPT-4oとDeepseek-r1も顕著な低下(0.93→0.85、0.94→0.89) 小型モデルでの顕著な性能差は、DAGによる明示的な依存関係モデリングが推論能力を補 完できることを示唆
結果
結果
まとめ 大規模言語モデル(LLM)と有向非循環グラフ(DAG)を統合したマルチロ ボットシステム 明示的な依存関係モデリングによる複雑なタスクの効果的な処理 SMART-LLMベースラインを一貫してすべての評価指標で上回る性能 Deepseek-r1が最高の成功率を達成、Llama3.1が応答時間で優れた信頼 性を示す 19
まとめ 結論と貢献 • 建設分野のデータセットを作成 • 依存関係認識タスク分解メカニズム • エッジデバイスで実行できる • QA LLMをROSパイプラインに接続して、JSONコマンドをストリーミングすることで、 SMART-LLMのような独立したPythonスクリプトを生成するのではなく、また、依存関係 に基づいた明示的なDAGを使用して、脆弱なPythonのヒントを置き換える 20
まとめ 大変なところ • データセットの構築は大変(七千行近い) • 複数のレポジトリの開発するのは大変(六つのレポジトリ) • 実際のロボットに導入する時,Nav2をデバッグするのは大変 21
まとめ 今後の展望 • 実際の大きい建機でテスト • チームの規模を変更してテスト • 動的計画能力を追加 • 他の分野もテスト 22
参考文献 • Wang, Y., Xiao, R., Kasahara, J. Y. L., Yajima, R., Nagatani, K., Yamashita, A., & Asama, H. (2024). Dart-llm: Dependency-aware multi-robot task decomposition and execution using large language models. arXiv preprint arXiv:2411.09022. 23