【DL輪読会】DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models

1K Views

June 26, 25

#マルチロボット #タスク分解 #LLM #建設ロボット #依存関係

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 45.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.6K

各ページのテキスト

DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models Yongdong Wang Real World Robot Informatics Lab (Yamashita An Hamada Lab) i-Constructionシステム学寄付講座 1

書誌情報 • DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution for Construction Robotics Using Large Language ModelsART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models • DART-LLM: 大規模言語モデルを用いた建設ロボット向けの、依存関係を考慮したマルチロボットのタスク分割と実行 • Paper: https://arxiv.org/pdf/2411.09022 • Github: https://wyd0817.github.io/project-dart-llm/ • 著者： Yongdong Wang1,*, Runze Xiao1, Jun Younes Louhi Kasahara1, Ryosuke Yajima1, Keiji Nagatani1, 2, Atsushi Yamashita3, Hajime Asama4 ¹東京大学大学院工学系研究科, ²筑波大学システム情報工学研究科, ³東京大学大学院新領域創成科学研究科, ⁴東京大学東京カレッジ • 特に断りのない限り，図表等の出典は本論文からの引用 2

提案 • • 自然言語指示からマルチ建設ロボットシステム向けのタスク実行を行う LLM ベースのフレームワーク – モジュール構成 • QA LLM: 指示解析と依存関係を考慮したタスク分解 • Breakdown Function: タスク解析とロボット割当 • Actuation: タスク実行 • VLM-based Object Detector: 環境認識と物体マップ更新フレームワークの特徴 –有向非循環グラフ（DAG）を活用した明示的な依存関係モデリング – エンドツーエンドのリアルタイム実行 – 小規模言語モデルでも高い成功率 • 評価 – – – • 3つのタスク複雑度レベル (L1, L2, L3) でテスト既存手法 (SMART-LLM) と比較して大幅な成功率向上 Llama3.1、GPT-4o、DeepSeek-r1 など複数のLLMで性能評価利点 – – – 明示的な依存関係モデリングによる性能向上小型モデルでも高性能を実現可能エンドツーエンドのリアルタイム実行フレームワーク 3

背景自然災害の増加災害救援災害後の復興建設機械で効率救援 Number of recorded natural disaster Japan infrastructure pushing 50 years old [2] events, 1900 to 2022 [1] 老朽化するインフラ・高齢化社会インフラの老朽化建設業界における高齢労働者の増加と若年労働者の減少大規模言語モデルでプラニング Trends in Ageing Population and Projection for the Future [3] ネットワーク接続の制限屋外・地下で通信不安定や断絶のリスクリアルタイム制御に必須な低遅延・高信頼性通信遅延やパケットロスで作業効率・安全性に影響プライバシーとセキュリティローカル処理で漏洩リスクと法規制に対応エッジデバイスにオフラインでも動作可能な大規模言語モデルを搭載し、建設現場の作業効率を向上させる手法 [1] https://ourworldindata.org/grapher/number-of-natural-disaster-events [2] https://asia.nikkei.com/Spotlight/Datawatch/Aging-infrastructure-a-major-roadblock-to-Japan-s-future [3] https://www.gov-online.go.jp/eng/publicity/book/hlj/html/202102/202102_09_en.html 4

背景 • 大規模言語モデル（LLM）の可能性 – – – • 従来のアプローチの限界 – – – • 自然言語指示から複雑なタスク計画の生成推論能力と世界知識の活用マルチモーダル情報の統合マルチロボットシステムでのタスク依存関係の明示的な表現が不足パラメータ数が多いモデルを使わないと行けない • リモートでLLMを動くエンドツーエンドのリアルタイム実行をサポートしていない関連研究の課題 – – Roco: 固定位置のロボットアームに特化 SMART-LLM: 依存関係の明示的処理がなく、Python コード生成に依存依存関係を考慮したタスク分解と実行のための新しいフレームワークDART-LLMを提案 5

提案と貢献 • 依存関係を考慮したタスク分解メカニズム – 有向非循環グラフ（DAG）を使用したサブタスク依存関係のモデル化 – 小規模モデルの推論能力を向上 – 適切なタスク実行順序の保証と効率の最大化 • エンドツーエンドリアルタイム実行フレームワーク – – – – QA LLMモジュール: 指示解析とタスク分解 Breakdown Functionモジュール: タスク解析とロボット割当 Actuationモジュール: タスク実行 VLMベースオブジェクト検出モジュール: 物体マップの更新 • 建設ロボット評価のためのベンチマークデータセット – 102の高レベル自然言語指示 – 3つの複雑度レベル（L1, L2, L3） – 厳密な実行順序制約を含む 6

手法モジュール構成 QA LLM Module: 指示解析と依存関係を考慮したタスク分 Breakdown Function Module : タスク解析とロボット割当 Actuation Module : タスク実行 VLM-based Object Detector: 環境認識と物体マップ更新 7

問題定義 8

手法 9

10.

手法 10

11.

手法 11

12.

手法 12

13.

手法 13

14.

実験セットアップ評価環境 •建設ロボットシナリオにおける自然言語駆動タスク計画用ベンチマークデータセット •3つのタスクレベル: L1, L2, L3 •L1レベル：基本操作タスク、シンプルな単一または少数ステップのロボット操作、依存関係が単純または無依存 •L2レベル：中程度の複雑さの協調タスク、複数ステップの順次実行が必要、線形の依存関係を持つ •L3レベル：高複雑度の多段階タスク、複雑な依存ネットワークと並列/直列実行の組み合わせを含む •データセット: 102の高レベル指示（L1: 47タスク、L2: 33タスク、L3: 22タスク） •シミュレーション環境: Unity + PhysXフィジックスエンジン •実機環境: ヤンマー製C30R履帯式輸送ロボット2台、日立建機製ZX120掘削機1台評価指標 • SR (Success Rate): タスク完全成功率 • IPA (Instruction Parsing Accuracy): 指示解析精度 • DSR (Dependency Satisfaction Rate): 依存関係満足率 • SGSR (Semantic Grounding Success Rate): 意味的接地成功率 • RTR (Response Time Reliability): 応答時間信頼性 14

15.

結果 • L1タスク: すべての実装がSR, IPA, DSR, SGSRで完璧なスコア（1.00）を達成 • RTRではDART-LLM with Llama3.1が最高スコア（0.96） • L2タスク: DART-LLM with Deepseek-r1が最高のSR（0.97）を達成 • すべてのDART-LLM実装が完璧なIPAスコアを維持 • SMART-LLMベースラインは性能が大幅に低下（SR: 0.36〜0.78） • L3タスク: DART-LLM with Deepseek-r1が最高のSR（0.94）を達成 • SMART-LLMベースラインの性能は大幅に低下（SR: 0.24〜0.65） • RTR: DART-LLM with Llama3.1が一貫して高いスコアを維持（0.96, 0.90, 0.86） • SMART-LLMベースラインは非常に低いRTRスコア（0.02〜0.24） 15

16.

アブレーション実験結果 • • • • • • L3複雑度タスクで5つの異なるLLMを使用して実験「依存関係あり」（DAGを使用）と「依存関係なし」（DAGを使用しない）の2条件を比較すべてのモデルで「依存関係なし」条件で性能が低下 Llama3.1が最大の性能低下（0.84→0.45） GPT-4oとDeepseek-r1も顕著な低下（0.93→0.85、0.94→0.89）小型モデルでの顕著な性能差は、DAGによる明示的な依存関係モデリングが推論能力を補完できることを示唆

17.

結果

18.

結果

19.

まとめ大規模言語モデル（LLM）と有向非循環グラフ（DAG）を統合したマルチロボットシステム明示的な依存関係モデリングによる複雑なタスクの効果的な処理 SMART-LLMベースラインを一貫してすべての評価指標で上回る性能 Deepseek-r1が最高の成功率を達成、Llama3.1が応答時間で優れた信頼性を示す 19

20.

まとめ結論と貢献 • 建設分野のデータセットを作成 • 依存関係認識タスク分解メカニズム • エッジデバイスで実行できる • QA LLMをROSパイプラインに接続して、JSONコマンドをストリーミングすることで、 SMART-LLMのような独立したPythonスクリプトを生成するのではなく、また、依存関係に基づいた明示的なDAGを使用して、脆弱なPythonのヒントを置き換える 20

21.

まとめ大変なところ • データセットの構築は大変（七千行近い） • 複数のレポジトリの開発するのは大変（六つのレポジトリ） • 実際のロボットに導入する時，Nav２をデバッグするのは大変 21

22.

まとめ今後の展望 • 実際の大きい建機でテスト • チームの規模を変更してテスト • 動的計画能力を追加 • 他の分野もテスト 22

23.

参考文献 • Wang, Y., Xiao, R., Kasahara, J. Y. L., Yajima, R., Nagatani, K., Yamashita, A., & Asama, H. (2024). Dart-llm: Dependency-aware multi-robot task decomposition and execution using large language models. arXiv preprint arXiv:2411.09022. 23