130 Views
July 31, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Novelty Detection in Reinforcement Learning with World Models Kai Yamashita, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 Title: Novelty Detection in Reinforcement Learning with World Models Authors: Geigh Zollicoffer, Kenneth Eaton, Jonathan Balloch, Julia Kim, Wei Zhou, Robert Wright, Mark O. Riedl Accepted at ICML2025(Spotlight) TL;DR • Dreamer V2などの世界モデルが内部で計算する prior / posterior の KL 差に着目し,「KL Bound」が 破られた瞬間を ノベルティ判定 とする検知手法を提案 • 追加モデルも閾値チューニングも不要で、MiniGrid・Atari・DMC 30 タスクで 偽陽性 ≤ 1 × 10⁻²、検 知遅延 ≤ 1 ステップ を達成 • アンサンブル型 SoTA (RIQN) より 45〜100 倍高速 かつ安全性(低 FP)を大幅改善。 2
Background RL with World Model • モデルフリーRLはサンプル効率の低さが課題 • 環境の内部モデル(World Model)を獲得し,planningやimaginationに活用することでサンプル効率を大幅に改善 3
Novelty • OOD(Out of Distribution)とは機械学習において,学習時の分布と異なる分布であることを示す • 多くの機械学習の手法は学習,推論が独立同分布(i.i.d)であることを前提にしており,OODでは性能が悪化する • Noveltyとは,推論的に恒久的な分布シフトが発生すること • 一過性の外れ値と異なり,Noveltyとは”環境の恒久的変化”を表すため,早期検知できなければRL Agentは性能を 失う • 自動運転&Roboticsのような安全性が重視される分野では低偽陽性かつ遅延ほぼゼロでの検知が求められる 4
Related Works • 既存の機械学習型 OOD/異常検知例:再構成誤差・密度推定: • • 静的データを前提に,画像を VAE 等で再構成し,誤差や確率密度で OOD を検知 オンライン RL では①逐次依存性を無視しやすく,②状況ごとの閾値調整が運用 コストに直結,③i.i.d. 前提が破れ文脈を誤判定しやすい • 環境多様化による汎化強化: • • 学習時に多様な状態を経験させ,未知環境へのロバスト性を高める 期待性能は上がるが サンプル複雑性が極端に高く,実運用コストが大きい • OOD モデル学習の理論的限界: • • ROOD 検知モデルそのものが学習不可能になるケースを示す負結果 RL にも当てはまり,学習すれば必ず検知できるという保証が無い • 報酬劣化シグナル利用: • • 報酬の急落を異常兆候として検知 高リスク環境では 発見が遅く手遅れ になり得る上,報酬変動が真因と対応しない 可能性 • アンサンブル不確実性型(RIQN): • • IQN を使い,アンサンブルで各特徴の逸脱スコアを出し CUSUM アルゴリズムで 検知 閾値 λ とドリフト Δ を環境ごとに調整する必要 - 観測次元が大きいと推論が重く, Aleatoric 不確実性の変化が高偽陽性 を招きやすい AEを用いた再構成誤差による検知 5
Preliminaries DreamerV2 • • • • 部分観測マルコフ決定過程(POMDP)を問題設定とする DreamerV2をベース手法として採用 DreamerV2は履歴h_tと観測x_tから潜在状態z_tを推論 h_tとx_tから観測,報酬,割引率などの再構成,PriorとPosteriorのKL 最小化によって学習される 7
Novelty Bound Novelty Bound ℎ0 means empty hidden state • PosteriorとPriorのkLのみから構成されるBound • 既存のモデルのみで判定でき,閾値などのハイパラ調整も不要 Condition Novelty or Nominal 右辺が負 Novelty 右辺非負かつ不等式不成立 Novelty 右辺非負かつ不等式成立 Nominal 8
Novelty Bound Novelty Boundの右辺のKL差の解釈 • 観測x_tが空履歴Priorをどれだけ更新したかという期待情報利得(EIG)として解釈できる • EIGの定義上Δは非負になる • 右辺が非負になり,左辺のKL項(Surprise)が学習により極小化されるためNominal環境では Novelty Boundの不等式が成立する 9
Visualization of KLs 学習ステップとKLの推移 1. 学習するにつれSurpriseは着実に減少 2. KL差分は学習の初期はSurpriseよりも小さいが,環境の予測ができるようになるにつれ正の値をとり Surpriseを上回る 3. 学習が進むにつれ,緑線が大きくなることから,モデルが予測の根拠を現入力x_tからhistoryx_tに依存する ようになる 10
Experiments • 環境:離散操作の MiniGrid, 画像入力の Atari, 連続制御の DeepMind Control (DMC)。 • 環境変化の導入 – MiniGrid → NovGrid • 新規提案のNovgridラッパーによる観測と 遷移に関する変化 – Atari → HackAtari • レンダリングと力学の変化 – DMC → RealWorldRL Suite • モーター出力係数や摩擦係数の変化 最初はNominal環境,あるステップで Novelty環境に変化させる • Metrics – – – – ADE (Average Delay Error)↓:ノベルティ発生タイムスタンプと検知タイムスタンプの差の平均 False Positive (FP)↓:Nominal 環境での誤検知率 AUC↑:アノマリースコアの識別能力 リアルタイム推論速度↑:RIQN を 1 × とした相対値 11
Baselines • RIQN – IQNを用いたアンサンブルによるRL向けOOD検出手法 – ハイパラは論文に合わせる – Nominal遷移10万ステップを使ってRIQNを学習 – ノベルティ検出にはCUSUMアルゴリズムを使用 – アンサンブルサイズは5 • PP-Mare – Priorとposteriorそれぞれからのサンプルzを使ったreconの距離で検出 – World Modelの既存モジュールのみを用いたOOD手法として最もナイーブなものだが,閾値の 調整が必要 12
FP-Rate 偽陽性率 • RIQNと比較して,低い偽陽性率を達成しており,誤検知が少ない • PP-Mareも低い偽陽性率を達成しているが,閾値の調整が必要 13
Accuracy ADE&AUC • 3つの環境の結果より,KL-Boundが最も効果的(ADEが低くAUCが高い) • PP-MareはAtariにおいて画素誤差によってAUCが伸びず • RIQNがADEで優位なタスクもあるが,それは偽陽性率と引き換えである 14
Ablation Study 推論速度 • • • • 異なるモデルでの比較 KL-BoundはKLの計算だけで済むため,RIQNに比べて非常に高速であり,PP-Mareにも若干勝る アーキテクチャの種類によらず,KL-Boundは低いFPを達成 Diffusion-BasedはKLを持たないためPP-Mareで代用しているが,画素依存のためAUCが若干低い Transformer-BasedでADEが遅いのは,ベースモデルのサンプル不足によるものと主張 15
Ablation Study 学習時の探索不足が引き起こす性能劣化 • 訓練時に意図的に探索不足を引き起こし,訓練時の探索不足が検知性能に与える影響を調査 • MiniGrid-DoorKey-6×6においてPolicyが常に左側スタート→道側ゴールのみを学習させることにより, ドアの裏側を見る遷移が含まれなくなる • KL Bound・PP-Mare・RIQNはいずれも「裏面を見る」だけで Novelty と判断してしまった • KL Explored という追加実験を行い、事前に左右両側からゴールへ向かうようにエージェントを訓練 (=探索を増やす)したところ、精度が 0.91 まで向上 • 学習時の探索不足が誤検知を引き起こすことの示唆 16
まとめ Conclusions • Noveltyとは推論時に観測空間や環境の状態遷移ダイナミクスが突然かつ恒久的に変化し学習時に エージェントが予期しなかった分布シフトを表す • 本研究ではWorld Modelを用いたRLにおいてNoveltyをPosteriorやPriorからのKLを用いて検知する手 法を提案 • 本提案手法は偽陽性を抑えつつ迅速かつ高精度にNoveltyを検知できることを示した • 本手法の特色は,追加のモデルや閾値等ハイパラの調整を必要としない点である Limitations • 本研究では距離指標としてKL Divergenceを用いたが,Jensen-ShannonやWassersteinなどの別の距 離Metricの導入により理論保証の強化の可能性 • ポリシーが限られた軌跡しか探索しないと,学習時にほとんど探索されなかった事例を未知とし て誤検知につながるため,学習時の探索範囲の強化が必要 17