【ゼロから作るDeep Learning④】9.3~9.6

>100 Views

December 18, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

ゼロから学ぶDeep Learning4 9.3-9.6 ベースラインとActor Critic 工学部B3 野村隆晃 0

2.

アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 1

3.

アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 2

4.

ベースラインの基本アイディア 損失関数の勾配の期待値を変えることなく分散を減らす手法 収益そのものではく、相対的な収益を算出 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 ෍ 𝐺𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 収益𝐺𝑡 ->行動によるAdvantageへ変更 (減算する関数は状態の関数であればよい) 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 ෍ 𝐺𝑡 − 𝑏 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 3

5.

アジェンダ ◼ REINFORCEベースライン ◼ Actor-Critic 4

6.

Actor-Criticとは 強化学習の2つの手法である価値関数ベースと方策ベースを合わせた手法 • 価値関数ベース: 状態と行動を引数にとる価値関数をNNなどで近似し最大化 • 方策ベース : 状態から確率的に行動を選択 ベースラインつきREINFORCEにNNで予測する価値関数を使用、つまり方策 ベースでありながら損失関数の算出に価値関数を使用 𝑇 ∇𝜃 𝐽 𝜃 = 𝐸𝜏∼𝜋𝜃 ෍ 𝐺𝑡 − 𝑉𝑤 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 軌道が終わる前に𝐺𝑡 を算出したい->TD, モンテカルロ,(GAE) 5

7.

収益の近似 収益の厳密値は、エピソードの終了まで未確定であるため、 1step先まで用いるTD法をもちいる。 TD法による状態価値関数の更新: 𝑉𝜋′ 𝑆𝑡 = 𝑉𝜋 𝑆𝑡 + 𝛼{𝑅𝑡 + 𝛾𝑉𝜋 𝑆𝑡+1 − 𝑉𝜋 𝑆𝑡 } ∇𝜃 𝐽 𝜃 𝑇 = 𝐸𝜏∼𝜋𝜃 ෍ 𝑅𝑡 + 𝛾𝑉𝑤 𝑆𝑡+1 − 𝑉𝑤 𝑆𝑡 ∇𝜃 log 𝜋𝜃 𝐴𝑡 𝑆𝑡 𝑡=0 この式中の学習されているNN:方策𝜋と状態価値関数𝑉𝑤 と (ActorとCritic) 6

8.

NNの構造 Actorである行動決定用のPolicyNetとCritic(価値関数近似)のValueNet どちらも2層NNだがsoftmaxを適用するかどうかが異なる 7

9.

Actor用のコード Update: ActorとCriticをupdateで適用&学習 8