ベイズ統計_03_マルコフ連鎖モンテカルロ法(3)

1.

ベイズ統計 08 マルコフ連鎖モンテカルロ法(3) 分寺杏介神戸大学大学院経営学研究科  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

2.

前回のおさらい｜Metropolis-Hastings法のイメージされた候補の事後確率密度𝑃 𝜃 ∗ が 𝑃 𝜃 (𝑡) より低い場合確率的に棄却される 𝑃 𝜃∗ min 1, <1 𝑃 𝜃 (𝑡) 𝜃 (𝑡) をもとに分 𝑄 𝜃 ∗ 𝜃 (𝑡) から乱数を発生された候補の事後確率密度𝑃 𝜃 ∗ が 𝑃 𝜃 (𝑡) より高い場合必ず採択される 𝑃 𝜃∗ min 1, =1 𝑃 𝜃 (𝑡) 確率密度の高いところほどサンプリングされやすい分 08 マルコフ連鎖モンテカルロ法(3) 2

3.

前回のおさらい｜Gibbs Samplingの考え方 ▌同時分を導出するのは結構しんどいことがある重回帰分析くらいでもパラメータの数が増えるとつらい ▌導出できても乱数を出しづらいことがある例えば「正規分布に従うパラメータ」「ガンマ分布に従うパラメータ」「ベータ分布に従うパラメータ」の3つを同時に乱数生成できるか？多分無理一つずつ順番に乱数を作るほうがまだ望みがある 𝜇 だけをサンプリング (𝜇, 𝜎)を同時に 𝜎 だけをサンプリングのかわりに 08 マルコフ連鎖モンテカルロ法(3) 3

4.

前回のおさらい｜HMCの考え方 ① 適当なところ𝜃 (0) に ② をおく（初期値）を適当な強さで適当な方向に蹴る 𝑡 運動量𝑝(𝑡) を与えるこれが「事後分布とは独立な標準正規分布𝑃(𝑝)からの乱数」 ③ しばらくしたら ④ またを止めて位置𝜃 (𝑡) を記録 𝑡+1 蹴る方向と強さを𝑝(𝑡+1) ではじく→ 𝜃 (𝑡+1) を記録事後分によって作られた傾斜のおかげで基本的には低いところ＝事後確率密度が高いところに集まりやすい 08 マルコフ連鎖モンテカルロ法(3) 4

5.

１ MCMCによるサンプリングの評価 08 マルコフ連鎖モンテカルロ法(3) 5

6.

これをイズに適用できれば MCMCによるサンプリングに関する疑問もしも定常分が事後分だったら資料06 p. 40 初の方のサンプリングの確率は初期値のをける（＝初期値によって確率が 2. 本当に「定常分あるところからは定常分わる）定常分からのランダムサンプリングとはえない 1. どこからが「定常分たすらりすと，「にする。つ前の値」から確率的に定しても「定常分」からのランダムサンプリングとなすことができるこの分だけえば「事後分からの乱数」によるからのランダムサンプリング」といえるのか？モンテ法がえるに収束している」ことはどうやって確認するのか？マルコフ連鎖モンテカルロ法 3. 結局のところ，どれくらいサンプリングしたら安心なのか？ 08 マルコフ連鎖モンテカルロ法(3) 6

7.

これをイズに適用できれば MCMCによるサンプリングに関する疑問もしも定常分が事後分だったら資料06 p. 40 初の方のサンプリングの確率は初期値のをける（＝初期値によって確率があるところからは定常分わる）定常分からのランダムサンプリングとはえない 1. どこからが「定常分たすらりすと，「にする。つ前の値」から確率的に定しても「定常分」からのランダムサンプリングとなすことができるこの分だけえば「事後分からの乱数」によるからのランダムサンプリング」といえるのか？モンテ法がえる基本的にはトレースプロットを目視してマルコフ連鎖モンテカルロ法「まだゲジゲジになっていない分」パラメータ数が膨大になったらどうするの？を除けばよいが… 設定した初期値それだけでは確実とは 08 マルコフ連鎖モンテカルロ法(3) えません 7

8.

うまくっているように見えても…の例 ▌もしもあるパラメータの事後分が単峰じゃなかったら？事後分がこのようになるのは，モデの設定やデータに異常があることが多いのですがしてありえない話でもないのです 08 マルコフ連鎖モンテカルロ法(3) 8

9.

うまくっているように見えても…の例 ▌もしもあるパラメータの事後分が単峰じゃなかったら？試しにM-H法で10000回サンプリングしてみると黒：実際の事後分青：サンプから復元した確率密度右側の山から全くサンプリングされてないじゃないか 08 マルコフ連鎖モンテカルロ法(3) ちゃんとゲジゲジになってるのでヨシ 9

10.

うまくっているように見えても…の例 ▌もしもあるパラメータの事後分が単峰じゃなかったら？実はサンプリング回数が100000回になるとたまに右の山にも動する黒：実際の事後分青：10000回で復元した確率密度赤：100000回で復元した確率密度 10000回以降サンプリング数を増やしたら結果が全然違いました再発防止に努めなさい申し訳ありません！！ 08 マルコフ連鎖モンテカルロ法(3) 10

11.

MCMCアゴリズムの性質 ▌山の間は動きづらい M-H法の場合 HMC法の場合分山を超えるためには確率密度の低い点に動する必要があるが，当然棄却されやすい隣の山にボールを蹴りいれるには強い力 𝑝(𝑡) で蹴る必要がある起こりづらい 08 マルコフ連鎖モンテカルロ法(3) 11

12.

MCMCが約束してくれることコ連鎖のインこのように資料06 p. 35 初の分コ連鎖は確率が 1 = であれ = 的に同じ確率分きい回数連鎖を伸ばすと = = に収束するこの分布をとす的にはのをたすに分布にするのですが， ▌任意の確率分（事後分）を近似してくれるとりえのにいてははたされているとっていただいていどのからどのにもれば的には ※ただし，（理論上は有限の）長い連鎖を伸ばし続けた場合の数のとだける先ほどの例ものに理的には 100万回，1000万回と増やしていけば的には実際の事後分とほぼ致することは約されているのですに帰ってくるみたいなことは無しで黒：実際の事後分で帰ってくる青：10000回で復元した確率密度赤：100000回で復元した確率密度マルコフ連鎖モンテカルロ法 08 マルコフ連鎖モンテカルロ法(3) 10万回では足りなかっただけ 12

13.

じゃあどうしましょうか ▌複数の初期値から始めてる実際のMCMCの利用面では当然のように用いられていす黒：実際の事後分青：10000回で復元赤：5*10000回で復元初期値を各地から 1本の連鎖をひたすら延ばすよりも早く収束してくれることが多いすべての連鎖が同じ場所に収束するかを確認しやすい 08 マルコフ連鎖モンテカルロ法(3) 13

14.

これをイズに適用できれば MCMCによるサンプリングに関する疑問もしも定常分が事後分だったら資料06 p. 40 初の方のサンプリングの確率は初期値のをける（＝初期値によって確率があるところからは定常分わる）定常分からのランダムサンプリングとはえない 1. どこからが「定常分たすらりすと，「にする。つ前の値」から確率的に定しても「定常分」からのランダムサンプリングとなすことができるこの分だけえば「事後分からの乱数」によるからのランダムサンプリング」といえるのか？モンテ法がえる複数の期値から始めて，すべての連鎖が同じエリアにマルコフ連鎖モンテカルロ法 2. 本当に「定常分ったらたぶ OK に収束している」ことはどうやって確認するのか？ 3. 結局のところ，どれくらいサンプリングしたら安心なのか？ 08 マルコフ連鎖モンテカルロ法(3) 14

15.

Gelman & Rubinの方法 ▌現，も広く用いられている収束判定法【基本的なアイデア】 ▌収束しているなら，複数のchainの平均が似た値になるので分散が小さい【方法】分散分析と発想は似ている気がします 1. chainごとの「内」分散とchain「間」分散を 2. 比に基づいた 3. chain「間」分散が ෠ 量𝑅を算する算する分に小さければ収束しているとなす 08 マルコフ連鎖モンテカルロ法(3) 15

16.

もう少し具体的に 900サンプル 900サンプル chain 201 202 … 1100 1101 … 2000 1 2983.513 3129.618 … 3387.964 3038.937 … 3000.598 2 3032.354 3117.739 … 3115.107 3450.847 … 3027.971 3 3263.752 3062.372 … 3061.173 3501.243 … 3362.166 (𝑛 = 9 ) 1. 各chainを前後半で半分に分ける（もちろん初期値に依存している箇所は捨てて） 2. 半chain（）ごとに分散を算する 3. 分散の平均をとる= 𝑊 (Within variance) 4. 各半chainの平均を算する 5. 平均の分散をとる= 𝐵 (Between variance) 6. 次の量を算する 𝑅෠ = 𝑛−1 𝑛 𝑊+𝐵 𝑊 08 マルコフ連鎖モンテカルロ法(3) 16

17.

ということは ▌半chainの長さ 𝑛 が分にきい場合 𝑅෠ = 𝑛−1 𝑊+𝐵 𝑛 ≈ 𝑊 𝐵 1+ 𝑊 半chain間の平均の分散𝐵 が小さければ𝑅෠ ≈ 1になる ෠ 𝑅は𝑛→∞で1になることが保証されています「無限回chainを伸ばせば必ず収束する」【収束判定基準】 ▌Gelman & Rubin的には複数のchainを回して𝑅෠ < 1.1ならOK 人によってはやとう人もいるが，本当にうまくっている場合𝑅 ̂はほぼになります 08 マルコフ連鎖モンテカルロ法(3) 17

18.

Gelman & Rubinも万能ではない ▌ 𝑅෠ は小さいのに…の例先程の失敗例と同じケースです黒：実際の事後分青：5*2000回で復元すべてのchainが同じエリアにいる ▼ 各(半)chain の分散𝐵 は各(半)chain内の分散𝑊と比べて小さい ▼ 𝑅෠ ≃ 1になっている ▼ 初期値の幅が甘い収束している 𝑅෠ はあくまでも「各chainのサンプリングが同じエリアでわれているか」の指標本当に事後分全体をバーできているかは要注意 08 マルコフ連鎖モンテカルロ法(3) 18

19.

Gelman & Rubinも万能ではない ▌ 𝑅෠ は小さいのに…の例先程の失敗例と同じケースです黒：実際の事後分青：5*2000回で復元赤：5*10000回で復元初期値の幅が甘い 10000回まで見た場合には 𝑅෠ はきい可能性が高い 𝑅෠ が小さくなるためには，つつのchain（の前後半）が単体で事後分を正しく復元できている必要があるこのような事後分の場合，かなりの長さのchainが必要になるかも 08 マルコフ連鎖モンテカルロ法(3) 19

20.

別のあり得るかもしれない問題実際にはありえないのですが，𝑅෠ が万能ではないことを理解するための ▌こんな連鎖があったとしたら 𝑅෠ = 例として 𝑛−1 𝑛 𝑊+𝐵 𝑊 𝐵は「各chainの平均の分散」なので小さくなる 𝐵 𝑊 𝑊は「各chainの分散の平均」なので大くなる第一に「目で見て収束してるっぽいか」を認ししょうサンプリング回数 • 「前の値に1を足す」連鎖 • ちょうど中からは「前の値から1を引く」 • 期値はそれぞれ0と100 実際にはありえないとは思うのですが，自己相関が非常に高い場合には似たようなことはありえなくもない，かもしれません 08 マルコフ連鎖モンテカルロ法(3) 20

21.

（補足）場合によってはあり得そうな問題1 Vehtari et al. (2021) より ▌ 𝑅෠ はchain内とchain間の分散の比 chain内分散が【例】 𝑅෠ = きすぎると，それだけで𝑅෠ はほぼ１になってしまうかもあるchainは全然安定しておらずたまに異常な値が出る（コーシー分のように） 𝑛−1 𝑛 𝑊+𝐵 𝑊 各chainは異なる場所に落ち着いている MCMCは収束していない 0付近を拡サンプリング回数サンプリング回数 08 マルコフ連鎖モンテカルロ法(3) このとき 𝑅෠ = 1. 21 3

https://doi.org/10.1214/20-BA1221

22.

（補足）場合によってはあり得そうな問題1 Vehtari et al. (2021) より ▌ 𝑅෠ はchain内とchain間の分散の比 chain内分散が 𝑅෠ = きすぎると，それだけで𝑅෠ はほぼ１になってしまうかも外れ値に強くなるように，サンプを順位に換してあげよう実際には，換後のスケーが標準正規分になるように 𝑧 𝑐𝑡 = Φ−1 平均値に対して中央値や分位点が外れ値に強いのと同じ理屈外れ値のを取り除いたおかげで chain内分散の平均 𝑊 がきくなりすぎるのを防ぐ 3 𝜃 𝑐𝑡 − 8 1 𝑆+ 4 ※ 𝜃 𝑐𝑡 は𝑐個目のchainの𝑡番目のサンプ 𝑛−1 𝑛 𝑊+𝐵 𝑊 サンプリング回数このとき (rank-normalized) 𝑅෠ = 1. 7 9 08 マルコフ連鎖モンテカルロ法(3) 22

https://doi.org/10.1214/20-BA1221

23.

（補足）場合によってはあり得そうな問題2 Vehtari et al. (2021) より ▌ 𝑅෠ はchain内とchain間の分散の比 chain間で平均が同じであれば，chainごとに分散が違っていても気付けないかも平均的には同じだが，chainごとに異なる動きをしている MCMCは収束していない【例】あるchainは事後分全体からうまくサンプリングできている別のchainは事後平均（0）付近からなかなか動けなくなってしまったサンプリング回数 08 マルコフ連鎖モンテカルロ法(3) このとき 𝑅෠ = .9997 23

https://doi.org/10.1214/20-BA1221

24.

（補足）場合によってはあり得そうな問題2 Vehtari et al. (2021) より ▌ 𝑅෠ はchain内とchain間の分散の比 chain間で平均が同じであれば，chainごとに分散が違っていても気付けないかも「中心から離れている度」に ෠ 換してから𝑅を算してあげよう具体的には，まず全サンプの中央値に 𝜁 (𝑐𝑡) = 𝜃 𝑐𝑡 − median 𝜃 換，その後で先ほどと同じように 𝑧 𝑐𝑡 = Φ−1 中央値から離れる 3 𝜁 (𝑐𝑡) − 8 1 𝑆+ 4 中央値近くが多い ※ 𝜃 𝑐𝑡 は𝑐個目のchainの𝑡番目のサンプサンプリング回数このとき (rank-normalized folded) 𝑅෠ = 1.3 8 08 マルコフ連鎖モンテカルロ法(3) 24

https://doi.org/10.1214/20-BA1221

25.

（補足）結局まとめると ෠ ▌３種類の𝑅はそれぞれ異なる情報を供するオリジナル 𝑅෠ だけでは捉えれない問題がるただし，変換したからと言ってすべての問題を捉えられるわけではない ෠ できれば，３種類の𝑅の ▌ただ，多くの場合はオリジナ値をもとに判断してあげると良い 𝑅෠ でも事足りるような気もするモデとMCMCが正しく設定されており，分なデータがあるならば，「あるchainだけ分散が異なる」や「異常な値がサンプリングされる」ということは起こりにくいはず可能な限りトレースプロットを見てあげましょう 08 マルコフ連鎖モンテカルロ法(3) 25

26.

これをイズに適用できれば MCMCによるサンプリングに関する疑問もしも定常分が事後分だったら資料06 p. 40 初の方のサンプリングの確率は初期値のをける（＝初期値によって確率が複数のあるところからは定常分わる）定常分からのランダムサンプリングとはえない 1. どこからが「定常分たすらりすと，「にする。つ前の値」から確率的に定しても「定常分」からのランダムサンプリングとなすことができるこの分だけえば「事後分からの乱数」によるからのランダムサンプリング」といえるのか？期値から始めて，すべての連鎖が同じエリアにマルコフ連鎖モンテカルロ法 2. 本当に「定常分モンテ法がえるったらたぶ OK に収束している」ことはどうやって確認するのか？ ෠ は目で見て，さらに𝑅によって客観的にも認ししょう 3. 結局のところ，どれくらいサンプリングしたら安心なのか？ 08 マルコフ連鎖モンテカルロ法(3) 26

27.

MCMCがうまくいったぞ初期値に依存していると思われる分は取り除いて 𝑅෠ 的には早い段階で収束しているがもちろんいくらでもchainは延ばせるどれくらいたくさん乱数を生成したら満足でしょうか？何か基準は？ 08 マルコフ連鎖モンテカルロ法(3) 27

28.

モンテ法の性質 ▌初期値のを排除し，𝑅෠ が小さくなっていれば少なくてもいいのか？もっと増やすの数を資料06 p. 15 に変えてみるの数モンテカルロ法によるサンプの数によってのはまる乱数の数は多いほうが良いリースのすりマルコフ連鎖モンテカルロ法 08 マルコフ連鎖モンテカルロ法(3) 28

29.

必要な乱数の数 ▌具体的にどれくらい乱数を生成したら良いのか？場合によるので，できればいっぱいやってください。 ※以下の要因によって化します • どな分布のどのパラメータを推しているのか？ • どれくらいので推したいのか？ • モデルはどれくらい複雑か？パラメータに相関はるか？ • 推値が欲しいだけなのか，分布の全の形が知りたいのか？とつ具体例を見てましょう 08 マルコフ連鎖モンテカルロ法(3) 29

30.

事後平均(EAP)推定のときの乱数の数 ▌中心極限定理が適用できます central limit theorem 中心極限定理（頻度論の文脈での説明）（MCMCにあてはめると）母集団分布が正規分布でなくても何であっても事後分布が共役であるかに関わらず事後分布から𝑆 の乱数を母集団分の平均を𝜇，標準偏差を𝜎で表すとサンプサイズ𝑛が分にきいと独立に生成すると事後平均（EAP）の標本分標本平均の標本分布は正規分布 𝑁 𝜎2 𝜇, に近づいていく 𝑛 ※厳密には「期待値と標準偏差が定義できるとき常に成り立つ」定理正規分 𝑁 𝜎2 𝜇, 𝑠 はに近づいていく MCMCサンプによる事後平均の推定精度を評価できる 08 マルコフ連鎖モンテカルロ法(3) 30

31.

試してましょう例引き続き「コンビニ」の例について，MCMC(M-H法)で事後分母平均パラメータ 𝜇 の事後分を復元してます。は，ほぼ無情報の共役事前分からしたがって中心極限定理によって，事後平均の標本分は𝑁 6.984 ▌1000回ほどMCMCをりしてる ① 50個の乱数から事後平均（EAP）を資料05 p. 87 算すると𝑁 6.984 𝜎2 , 100 でした。 𝜎2 , となることが分かります。 100𝑆 の1000 の乱数は捨てて，その後のみ使用しす算すると発生回数 𝜇 の事後平均（EAP）の標準偏差＝EAPの標準誤差は0.087 仮に𝜎 2 ≃ 1.32 （データの値）だとすると 1.3 標準誤差は10 50 ≃ . 18 くらいのはず 08 マルコフ連鎖モンテカルロ法(3) 31

32.

試してましょう例引き続き「コンビニ」の例について，MCMC(M-H法)で事後分母平均パラメータ 𝜇 の事後分を復元してます。は，ほぼ無情報の共役事前分からしたがって中心極限定理によって，事後平均の標本分は𝑁 6.984 ▌1000回ほどMCMCをりしてる ② 10000個の乱数から事後平均（EAP）を資料05 p. 87 算すると𝑁 6.984 𝜎2 , 100 でした。 𝜎2 , となることが分かります。 100𝑆 の1000 の乱数は捨てて，その後のみ使用しす算すると発生回数 𝜇 の事後平均（EAP）の標準偏差＝EAPの標準誤差は0.0076 仮に𝜎 2 ≃ 1.32 （データの値）だとすると 1.3 標準誤差は10 10000 ≃ . 13 くらいのはず 08 マルコフ連鎖モンテカルロ法(3) 32

33.

試してましょう例引き続き「コンビニ」の例について，MCMC(M-H法)で事後分母平均パラメータ 𝜇 の事後分を復元してます。は，ほぼ無情報の共役事前分からしたがって中心極限定理によって，事後平均の標本分は𝑁 6.984 ▌1000回ほどMCMCをりしてる資料05 p. 87 算すると𝑁 6.984 𝜎2 , 100 でした。 𝜎2 , となることが分かります。 100𝑆 の1000 の乱数は捨てて，その後のみ使用しす２つの結果を比べると EAPの標準誤差は0.087 10000個当然ながら乱数の数が多いほうが EAPの結果は安定する 08 マルコフ連鎖モンテカルロ法(3) EAPの標準誤差は0.0076 発生回数発生回数 50個 33

34.

ここまででわかったこと法なので，サンプサイズ（乱数の数）は多いほうが良い ▌モンテ ▌ただ，標準誤差は生成した乱数の数からの想定よりもきくなっている問題は「乱数どうしの相関」 p. 25 事後分布が共役であるかに関わらず事後分布から𝑆 の乱数を独立に生成すると事後平均（EAP）の標本分正規分 𝑁 𝜎2 𝜇, 𝑠 はに近づいていく MCMC法による乱数は独立ではないマルコフ連鎖に従って生成されるので，どうしても「前の乱数」とは相関を持ってしう MCMCにおけるサンプサイズについて考えてましょう 08 マルコフ連鎖モンテカルロ法(3) 34

35.

極端な例で考えるこんな推確率分もちろ実際のMCMCではこなこと起こり得ないのですがサンプルサイズについて考えるため「極端な例」を見ていすに基づいてサンプリングしたら 𝜃 (𝑡+1) ∼ 𝑁 𝜃 𝑡 + 1, . もしコ連鎖？によるサンプリングが「前の値に１を足す」という場合 ⋯ 初期値さえわかれば全てのサンプリングがわかる究極的には初の１個以外はの情報も持ってない２目降は１目から予測でるので新しい情報は持っていないということ実質的に有効なサンプリング回数サンプサイズは１である 08 マルコフ連鎖モンテカルロ法(3) 35

36.

極端な例で考えるこんな推確率分もちろ実際のMCMCではこなこと起こり得ないのですがサンプルサイズについて考えるため「極端な例」を見ていすに基づいてサンプリングしたらもしコ連鎖？によるサンプリングが「前の値に１を足した値の近く」という場合 𝜃 (𝑡+1) ∼ 𝑁 𝜃 𝑡 + 1, 1 初期値さえわかれば他のサンプの値もだいたい分かる初の１個以外が持っている情報の量は多くない２目降がもつ新しい情報は少なくとも独立した１個のサンプよりは小さい実質的に有効なサンプリング回数サンプサイズは小さい 08 マルコフ連鎖モンテカルロ法(3) 36

37.

もう少しリアな例で考える分もしの幅が狭いM-H法 𝜃 (𝑡+1) ∼ 𝑈[𝜃 𝑡 − . ,𝜃 𝑡 + . コ連鎖によるサンプリングが「前の値の近くをする」という場合 ] 前のサンプの値さえわかれば次のサンプの値もだいたい分かる２個目以降が持っている情報の量は多くない２目降がもつ新しい情報は少なくとも独立した１個のサンプよりは小さいサンプリング回数つ前のサンプが6.8だとしたら次のサンプは6.78から6.82の間実質的に有効なサンプサイズは小さい 08 マルコフ連鎖モンテカルロ法(3) 37

38.

サンプサイズと自己相関 ▌２つ目以降のサンプの値が，それ以前のサンプの値から予測できる言い換えると，「前のサンプとの自己相関が高い」 ▌MCMCでは，自己相関を考慮して調整したサンプサイズを考える必要があるそれが有効サンプルサイズ (Effective Sample Size; ESS) は6000 ESSをの乱数によるトレースプロットだがすると13.612となるこれは，仮に事後分から直接乱数をランダムサンプリングできた場合，わか13.612 での6000個と同じ情報量が得られることを意味する極端にえば，たった13-14個の乱数から EAPなどを算しようとしていることになるサンプリング回数 08 マルコフ連鎖モンテカルロ法(3) 38

39.

有効サンプサイズ ▌ESSの算方法 ESS = 自己相関が高いほど実際のサンプサイズ𝑆よりも ESSは小さくなる 𝑆 1 + σ∞ 𝑘=1 ACF(𝑘) ACF(𝑘)は𝑘個前のサンプとの自己相関 ▌ESSを用いたEAPの標準誤差の表現 MCMC中心極限定理に従えば， EAPの標準誤差（モンテそのため， pp. 31-32の例では標準誤差が予想よりも大かったのです 𝜎 𝜎 標準誤差; MCSE）はではなくと表される 𝑠 ESS ▌ちなに stanでは，ESS > Sとなることが多々あるが問題ない 08 マルコフ連鎖モンテカルロ法(3) stanでは適切なチューニングにより，自己相関が負になるようなサンプリングが実現されているようです 39

40.

必要な乱数の数で，結局具体的にどれくらい乱数を生成したら良いのか？場合によるので，できればいっぱいやってください。 ▌ただしサンプリング数ではなく，有効サンプサイズに基づいて評価すべし EAPの標準誤差が ESS ということは，仮に標準誤差を半分に抑えたければESSは4倍必要 𝜎 自己相関が高い場合には，生成する乱数の数を数 ▌ 倍に増やす必要すらあるかも低限必要なESSの目安は？ Vehtari et al. (2021)では「半chainごとに50」 ෠ 4chainで合 400は欲しい（𝑅ののために） Kruschke (2015)では，95%HDIの算を安定させるためには合 10000は必要他にもいろいろな人がいろいろなことを言っているといすが，1000くらいればひと 08 マルコフ連鎖モンテカルロ法(3) 安心な気がしす 40

41.

Rで出してる …cmdstanでは自動的に出してくれているように見えるが result$summary() 資料06 p. 107 ෠ • rhatはpp. 21-24で紹介した２種類の𝑅の • ess_bulkはランク換 (p.22) 後のサンプから算した自己相関をもとに算されたESS • ess_tailは5, 95パーセンタイ点のモンテ標準誤差の算出にうためのESSの小値 𝑅෠ 値有効サンプサイズ実はこれらはここまでに説明してきたものとは ෠ ESSです異なる𝑅, 08 マルコフ連鎖モンテカルロ法(3) 41

42.

ここまでに説明した指標を出すためには ▌posteriorパッケージの力を借ります事後平均のMCSE library(posterior) result$summary(NULL, ess=ess_basic, rhat=rhat_basic, mcse=mcse_mean) $summary()の第１引数は「どのパラメータの結果を出すか」デォ (NULL)では全第２引数以降は「どの指標を出力してほしいか」を指定する他にも普通に記述量を出したりもできます result$summary(NULL, mean=mean, Mode=Mode) 08 マルコフ連鎖モンテカルロ法(3) 42

https://mc-stan.org/posterior/reference/diagnostics.html

43.

２ (cmd)stanの設定 08 マルコフ連鎖モンテカルロ法(3) 43

44.

MCMCがわかればstanもだいたいわかる ▌ここまでで，MCMCを実する上で低限必要な知識は説明したつもりです ▌あとはこれを，(cmd)stanでの推定に適用していくだけですということで，$sample()の引数の中から，引数かと設定することの多いものを解説意味デォ iter_sampling 各chainからいくつの乱数を取ってくるか 1000 iter_warmup のいくつの乱数を使わに捨てるか 1000 save_warmup warmup期のサンプルを記録してくか thin 生成した乱数をいくつ chains いくつのchainを走らるか parallel_chains いくつのchainを同 init adapt_delta seed に使用する（に走ら引く）かもちろん引数は他にもあります FALSE 1 4 るか期値をどうするか 1 NULL HMC法のステップサイズをどう調整してほしいか 0.8 乱数生成のシード値 NULL 08 マルコフ連鎖モンテカルロ法(3) 44

https://mc-stan.org/cmdstanr/reference/model-method-sample.html

45.

chainの長さとサンプの数引数意味デォ iter_sampling 各chainからいくつの乱数を取ってくるか 1000 iter_warmup のいくつの乱数を使わに捨てるか 1000 save_warmup warmup期のサンプルを記録してくか ▌iter_sampling 𝑅෠ がだ大いと， FALSE warmup期間(stanのデォ ) 効サンプルサイズが小さいと ▌iter_warmup どうやら期値に依存している箇所が残っていると sampling期間（デォ）要上にサンプルを捨てる要がないと ▌save_warmup トレースプロットで「サンプリング回数分布にしているか」を 08 マルコフ連鎖モンテカルロ法(3) 認したいとなど後ほど説明します 45

46.

サンプを「間引く」引数意味 thin 生成した乱数をいくつに使用する（引く）かデォ 1 ▌悪いサンプリングでは自己相関がずっと高い用自己相関【例】warmup後，1000サンプをサンプリング回数 08 マルコフ連鎖モンテカルロ法(3) 46

47.

サンプを「間引く」引数意味 thin 生成した乱数をいくつデォに使用する（引く）か 1 ▌悪いサンプリングでは自己相関がずっと高い数個おきにえば自己相関は低くなる自己相関【例】warmup後，10000サンプを生成し，10個おきに用(thin=10) 自己相関が低くなった ESSもきくなるサンプリング回数 08 マルコフ連鎖モンテカルロ法(3) 47

48.

のばすか，まびくか ▌自己相関が非常に高い場合 ෠ たいてい𝑅が高かったり，ESSが低いので色々と良くないことが多いです 1. は，モデルの記述を見直しす stanコードの • 経験が物をう世界になりますが書き方次第で特に複雑なモデルでは，stanコードの書き方次第で大幅に改善されることがりす 2. モデルに問題・改善が無ければ，まずiter_samplingを増やします。 3. たにiter_samplingを10000くらいで増やしてもうくいかないことがりす 4. そなとはthinを変更してみしょう ※当然ながら，間引くことでも有効サンプサイズは減少するので thinの更はむやにあくまでも用しないほうがいい気がします。手段的に考えておくのが良いかもしれません 08 マルコフ連鎖モンテカルロ法(3) 48

49.

算効率を上げるために引数意味デォ chains いくつのchainを走らるか 4 parallel_chains いくつのchainを同に走らるか 1 ▌chains stan開発チームの見解としては，4 chains（デフォルト）は欲しい一方，「長い1 chain」のほうが良いという意見も (古澄, 2015など) ただ，parallel_chainsとわての効各chainが短いと，定常分に到達できていないおそれがあるためらしい化を図ることも ▌parallel_chains デフォルトでは，CPUの1つのthreadに1 chain つ走らる parallel_chainsを変えることで，複数のthreadに同時に算させることが可能に算時間が短縮できる 08 マルコフ連鎖モンテカルロ法(3) 49

50.

parallel_chainsの話 ▌比較 parallel_chains = 1のと parallel_chains = 4のと Running MCMC with 4 sequential chains... Running MCMC with 4 sequential chains... Chain 1 Iteration: 1 / 2000 [ 0%] Chain 1 Iteration: 100 / 2000 [ 5%] （中略） Chain 1 Iteration: 1900 / 2000 [ 95%] Chain 1 Iteration: 2000 / 2000 [100%] Chain 1 finished in 0.0 seconds. Chain 2 Iteration: 1 / 2000 [ 0%] Chain 2 Iteration: 100 / 2000 [ 5%] （後略） Chain 1 Iteration: Chain 2 Iteration: Chain 3 Iteration: Chain 4 Iteration: Chain 2 Iteration: Chain 4 Iteration: （後略） (Warmup) (Warmup) (Sampling) (Sampling) (Warmup) (Warmup) 1 / 2000 [ 1 / 2000 [ 1 / 2000 [ 1 / 2000 [ 100 / 2000 [ 100 / 2000 [ 0%] 0%] 0%] 0%] 0%] 0%] (Warmup) (Warmup) (Warmup) (Warmup) (Warmup) (Warmup) ▌お手元のPCのthread数 parallel::detectCores() windowsの場合，たぶんコア数*2 • chainsとparallel_chainsをこの値にすると効は良い • この値にすると，すべてのthreadsがstanの処理にわれる裏で別のこと（動画を見たりネットを見たり）が遅くなるかも • この値を超えるとPCが重くなるので非推奨 08 マルコフ連鎖モンテカルロ法(3) 50

51.

stanの初期値引数 init （前意味期値をどうするか）異なる初期値から始めても，同じ定常分 ▌初期値のデォデォ NULL に落ち着くことを確認したい (init=NULL) 制約のない (unconstrained) パラメータ空間において 𝑈[− , ] ▌初期値を実数にすると (init = x) 制約のない (unconstrained) パラメータ空間において 𝑈[−𝑥, 𝑥] 設はラクだが，すべてのパラメータについて同じ幅でしか設定できないまた，特定の値に指定することもできない 08 マルコフ連鎖モンテカルロ法(3) 51

52.

（補足）stanにおけるパラメータ空間 ▌HMCの算の都合上，制約のあるパラメータは難しい【例】正規分布の𝜎の事後分布の0のところでも密が0ではないとデータが少ないなどの理由で起こり得ます事後分イナス対数事後分ボーを左に蹴ると壁にぶつかるのでハミニアンが算できない 08 マルコフ連鎖モンテカルロ法(3) 52

53.

（補足）stanにおけるパラメータ空間「制約なし」の空間に置く ▌stanの内では，すべてのパラメータを【例】 <lower=0> sigmaの log 旦「制約なし」の空間に置く 𝜎෤ = log 𝜎にして， 𝜎を推定，その後𝜎 ෤ = exp 𝜎෤ で戻す換後の事後分 log 換後のイナス対数事後分壁がないので HMCがえるようになる ▌この場合のinitは？様分ではなくなるが，exp(− ) = .13 から exp NULLの場合 𝜎෤ ∼ 𝑈[− , ]ということなので， 𝜎 ∼ exp 𝑈[− , ] 08 マルコフ連鎖モンテカルロ法(3) = 7.389の間の値になる 53

https://mc-stan.org/docs/reference-manual/transforms.html

54.

stanの初期値をもっとレキシブに引数 init 意味期値をどうするかデォ NULL ▌パラメータごとに異なる設定から初期値を作る (init=function()) 1. 期値を作る関数を定義する 𝑁( , ) 𝐺𝑎𝑚𝑚𝑎( ,3) func_init <- function(){ list(mu = rnorm(1,5,2), sigma = rgamma(1,5,3)) } 終的にlist型が与えられる要がる sigma=1などとすることで「あるパラメータは全chainで同じ初期値」という設定も可能 2. 引数initに，義した関数をその与える chainごとにランダムに 1つ初期値を得る result <- model$sample(data=dat_stan, init=func_init) 08 マルコフ連鎖モンテカルロ法(3) 54

55.

stanの初期値をもっとレキシブに引数意味デォ期値をどうするか init NULL ▌初期値を完全に指定する (init=list()) 1. 初期値リスを作ってく list_init <- list( "list of list"形式にする要がる list(mu=0, sigma=1), list(mu=5, sigma=2), list(mu=10, sigma=3), list(mu=-5, sigma=1) ) 2. 引数initに，期値リストをその与える chain ID mu sigma 1 0 1 2 5 2 3 10 3 4 -5 1 listの長さはchainの数と揃える必要あり result <- model$sample(data=dat_stan, init=list_init) 08 マルコフ連鎖モンテカルロ法(3) 55

56.

divergent transition 引数意味デォ adapt_delta HMC法のステップサイズをどう調整してほしいか 0.8 ▌多くのstanユーザーを悩ませるヤツモデルが複雑になってくると，のようなwarningが出ることがりす 1: There were 15 divergent transitions after warmup. Increasing adapt_delta above 0.8 may help. のチューニング Warning: 40 of 4000 (1.0%) transitions ended with a divergence. 更新の回数は同じだとします ▌divergent transitionsとは？が小さい場合 ( ) リープフロッグ法の過程で資料07 p. 76 ハミルトニアンが変な値になること ( ) がきい場合的な位置パラメータ数が多くなると，あるパラメータの事後分が 1ステップの動量と比べて小さすぎることがあり結果的にうまく更新できなくなることがあるようです的な位置高上にいが動がい ( ) は長いが高から離れてしまうことがある 56 実際には各ステップでの算誤差は 08 マルコフ連鎖モンテカルロ法(3) マルコフ連鎖モンテカルロ法 ( ) していくと考えられます

57.

divergent transitionに対応する引数意味デォ adapt_delta HMC法のステップサイズをどう調整してほしいか 0.8 ▌まずはモデをチェック stanコードの書き方次第でこれもstanコードの書き方次第で大幅に改善されることがりす ▌そのうえでステップサイズ 𝜀 を小さくするといってもHMCでは𝜀（とステップ数𝐿）は自動でチューニングされる HMCの採択確率の目標値 (adapt_delta) を高くしたらよい HMC法では，された値を確率 min 1, ∗ ∗ 𝑃 𝜃 ,𝑝 𝑌 𝑡 𝑡 𝑃 𝜃 採択確率を高くするためには，𝑃 𝜃 ∗ , 𝑝∗ 𝑌 の ,𝑝 𝑌 で採択する算の過程の誤差が小さくなれば良いステップサイズ𝜀 が小さくなるようにチューニングしてくれる ※ただし，ステップサイズが小さくなると，ステップ数 𝐿 は大くなるため， 08 マルコフ連鎖モンテカルロ法(3) は増えす 57

58.

結果の再現性引数 seed 意味デォ乱数生成のシード値 NULL result <- model$sample(data=dat_stan, seed=12345) あなたの好きな整数を ▌MCMCは乱数を生成する方法そのため，結果はやるたにわかに変動するこの動の程度を評価するのがモンテ標準誤差（MCSE）でした ▌場合によっては同じ結果を再現したいこともある厳密な結果が求められているとや，オープンサイエンス的な観から ▌ただ，必ず同じ結果になるとは限らない同じseedを指したとしてもOSやcmdstanのバージョンが変われば結果は変わるかもということで，基本的には「自分用」に結果の再現性を担保するものとして考えておくのが良いかもしれません 08 マルコフ連鎖モンテカルロ法(3) 58

59.

３ (cmd)stanの事後処理 08 マルコフ連鎖モンテカルロ法(3) 59

60.

もうあなたは立派なstan い ▌様々な引数によって，必要なサンプリングをうことができるはずです降は，の設によって得られた結果からアレコレしす func_init <- function(){ list(mu=rnorm(1,5,3), sigma=1) } result <- model$sample(data=stan_data, iter_warmup=300, save_warmup=TRUE, parallel_chains=4, init=func_init, seed=12345) ▌後は結果を確認するいろいろな見方を知るだけ【今回の残りは】 bayesplotパッケージによる様々な視化【次回以降は】得られた結果に基づく仮説検やモデル評価の紹介しきれない関数・引数もありますが，詳しくは bayesplotパッケージの公式ページから 08 マルコフ連鎖モンテカルロ法(3) 60

https://mc-stan.org/bayesplot/index.html

61.

レースプッ mcmc_trace(result$draws()) デフォルトでは，すべてのパラメータ（と対数事後 lp__）がすべて表示される lp__も含めてきちんと収束していることを確認しましょう 08 マルコフ連鎖モンテカルロ法(3) 61

62.

レースプッ続き mcmc_trace(result$draws(inc_warmup = TRUE), pars = c("mu"), n_warmup = 300) 特定のパラメータのを見たい場合は，引数parsで指する warmup期間の動きも見たい場合は 1. $sample() にsave_warmup=TRUEをつける 2. $draws() にinc_warmup=TRUEをつける 3. mcmc_trace()の引数n_warmupを指する他の関数もだいたい同じです引数n_warmupは単にプッの背景色をえるだけなので実際にwarmup期間のサンプであるかは問いません 08 マルコフ連鎖モンテカルロ法(3) 62

63.

自己相関 mcmc_acf(result$draws(), pars = c("mu","sigma")) $draws()にinc_warmup=TRUEをつけてしうと， warmup期間のサンプもってしまうので要注意すべてのchainが早い段階で 0に近づいていることを確認ずっと高い場合はモデ修正やthinの調整などが必要になるかも 08 マルコフ連鎖モンテカルロ法(3) 63

64.

収束判定 mcmc_rhat(result$summary()$rhat) 事後分の乱数ではなくそこから直接与える必要がある ෠ 算された𝑅の値を対応値が基準以下であることを確認 08 マルコフ連鎖モンテカルロ法(3) 64

65.

有効サンプサイズ（相対） mcmc_neff(neff_ratio(result)) neff_ratio()関数は「有効サンプサイズと実際の乱数の数の比」を算してくれる関数比が小さすぎないことを確認小さすぎる場合は，自己相関が高いと思われるのでモデ修正やthinの調整などが必要になるかも 08 マルコフ連鎖モンテカルロ法(3) 65

66.

事後分の密度関数 mcmc_dens(result$draws(), pars = c("mu")) $draws()にinc_warmup=TRUEをつけてしうと， warmup期間のサンプもってしまうので要注意すべてのchainから得られたサンプをまとめて作成した事後分布各chainがきちんと同じ分を形成していることを確認したいには… 08 マルコフ連鎖モンテカルロ法(3) 66

67.

事後分の密度関数 mcmc_dens_chains(result$draws(), pars = c("mu")) すべての 08 マルコフ連鎖モンテカルロ法(3) が概ね重なっていることを確認 67

68.

事後分に関するその他のプッ mcmc_hist(result$draws(), pars = c("mu")) mcmc_violin(result$draws(), pars = c("mu")) ヒスグラムバイオリンプッ chainごとに得られた密度関数を「開き」にしたもの 08 マルコフ連鎖モンテカルロ法(3) 68

69.

複数のパラメータをざっと確認したい mcmc_intervals(result$draws(), pars = c("mu","sigma")) すべてのパラメータを同じスケールで表示する異なるスケールのパラメータがると見にくい回帰係数など，同じスケーで比較することに意味がある数同士を選ぶと良いと思います 08 マルコフ連鎖モンテカルロ法(3) 69

70.

複数のパラメータをざっと確認したい mcmc_intervals(result$draws(), pars = c("mu")) muとsigmaを同時に表示すると見にくいので，ここではmuだけ表示してます mcmc_areas(result$draws(), pars = c("mu")) （デフォルトでは）90%区間（デフォルトでは）50%区間（デフォルトでは）50%区間（デフォルトでは）中央値（デフォルトでは）中央値 08 マルコフ連鎖モンテカルロ法(3) 70

71.

複数のパラメータの散図 mcmc_scatter(result$draws(), pars = c("mu","sigma")) 散図なのでちょうど2個のparsを指定する必要がありますァイサイズの都合上，1chain分の表示しています MCMCサンプの相関が高い場合識別できないパラメータが入っていることがあるかも 08 マルコフ連鎖モンテカルロ法(3) 71

72.

shinystan ▌インタラクティブに結果を見たい場合 install.packages("shinystan") library(shinystan) launch_shinystan(result) コードが更新されていないためコンソーに色々とwarningは出るがとりあえずいまのところ動くパラメータ数が増えると重くなるので 08 マルコフ連鎖モンテカルロ法(3) えないけど 72

73.

まとめと次回予告【まとめ】 ▌MCMC法におけるサンプリングの確認の方法が分かりました ෠ トレースプロット，𝑅，効サンプルサイズなどを用いて多角的に認すべし 2024年現在では，posterior, bayesplotパッケージを使えば何とかなる ▌stanでMCMCを実する際の様々な設定が分かりました MCMCの仕組みがわかっていると「何をどうしたら良いか」が見えてす【次回予告】 ▌ イズ学の枠組で，的仮説検定を考えていきます得られた事後分布から仮説の検証を行うためには，どのような手続が要なのか？それをstanでうく行うためにはどうしたら良いのか？ 08 マルコフ連鎖モンテカルロ法(3) 73

ベイズ統計_03_マルコフ連鎖モンテカルロ法(3)

Kyosuke Bunji

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

ベイズ統計_02_確率の基本とベイズの定理

ベイズ統計_01_イントロダクション

ベイズ統計_03_尤度

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

各ページのテキスト