生成AIによる多変量解析の実装:主成分分析によるMLB選手の打撃特性分析_20250916

>100 Views

September 19, 25

スライド概要

profile-image

Generative Ai Study Group Master

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

生成AIによる多変量解析の実装: 主成分分析によるMLB選手の打撃特性分析 【産総研AITeC「Generative AI Study Group第54回」】 産総研人工知能技術コンソーシアム(AITeC) 新井 崇弘 (多摩大学)

2.

本オンラインハンズオン視聴に際しての注意点 • 生成AIを全く使用したことがない方 • Python・Rなどのプログラミング言語による実装を行ったことがない方 ⇒今回のハンズオンに追いつくのが難しい場合があるため、無理に手許で実 装する必要はありません。 今回のハンズオンの目的 • 生成AIを用いた実装ステップについて、おおよそイメージをもっていただくこと が一番の目的

3.

大谷翔平選手のバッティングに注目してみよう 出所: https://baseballsavant.mlb.com/savant-player/shohei-ohtani-660271?stats=gamelogs-r-batting-statcast&season=2024

4.

大谷翔平選手の強さの秘密とは

5.

打席データ(変化球、打球速度、飛距離・・・)

6.

全試合・全打席のデータが格納されている 出所: https://baseballsavant.mlb.com/savant-player/shohei-ohtani-660271?stats=gamelogs-r-batting-statcast&season=2024

7.

データは以下のURLから各自ダウンロードしてみてください データの配布はしておりませんので、ご了承ください。 URL: https://baseballsavant.mlb.com/savant-player/shohei-ohtani660271?stats=gamelogs-r-batting-statcast&season=2024

8.

選手のパフォーマンスをどう評価するか 出所: https://mainichi.jp/articles/20240919/k00/00m/050/346000c 出所: https://www3.nhk.or.jp/news/html/20250914/k10014922451000.html

9.

すべての変数から選手のパフォーマンスを評価したい •PA (Plate Appearances): 打席数。バッターが打席に立った回数。 •AB (At Bats): 打数。バッターが実際に打撃結果が記録された回数(四球や死球は含まれない)。 •H (Hits): 安打数。バッターがヒットを打った回数。 •1B (Singles): シングルヒット数。バッターが1塁打を打った回数。 •2B (Doubles): ダブルヒット数。バッターが2塁打を打った回数。 •3B (Triples): トリプルヒット数。バッターが3塁打を打った回数。 •HR (Home Runs): ホームラン数。 •SO (Strikeouts): 三振数。バッターが三振でアウトになった回数。 •BBE (Batted Ball Events): 打球イベント数。バッターがボールをバットでとらえた回数。 •BA (Batting Average): 打率。ヒット数を打数で割った割合。 •SLG (Slugging Percentage): 長打率。全打数に対して打者がどれだけ多くの塁を稼いだか。 •WOBA (Weighted On-Base Average): 加重出塁率。打撃成績の貢献度を評価。 •EV (Exit Velocity): 打球速度。バッターがボールを打った際の初速。 •LA (Launch Angle): 打球角度。打球の地面からの角度を表す。 •Whiff% (Swing and Miss Percentage): 空振り率。スイングしたうち、ボールに当たらなかった割合。

10.

機械学習(多変量解析) 機械学習:コンピュータがデータから学習して、未来の予測や意思決定 に役立つアルゴリズムを生成する技術。たとえば、過去のデータを基に、 天気予測や画像認識、音声認識など、さまざまな分野で使用されている。 ⇒データの特徴、何らかの法則性、隠れたパターンを見つけて、それらを 実課題の解決へつなぐ。 • 回帰モデル • クラスタリング、分類 • 主成分分析など 今回は主成分分析を使って分析を試してみましょう

11.

主成分分析(Principal Component Analysis) • 高次元データの次元を減らし、重要な特徴だけを抽出して、情報をシンプルにする • 人間にはわからなかったような新しい指標(主成分軸)を構築する 古代ゲノムデータの分析 Svante Pääbo 出所: https://www.oist.jp/ja/image/svante-paabo 出所: https://pmc.ncbi.nlm.nih.gov/articles/PMC6258758/

12.

データのバラつきから軸(重要な指標)を作る y x

13.

データのバラつきから軸(重要な指標)を作る 一つの特徴量(主成分)を取り出してく(次元縮約) 分散が最大になる軸z1を見つける y Z1 x 対象を識別する最も有力な軸をつくる(弁別性)

14.

データのバラつきから軸(重要な指標)を作る 分散(データのバラつき)が最も高い順か ら、主成分1、主成分2、主成分3・・・ 分散が最大になる軸z1を見つける y Z1 Z2 x

15.

次元縮約 主成分分析のパス図 H (Hits) 1B (Singles) 2B (Doubles) 3B (Triples) HR (Home Runs) 元のP 個の変数(X1, X2, …, Xp)から、情報の損失を最小限に抑えるように線形結 合を行い、 新たなP 個の独立した主成分(Z1, Z2, …, Zp)を生成

16.

(再掲)バッティングデータ •PA (Plate Appearances): 打席数。バッターが打席に立った回数。 •AB (At Bats): 打数。バッターが実際に打撃結果が記録された回数(四球や死球は含まれない)。 •H (Hits): 安打数。バッターがヒットを打った回数。 •1B (Singles): シングルヒット数。バッターが1塁打を打った回数。 •2B (Doubles): ダブルヒット数。バッターが2塁打を打った回数。 •3B (Triples): トリプルヒット数。バッターが3塁打を打った回数。 •HR (Home Runs): ホームラン数。 •SO (Strikeouts): 三振数。バッターが三振でアウトになった回数。 •BBE (Batted Ball Events): 打球イベント数。バッターがボールをバットでとらえた回数。 •BA (Batting Average): 打率。ヒット数を打数で割った割合。 •SLG (Slugging Percentage): 長打率。全打数に対して打者がどれだけ多くの塁を稼いだか。 •WOBA (Weighted On-Base Average): 加重出塁率。打撃成績の貢献度を評価。 •EV (Exit Velocity): 打球速度。バッターがボールを打った際の初速。 •LA (Launch Angle): 打球角度。打球の地面からの角度を表す。 •Whiff% (Swing and Miss Percentage): 空振り率。スイングしたうち、ボールに当たらなかった割合。

17.

新しい指標 PC1 PC2 PC3・・・(スクリープロット;累積寄与率) ここの数字は 主成分軸一つで、データの何割を説明することができているかを示す

18.

新たな指標の解釈 PC1 PC2のバイプロット 因子負荷量(主成分と各変数との相関係数) 因子負荷量が1か-1に近いほど、主成分に強く寄与しているといえる 空振り率 長打率 本塁打数 打球角度 長打力 多くの変数が順相 関している 総合力(打撃指数)

19.

各主成分の解釈(抜粋) あくまでこれらの出力が絶対に正しいわけ ではなく、主成分の特徴を解釈するうえで の参考・ヒントとして利用する

21.

PC1の時点変化

22.

PC2の時点変化

23.

PC1とPC2の時点変化 カラーパレットを使用することも可能 ⇒ https://hue360.herokuapp.com/

24.

PC1とPC2の時点変化

25.

今回はクラスタリング分析を行ってみる

26.

改めて主成分分析について 主成分分析のパス図 バッティングに関するデータ Month / Pitch # % PA AB H Year Type All 202409 Pitch 116 100 26 24 es All 202408 Pitch 477 100 126 115 es All 202407 Pitch 434 100 106 91 es All 202406 Pitch 483 100 118 99 es All 202405 Pitch 397 100 104 93 es All 202404 Pitch 595 100 149 131 es 1B 2B 3B HR SO BBE BA XBA SLG XSLG WOB XWO EV A BA Whiff PutA % way% LA 5 3 0 1 1 9 15 0.208 0.236 0.417 0.475 0.294 0.328 99.5 23 34.5 23.1 27 11 2 2 12 26 91 0.235 0.279 0.4 94.3 22 27.1 19.5 26 11 7 2 6 33 58 0.286 0.289 0.604 0.65 0.418 0.434 97.1 17 37.1 29.5 29 13 4 0 12 26 74 0.293 0.311 0.697 0.684 0.451 0.454 97.7 16 29 18 3 1 7 22 71 0.312 0.323 0.591 0.618 0.415 0.428 94.1 9 29.7 44 22 14 1 7 28 105 0.336 0.36 0.618 0.697 0.427 0.476 94.4 13 23.8 17.5 0.6 0.627 0.364 32 18.3 20 元のP 個の変数(X1, X2, …, Xp)から、情報の損失を最小限に抑えるよう に線形結合を行い、 新たなP 個の独立した主成分(Z1, Z2, …, Zp)を生成 さらに主成分得点(各対象の各主成分上でのスコア)を用いて クラスタリングを行う

27.

主成分得点を使用したTwo-wayクラスタリングについて デンドログラムによるグラフ描画 階層的クラスタリング • • ここでは、a,b,c,d,eが各データポイント(レコード)を示している 今回は、ウォード法・ユークリッド距離を指定 ここでは、あくまで各データポイントの類似性に基づ くクラスタリング。つまり、年ごとの活動パターンがど のように似ているかまでを把握することは難しい ダブルデンドログラムを用いて行と列のクラスタリングを同時に行う (例)横軸に主成分、縦軸に年(主成分得点の平均値を使用)を配置し、双方向 の類似性をヒートマップで確認し、特定のパターンを発見することが可能

28.

k-means法を用いたクラスタリング k-means法による流れ(濃色は代表点) 今回は、①k-means法を用いたクラスタリングの実装 次に、②Two-wayクラスタリングの実装

29.

同様に(ダブル)デンドログラムのソースコードを生成させる

30.

PC5:打球速度の安定性 (ヘビーヒッティング) PC7:ランニングを含むヒッティング(走 塁スタイルの変化) PC9:シングルヒット安定性 (確実に塁を進めるスタイルへ変化) 2021年2023年と後半になる につれ長打力が向上 2021年以降から 打撃指数が上昇している 2018年から2019年まで は打撃成功率を重視

31.

ダブルデンドログラムの解釈 グラフをそのまま添付 して解釈のヒントを聞 くことも可能

32.

まとめ • 生成AIを活用しながら進めることで、複雑な分析手 法を実装することが可能となる。 • 課題意識や目的意識(やりたいことがあるかないか スキル(偏差値) )がこれからの生成AI時代の勝負を決するのではな いかと思われる。 • 得られた分析結果をどのように解釈・活用するかと いう点は未だ残る、データの背景や特性を理解し、 結果を現実の課題や状況に結びつけることが必要。 ない人 創造力 (やりたいこと) ※ただし 最低限のスキルは必要! ある人

33.

フィギュアスケートにおけるデータサイエンス 出所: https://ameblo.jp/babemama2015/entry-12686288869.html Hirosawa, S., Watanabe, M., & Aoki, Y. (2022). Determinant analysis and developing evaluation indicators of grade of execution score of double axel jump in figure skating. Journal of Sports Sciences, 40(4), 470-481. https://doi.org/10.1080/02640414.2021.1997407

34.

プレイヤーや控え選手(ベンチ)だけでなくベンチ外も花形へ 出所: https://www.yomiuri.co.jp/sports/koshien/summer/20230827-OYT1T50067/

35.

スポーツ領域におけるデータサイエンスのニーズの高まり 出所: https://www.softbankhawks.co.jp/news/detail/202400637726.html 出所https://www.seibulions.jp/news/detail/202400482520.html

36.

今回お話した生成AIを用いた主成分分析の実装はこちらにわかりやすく記載しております アマゾンから検索ください https://x.gd/3ZjJj ※ちなみにレビューで有料版じゃないと利用できないと書いてありますが、現在は無料版でも(おそらく)利用 可能です。