>100 Views
February 13, 26
スライド概要
2026年2月12日に若手AWS会で発表した資料です。
阿部健太郎
>100
若手AWS なんでもLT会 #2 機械学習ミリしらがやる SageMaker Canvasの予測精度検証 2026/2/122025/09/30 阿部健太郎 あべけん@食パン
自己紹介 名前:阿部健太郎(食パン) 年次:社会人3年目 業務:ポータルサイトの保守運用 @Plainbread2009 @Plainbread2009 好きなサービス:Step Functions @Plainbread2009 2
今回話すこと、話さないこと 話すこと ・SageMaker Canvasを使ったモデルの予測精度 モデルの精度を確認するだけなので、 中身のアルゴリズムには触れない 話さないこと ・SageMaker Canvasの使い方 ・機械学習の細かい話(パラメータ、特徴量) 3
目次 ・自己紹介 ・話すこと、話さないこと ・SageMaker Canvasってなに? ・予測する対象の物について(オゾン) ・各種入力データ ・精度検証 ・まとめ 4
SageMaker Canvasとは ・SageMaker(Studio) 機械学習モデルの構築・学習・デプロイを一括で行えるサービス コードベースで高度なカスタマイズが可能 ・SageMaker Canvas ノーコードで機械学習モデルを作成・予測できるサービス GUIベースで操作でき、専門知識が少なくても利用できる 特徴 SageMaker Studio Sagemaker Canvas 操作方法 コードベース(Pythonなど) ノーコード(GUI) 柔軟性 高い(細かい制御が可能) 低め(簡単に使えるが制限あり) 学習・予測 自由に設定可能 自動で最適化される 利用シーン 本格的なML開発 手軽な予測・分析
エージェント時代に何故SageMaker Canvas ①数値予測には生成AIまだ向かない ・正確な数値確認などには不向き ・異種データの統合に不向き ・解釈と検証可能性に課題 ②大学院の研究 模擬的に大気を再現した物理モデルの検証 このモデルは計算量が大きく、短期間の予測× MLによる予測がトレンド 6
光化学オキシダント(Ox) 光化学オキシダント(Ox)は二次汚染物質 二次汚染物質:大気中において、化学変化によって生成される 発生源が特定しにくい。 Oxは以下のような問題 ①環境基準達成率が0.2%(2020年) 早急な対策がもめられている ②健康被害があるため大気汚染防止法で 注意報や警報が定義。 実測が基準値を超えてから発令されるため、回避が難しい 出典:環境省・文部科学省 ECO学習ライブラリーより 既存のモデルは短期的な予測は難しい! SageMaker Canvasで予測を試してみる 7
モデル入力データ 環境展望台(https://tenbou.nies.go.jp/) 大気汚染常時監視データ 対象年度:2017-2019年(7-8月) 対象地点:埼玉県(川越、鴻巣) 対象物質:OX(n),OX(n+1),NO,NO2,NOX,SO2 気象データ:風速、風向、気温、湿度 元々の濃度+原因物質+気象条件 =一時間後のOx濃度を予測する 8
TOP画面 Datasets 9
モデルの作成画面 Buildを押したら 実行される Quickbuild:短時間でモデル作成 Standardbuild:精度が高い 10
予測結果比較(鴻巣) 比較期間は2017年7/21 9:00から7/25 8:00 ーSageMaker ー大気質モデル 濃度 (ppb) ・観測値 時刻(h) 機械学習モデルは低濃度帯での再現性が高い 23日の高濃度イベントはどちらも過少評価 11
予測結果比較(川越) ーSageMaker ー大気質モデル ・観測値 濃度 (ppb) 時刻(h) かなりの再現度を確認 23日の高濃度イベントはやはり過少評価 12
4パターンの比較を実施 MB(Mean Bias) 予測の平均的なズレ量を表す指標 予測結果と実測が10,-10外れてると0になる NMB(Normalized Mean Bias) 予測が全体的にどちらにどれくらいズレているか どれくらいずれているかを値ではなく%で表現 13
4パターンの比較を実施 RMSE(Root Mean Square Error ) 誤差の大きさをまとめてどれだけ外しているか 予測結果と実測が10,-10外れてると10になる R2(決定係数) どれだけよく説明・再現できているかの指標 1に近いほどよい。 14
比較結果(川越) 大気質モデル 機械学習モデル MB 9.0ppb -0.005ppb NMB 23% -0.01% RMSE 22.71ppb 6.6ppb 0.38 0.94 R2 精度が高すぎる。過学習を疑うレベル 15
比較結果(鴻巣) 大気質モデル 機械学習モデル MB 8.5ppb 0. 5ppb NMB 26% 2% RMSE 17.9ppb 7.3ppb 0.66 0.92 R2 川越と同様に過学習の可能性も否めない ミリしらでデータをただ入れただけでこの精度 16
まとめ ・AutoMLを用いたモデルでも十分な精度 ・説明変数が既に既知であったため、 完全未知の予測にも有効化は今後検証が必要 ・過学習の可能性を棄却出来ない為、 別年度の予測も今後行っていく必要がある ・特異な高濃度イベントは過少評価 ここら辺はML自体の課題感かと考える ・手軽に数値予測の検証が可能 17
おまけ 物理モデルでも十分な精度と傾向はみられる 今後はMLやLLMが組み込まれて進化していく? 18
宣伝 じゃあこのモデルをどうアプリに組み込むのか って話をやる予定です。(希望的観測) 19
ご清聴ありがとうございました 20