#47 Section3 分析ツール

>100 Views

February 04, 26

スライド概要

機械学習の定番ライブラリといえば『scikit-learn』ですが、本講座で扱う『PyCaret(パイカレット)』は、プロセスの自動化を支援する『AutoML(機械学習自動化)』に対応している点が大きな特徴です。数百行を要するコードを数行に短縮できるため、実装の負担を劇的に軽減できます。

PyCaretは多くのライブラリを内包する『ラッパー』として機能し、その開発思想は『シチズンデータサイエンティスト』の支援にあります。これは、データサイエンスの専門家ではなくとも、営業やマーケティングなどの現場でデータを武器に意思決定や課題解決を行う人材を指します。

これはIPA(情報処理推進機構)が提唱する『データビジネスストラジスト』に近い概念であり、データ活用の民主化を促す重要な役割です。本講座では、PyCaretを活用することで、複雑なプログラミングよりも『ビジネスへの知見の還元』に重きを置いた、実践的なデータ分析手法を習得していきます。

まずは、Pycaretで機械学習の扉を開いてみましょう。

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化(Socialization)からはじめていきます。 下記のブログで、ここにアップしたスライド、動画を随時、公開中です。 【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました!   https://amzn.to/4ryVppn   https://amzn.to/4pGgFb1

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

4th STEP 機械学習 Section 3 分析ツール データサイエンス チュートリアル 1

2.

4th STEP 機械学習 Section3 分析ツール 機械学習を体験するための分析環境 4th STEPでは、PyCaret(パイカレット)を使用して機 械学習を体験していきます。 PyCaretインストールの後、「分類」の場合、次のような段階を 経て最適なモデルで予測を行います。 PyCaretのインポート PyCaretは、Pythonで作られたオープンソースの機械学習 ライブラリであり、機械学習プロセスの自動化を行う 『AutoML』をサポートしています。 他のオープンソースの機 械学習ライブラリでは数百行に及ぶコードを記述する必要が あるところを、PyCaretでは数行に短縮!できます。 PyCaretは、scikit-learn、XGBoost、LightGBM、 CatBoost、spaCy、Optuna、Hyperopt、Ray等の 様々なライブラリのラッパーとして機能します。これは seabornと同様です。 → 『2nd STEP Section 13 どのような集計をして、グラフを描くのか? (#15)』の「スライド7」を参照 前処理 Setup モデルの評価・比較 Compare Models モデルの分析 Analyze Model 予測 Prediction モデルの保存 Save Model データサイエンス チュートリアル 2

3.

4th STEP 機械学習 Section3 分析ツール PyCaretの魅力 驚くほど、短いコード(大抵は1行)で、次の機械学習のワークフローをこなしてくれるのが、 最大の魅力です。 前処理 訓練データとテストデータの分割、欠損値の補完、カテゴリ変数のエンコーディング(規則に 従って別の形式に変換)、特徴量のスケーリング(正規化or標準化)、交差検証等 1行でやってくれる!しかも勝手に最適な方法で。 モデルの評価・比較 10種類以上のモデルの性能評価を1行でやってくれる! しかも、最も良いモデルを選んでくれる モデルの分析 モデル分析(モデルがどのような性質のものか)を1行でやってくれる! データサイエンス チュートリアル 3

4.

4th STEP 機械学習 Section3 分析ツール シチズンデータサイエンティストを目指す The design and simplicity of PyCaret are inspired by the emerging role of citizen data scientists, a term first used by Gartner. 【和訳】 PyCaretのデザインとシンプルさは、ガートナーが初めて使用した用語である『シチズンデータサイエンティスト』と いう新しい役割にヒントを得ています。 『4th STEP 機械学習』は、PyCaretを用いて、この『シチズンデータサイエンティスト』を目 指すために企画しました。シチズンデータサイエンティストにとっては、コードを覚えるよりも、分 析結果をビジネスに活かすことの方が重要です。 営業、マーケティング、財務、 人事などの部門で、先進的な データ分析や予測・意思決定 の機能を活用して機械学習モ デルを構築できる人材 データサイエンス チュートリアル 4

5.

4th STEP 機械学習 Section3 分析ツール 【参考】 日本版シチズンデータサイエンティスト が定める *デジタルスキル標準(DSS)によるデータサイエンティストは、下 記の3つに分類でき、それぞれ右記のグラフのようなスキルセットを要 求しています。 *経済産業省が定めたDX化が求められる現代で求められるスキルや指針 シチズンデータサイエンティストは、データビジネスストラテジストに 近いものです。 ●は、対応する国家資格 データビジネスストラテジスト ● ITストラテジスト試験 ●応用情報技術者試験 ● プロジェクトマネージャ試験 情報処理推進機構が 定めたスキル項目一覧 から、筆者が標準化など を行い算出 データサイエンスプロフェッショナル ● 応用情報技術者試験 データエンジニア ● システムアーキテクト試験 ● 応用情報技術者試験 ● データベーススペシャリスト試験 データサイエンス チュートリアル 5