#48 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート

>100 Views

February 04, 26

スライド概要

本セクションでは、PyCaretを用いた『二項分類(Binary Classification)』の実装手順を解説します。

二項分類とは、データを『陽性・陰性』や『合格・不合格』のように2つのグループに分ける手法です。

1. 環境構築のポイント
学習には公式サイトのチュートリアルをGoogle Colabにコピーして使用します。Colab環境では!pip install pycaret[full]によるフル版のインストールが必要です。多機能ゆえに依存関係で『セッションの再起動』を求められることがありますが、再起動すれば正常に動作します。環境構築にややコツが要る点が普及の壁となっていますが、一度整えば強力な武器になります。

2. データの構造と予測の仕組み
教材の糖尿病データでは、検査値などの『原因』にあたる説明変数から、発症の有無(0または1)という『結果』を示す目的変数を予測します。この変数間の関係性を学習させることで、客観的な予測モデルを構築する流れを体験します。

profile-image

すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化(Socialization)からはじめていきます。 下記のブログで、ここにアップしたスライド、動画を随時、公開中です。 【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました!   https://amzn.to/4ryVppn   https://amzn.to/4pGgFb1

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

4th STEP 機械学習 Section 4 分 類(1) 教材の用意&PyCaretのインストール/インポート データサイエンス チュートリアル 1

2.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート 営業、マーケティング、財務、人事などの事業部門に在籍し、シチズン データサイエンティストを目指すみなさん! ここからいよいよコードの解説に入ります。 業務革新の強力な武器となる機械学習を身に付けていくための第一弾 として、教師あり学習の分類を取り上げます。 今回、PyCaretの公式チュートリアルを教材に選びましたが、PyCaretは 数百行のコードを数行に置き換えることができるローコードライブラリですの で、覚えるコードはそれほどありません。 その代わりに、PyCaretが予測の途中でどのような処理や計算をしている かをしっかりと学んでいきましょう。そのことが、出来上がった予測モデルの 性能を把握することにつながります。 前世はデータサイエンティストだった 猫のタロー データサイエンス チュートリアル 2

3.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのホームページ (1) まずは、教材の準備をしていきます。 PyCaretのホームページから『DOCS』をクリックし、さらに『Tutorials』をクリックします。 https://pycaret.org/ https://pycaret.gitbook.io/docs データサイエンス チュートリアル 3

4.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのホームページ (2) 『Tutorials』にある『Binary Classification』の『Quick start』の部分を今回の教材にします。 『Binary Classification』は、 の一種で、各データを2つのカテゴリーに分類するもの です。日本語では、『二項分類』と呼びます。 二項分類は、次のような場合に使われます。 1.臨床検査で患者が特定の疾病に罹患している か否かで分類する 2.ある製品が出荷できる品質か、それとも捨てるべ きかの判断 3.あるページや記事を検索結果に含めるか否か 4.メールがスパムかどうかを判定する データサイエンス チュートリアル 4

5.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのホームページ (3) 『Colab』をクリックすると、『Google Colaboratory(以後「Colab」と省略)』の『Tutorial - Binary Classification』と いう名前のノートブックが現れます。この状態では、まだGoogleドライブに保存されているわけではありませんので、『ドライブにコ ピー』をクリックします。 これで、教材の準備は完了です。 データサイエンス チュートリアル 5

6.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのインストール/インポート (1) この教材では、既にコードが書いてありますから、それを見ていきながら、何をやっているのか理解していきましょう! Colabには、PyCaretがインストールされていませんので、先ずはPyCaretをインストールしましょう。通常の『!pip install paycaret』では、すべてのものをインストールすることはできません。 paycaretに続けて[full]を書くとフルバージョンをイン ストールすることができます。 『!pip install paycaret[full] 』を記入 その後、実行します。 結構なパーツが含まれていますから、数分待つことになります・・・ データサイエンス チュートリアル 6

7.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート PyCaretのインストール/インポート (2) ColabでPyCaretをインポートすると、数分経過してから下記のように『セッションを再起動する』とのアラームが出てきます。 Colabは最新に近いパーツで動いていますが、PyCaretはその最新のパーツに対応していないためです。 でも、ご安心を! 『セッションを再起動する』をクリックして、再起動すれば、PyCaretは問題なく稼働します。 とは言え、2024年に入ってから3度のマイナー チェンジをしているので、PyCaretの進化が追 いつく努力は続けれらています。 Release情報 https://github.com/pycaret/pycaret/releases PyCaretは、非常に多くのパーツから成り立っ ているため、分析環境を構築するために多く の努力が必要とされます。これが、いまいち普 及が進まない原因です。解説本も少ない! 通常は、『python3 virtualenv』、『Anaconda』等を 使って、仮想環境を作ります(ここでは割愛します)。 データサイエンス チュートリアル 7

8.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート 分析データを読み込む 次に分析するデータを読み込みます。 PyCaretには、『diabetes』という糖尿病患者の検査、診断データが入っていますので、それを下記のようなコードで読み込み、 表示させます。得られたデータを『data』と宣言しています。データの詳細は、次ページで解説します。 データサイエンス チュートリアル 8

9.

4th STEP 機械学習 Section4 分類(1) 教材の用意&PyCaretのインストール/インポート データ「diabetes」の詳細 経口ブドウ糖負荷試験における 2時間後の血漿グルコース濃度 妊娠回数 拡張期血圧 上腕三頭筋の皮下脂肪厚 説明変数 目的変数 (予想するモノ) BMI=体重(kg)/身長(m)2 BMI 糖尿病家系機能 年齢 クラス変数 1:糖尿病診断陽性 0:糖尿病診断陰性 2時間血清インスリン 糖尿病家系指数 人の年齢と家族歴に基づいて糖尿病を 発症する可能性を推定する指数。高い ほど、糖尿病を発症する可能性が高くな ります。 データサイエンス チュートリアル 9