>100 Views
February 04, 26
スライド概要
今まで、「ビッグデータの読み込みとデータの確認」、「集計とグラフ描画」、オープンデータのWebスクレイピングやデータ整形を学ぶための「応用編 医療」を学習してきたみなさま。
ここからは、いよいよ4th STEPである「機械学習」に進んでいきます。
データサイエンティストとしてのリスキリングにおいて、機械学習を習得し実装できる能力は強力な武器となります。その必要性を理解する鍵が、データを価値へ変えるフレームワーク『DIKWモデル』です。
このモデルは、以下の4つの階層で構成されます。
●データ:単なる数字や記号の集まり(例:テストの答案用紙)。
●情報:集計や可視化により整理された状態(例:平均点や偏差値)。
●知識:機械学習等を用いて規則性や予測を導き出した状態。進路予測など、一歩踏み込んだ見解を得るために機械学習が必要不可欠となります。
●知恵:知識を基にした問題解決能力や判断力。これは現状、人間にのみ備わっている能力です。
本モデルで分析のステップを整理すると、「データがあるから何か分析せよ」という曖昧な指示の矛盾が浮き彫りになります。こうした状況を適切に判断し、対処する力こそが、実社会における「知恵」と言えるでしょう。
すべてのビジネスパーソンが意思決定プロセスにデータを活用する思考を身につけるため、まずは、データサイエンスの分析を体験していきましょう。SECIモデルの最初の段階、共同化(Socialization)からはじめていきます。 下記のブログで、ここにアップしたスライド、動画を随時、公開中です。 【ブログ】https://tutorial4datascience.blogspot.com/ 【Youtubeチャンネル】https://www.youtube.com/@DataScience_for_everyone 【Kindle】そして、このブログをまとめて書籍にしました! https://amzn.to/4ryVppn https://amzn.to/4pGgFb1
データサイエンス チュートリアル 4th STEP 機械学習 Machine Learning
4th STEP 機械学習 Section 1 機械学習がもたらすもの データサイエンス チュートリアル 2
データサイエンス チュートリアル 次は、機械学習やります! 1st STEP ビッグデータの読み 込みとデータの確認 4th STEP 機械学習 2nd STEP 集計とグラフ描画 3rd STEP 応用編 医療 データサイエンス チュートリアル 3
データサイエンスのステップ DIKWモデル 【出典】 DIKWモデルとは? データをDXや経営に生かすために必要 な「昇華」って? https://data.wingarc.com/dikwmodel-37279 DIKWモデル Data ① データ 数値や実験結果、文章、音声、動画 など人間の解釈の素材となるものすべて 購入された日時、消費者の性別、商品が購入され た個数など登録されたデータすべて データを整理・分析し、解釈できるよう にしたもの Excelやデータベースにて整理され、グラフ・図の作 成やフィルタリングが可能になったデータ 情報を通してデータや情報、体験を通 じて得られた理解やノウハウ 水曜日の7:00-9:00には、30-40代の男性により 商品Aが購入される傾向にある→水曜日朝には 30-40代男性向けの商品在庫を増やすとよさそう Information ②情 報 Knowledge ③知 識 Wisdom ④知 恵 知識を深く体得することで身につく、普遍 的な問題解決能力や発想力 POSデータの中でも〇〇という箇所に注目すべき/ ミドル層の男性には全国的に〇〇への需要が高い /特定のデータに注目し過ぎず、他と掛け合わせて 検証した方が良い 4 データサイエンス チュートリアル
データサイエンスのステップ ① データ ① データ 単なる数字や記号の集まり 1学期中間試験 数学 国語 77 佐藤 亮太 英語 89 45 英語 数学 70 85 数学 67 山本 美咲 92 国語 55 数学 国語 85 伊藤 大輝 データサイエンス チュートリアル 55 英語 鈴木 すず 数学 90 90 国語 鈴木 すず 田中 誠一郎 伊藤 大輝 佐藤 亮太 88 伊藤 大輝 田中 誠一郎 鈴木 すず 国語 英語 89 山本 美咲 山本 美咲 英語 65 佐藤 亮太 田中 誠一郎 5
データサイエンスのステップ ② 情報 ②情 報 データを分類や集計して意味を持つようにしたもの グラフ DataFrame 氏名 佐藤 亮太 伊藤 大輝 山本 美咲 田中 誠一郎 鈴木 すず 数学 77 85 67 90 55 国語 70 85 90 89 55 英語 65 88 89 92 45 データの要約 氏名 田中 誠一郎 伊藤 大輝 山本 美咲 佐藤 亮太 鈴木 すず 数学 90 85 67 77 55 国語 89 85 90 70 55 英語 92 88 89 65 45 計 271 258 246 212 155 要約統計量 氏名 佐藤 亮太 伊藤 大輝 山本 美咲 田中 誠一郎 鈴木 すず 数学 62.1 58.1 43.8 51.7 34.3 国語 58.3 55.3 59.1 44.2 33.1 英語 58.9 56.7 57.3 44.1 33.0 偏差値 60.2 57.1 54.2 46.1 32.4 データサイエンス チュートリアル 6
データサイエンスのステップ ③ 知識(1) 2学期中間試験 1学期中間試験 1学期期末試験 データが増加するにつれて… 次の点数を予測 文系・理系に分類 データサイエンス チュートリアル 知識 7
データサイエンスのステップ ③ 知識(2) ③知 識 情報から規則性や見解などを導き出したもの AI 機械学習 ルールベース (エキスパートシステム) 遺伝的アルゴリズム 教師あり学習 教師なし学習 強化学習 データサイエンス チュートリアル 深層学習 (ディープラーニング) 8
データサイエンスのステップ ④ 知恵(1) ④知 恵 人 間 問題解決能力や発想力 強いAI データサイエンス チュートリアル まだ実用化されていない 9
データサイエンスのステップ ④ 知恵(2) 身体性人工知能は現実からの情報を直接人工知能に取り込もうとしたが、言語の基盤モデルの成功が明らかにしたことは、人 工知能に学ばせるべきだったのは現実の情報そのものではなく、人間の脳というフィルターを通して言語化された情報のほうだった、 ということである。 失 敗 現実世界 の情報 学習 成 功 人間の脳が 作った言語 学習 ChatGPT データサイエンス チュートリアル 10
データサイエンスのステップ DIKWモデル Data データ Information 情 報 Knowledge 知 識 単なる数字や記号の集まり 購入された日時、消費者の性別、商品が購入され た個数など登録されたデータすべて データを分類や集計して 意味を持つようにしたもの Excelやデータベースにて整理され、グラフ・図の作 成やフィルタリングが可能になったデータ 情報から規則性や見解など を導出したもの 水曜日の7:00-9:00には、30-40代の男性により 商品Aが購入される傾向にある→水曜日朝には 30-40代男性向けの商品在庫を増やすとよさそう Wisdom 知 恵 知識を活用して判断したもの POSデータの中でも〇〇という箇所に注目すべき/ ミドル層の男性には全国的に〇〇への需要が高い /特定のデータに注目し過ぎず、他と掛け合わせて 検証した方が良い 11 データサイエンス チュートリアル