Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習 - 授業概要

機械学習 - 授業概要

Y. Yamamoto

April 14, 2025
Tweet

More Decks by Y. Yamamoto

Other Decks in Science

Transcript

  1. ⼈⼯知能(AI) 人工知能 強いAI 弱いAI (Artificial Intelligence) ⼈間のような⾃意識と知能をもって 作業が可能な機械 ⼈間の知的処理の⼀部を模倣する 特定問題に特化した問題解決器

    ・ 現在行われているAI研究の大半は弱いAIの研究 参考:⼈⼯知能研究(https://www.ai-gakkai.or.jp/whatsai/AIresearch.html) ・ 強いAI研究の成果(e.g. 推論)も人間の知能には遠く及ばず 7
  2. AI画像解析による乳がんの早期予測(リスク評価) AI が乳がん化を予測 実際にガン化 ⽂献: McKinney, S.M., Sieniek, M., Godbole,

    V. et al. International evaluation of an AI system for breast cancer screening. Nature 577, 89‒94 (2020). 画像出典: https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507 マンモグラフィ検診は,⼈間でも判定が難しいので,AI⽀援は がん予測の精度向上と⼈間の作業負荷の削減につながる 9
  3. Predictive Policing:犯罪発⽣の事前予測 犯罪が発生する前に、犯罪現場に警察官を送り込む http://www.nytimes.com/2011/08/16/us/16police.html?_r=0 • 米国サンタクルーズ市警と UCLAとの共同研究 • 犯罪の種類や発生時間、 発生場所などのデータから

    犯罪発生予測モデルを構築 - 犯罪レポート1万1000件/年 - 電話通報記録10万5000件/年 http://itpro.nikkeibp.co.jp/atcl/watcher/14/334361/080100020/?ST=bigdata&P=2 • 電子化された犯罪レポート 11
  4. あらゆる分野で応⽤され始める機械学習 農業 医療 交通 製薬 観光 防災 気象 広告 流通

    教育 ICT スポーツ 報道 効率化・コスト削減 & 新しい価値の創造 機械学習への期待 アパレル 法律 デザイン 公共政策 12
  5. ⼈⼯知能の研究(技術)トピック 人工知能 推論 探索 機械学習 知識表現 … 教師あり学習 教師なし学習 強化学習

    ・クラスタリング ・データ圧縮 ・分類 ・回帰 ・順序回帰 … 機械学習 17 …
  6. 機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 学習フェーズ 18
  7. 機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ 19
  8. 教師あり学習(1/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム ◦◦の識別に必要となる 特徴と分類ルール

    画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで, 長く伸びた白いヒレ. 白い体に2本の黒い帯. 背びれが黄色い. これは「ハタタテダイ」 大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する 22
  9. 教師あり学習(2/2) ふぐ ブリ 鯛 鰹 大量のラベル付データ 機械学習 アルゴリズム 画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html

    大量のラベル(答え)付データを与えて ラベルを分類する特徴とルールを抽出(学習)する (予測だけが⽬的なら) ⼈間が理解できる必要はない ◦◦の識別に必要となる 特徴と分類ルール 24
  10. 機械学習がやっていること 26 ! (特徴) 結果 = データの特徴と結果の対応関係を見つける モ デ ル

    未知データの結果を予測するために If-thenルール ニューラルネットワーク (⾏列) Pr($, &; (, )) 確率モデル
  11. 機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ 29
  12. 機械学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルがない) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ ? 機械学習のミソ データの特徴を捉えた & 汎用的に 使えるモデルをどう学習するか? 30
  13. 講義のトピック 機械学習 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 …

    … 34 発展的内容 ・⼀般化線形モデル ・カーネル法 ・ガウス回帰 ・ニューラルネットワーク ⼭本担当 ⼩⼭先⽣担当 …
  14. 機械学習技術のコアは数学であるが 㻚㻜㻜㻓㻔 㻔㻜㻜㻜㻓㻚 㻕㻓㻓㻓㻓㻔 㻕㻓㻓㻓㻓㻚 㻕㻓㻓㻔㻓㻔 㻕㻓㻓㻔㻓㻚 㻕㻓㻓㻕㻓㻔 㻕㻓㻓㻕㻓㻚 㻕㻓㻓㻖㻓㻔

    㻕㻓㻓㻖㻓㻚 㻕㻓㻓㻗㻓㻔 㻕㻓㻓㻗㻓㻚 㻕㻓㻓㻘㻓㻔 㻕㻓㻓㻘㻓㻚 㻕㻓㻓㻙㻓㻔 㻕㻓㻓㻙㻓㻚 㻕㻓㻓㻚㻓㻔 㼗㼌㼐㼈 crease and decrease in the number of ncerning a fact that a common-sense fact is found on the ase in a similar manner as time passes. The and expired states are represented by a uni- ibution. In total, the temporal distribution nce of a statement on the Web is modeled as ibution. matical formulation is as follows. We repre- Recognition Model using a mixture distribu- ans the probability that web page about a be created at time t. It is expressed as a lin- n of a Gaussian distribution N(t; µ, σ2) with an exponential distribution f(t) with weight = α1N(t; µ, σ2) + α2f(t) (1) i: index for distributions (i ∈ {1, 2}). αi : weight for distribution i. λ: parameter for the exponential distribution. µ: mean vector for the Gaussian. σ2: variance for the Gaussian. φi: parameter vector (αi, λ, µ, σ2). pi(xk |φi): probability of xk by distribution i. Φ: parameter vector for the mixture model. p(xk |Φ): probability of xk by the mixture model. select initial estimated parameter vector Φ until Φ converges to Φ do Φ ← Φ for each i do initialize Ψi , Mi , Si for each k do ψik ← αipi(xk|φi) p(xk|Φ) Ψi ← Ψi + ψik Mi ← Mi + ψik xk if i = 1 then Si ← Si + ψik (xk − µ)2 αi ← Ψi n if i = 1 then µ ← Mi Ψi , σ2 ← Si Ψi if i = 2 then λ ← − Ψi Mi return Φ   This algorithm is based on the calculation in Appendix A. 数理的内容の学習は,初学者にはハードルが高い 35
  15. 最近のツール事情 # Python 1 import sklearn.ensemble.GradientBoostingClassifier as GBDT 2 data

    = pd.read_csv(“data.csv”) 3 model = GBDT() 4 model.fit(data) ほとんど何も書かなくても動くので便利 中身も理解せず,正しく動かせているか分からず 利用しているユーザ(学生)が多い 36
  16. 講義の⽬標(⼭本担当パート) 機械学習 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 …

    本講義の学習目標 • 代表的な機械学習がどのように動くかを直感的に理解する • 既存ライブラリを使い例題に対して機械学習を適用できる … 38 (山本担当パート)
  17. 講義計画 39 回 実施⽇ トピック 1 04/14 ガイダンス 2 04/21

    pandas⼊⾨ 3 04/28 決定⽊からはじめる機械学習 4 05/12 クラスタリング1:k-means & 階層的クラスタリング 5 05/19 クラスタリング2:密度ベースクラスタリング 6 05/26 分類1:K近傍法 & 教師あり機械学習のお作法 7 06/02 分類2:サポートベクターマシン 8 06/09 分類3:ニューラルネットワーク⼊⾨
  18. 講義計画(⼩⼭先⽣担当会) 40 回 実施⽇ トピック 9 06/16 ⼀般化線形モデル 10 06/23

    半正定値カーネル 11 06/30 ⾮線形サポートベクトルマシン (オンデマンド遠隔講義) 12 07/07 ガウス過程回帰 13 07/14 多層ニューラルネットワーク (オンデマンド遠隔講義) 14 07/21 誤差逆伝搬法 (オンデマンド遠隔講義) 15 07/28 最近の機械学習の話題
  19. 講義スタイル(⼭本担当パート) Hands-onデモ with Python 0:00 1:30 0:50 座学 機械学習技術の 適⽤体験

    機械学習の理論や ⼿法の直感的理解 (数学的にもフォローする) (⾼度なプログラミングスキルは不要) 42
  20. 今後の予定 49 回 実施⽇ トピック 1 04/14 ガイダンス 2 04/21

    pandas⼊⾨ 3 04/28 決定⽊からはじめる機械学習 4 05/12 クラスタリング1:k-means & 階層的クラスタリング 5 05/19 クラスタリング2:密度ベースクラスタリング 6 05/26 分類1:K近傍法 & 教師あり機械学習のお作法 7 06/02 分類2:サポートベクターマシン 8 06/09 分類3:ニューラルネットワーク⼊⾨