AI研修【MIXI 25新卒技術研修】

©MIXI 2025年新卒AI研修

©MIXI 2 講義の目的本講義ではArtiﬁcial Intelligence (AI) と呼ばれる技術の中で、機械学習(Machine Learning; ML)に
フォーカスして、以下のことを学びます • 何ができるか • 何が必要か • どのように動いているのか • サービスとどのように繋げるか

©MIXI 3 講義の目的と言っても、1日で時間が足りるわけがありませんあれに使えるかもしれない！自分から触ってみよう！と壁を取り払えることが一番の目的です

©MIXI 4 講師の自己紹介宮脇祐太 / みやわきゆうた/ 職種：MLエンジニア開発本部たんぽぽ室AIモデリンググループ
前職 - 競馬・ボートレースの予想AIの開発 - 新聞の朝刊1面に予想掲載 MIXI - 2020年1月ミクシィ（現 MIXI）入社 - 社内・グループ内のサービスに横断的にAI導入 - TIPSTAR・netkeiba・minimo・mixi2・MIXI M 釣りが趣味

©MIXI 5 講師の自己紹介木内貴浩 / きのうちたかひろ / kittchy
職種：MLエンジニアみてね事業本部みてねプロダクト開発部 Data Engineeringグループ学生時代 - 大学院で音声認識の研究でML技術に触れる - インターンシップなどで音声処理のML技術の研究開発 - ドラムを小学生からやっていて、Jazz・Fank・Punk Rockが好き MIXI - 2024年4月 MIXI 新卒入社 - MLOps に関する業務が経験がしたくて、「家族アルバムみてね」の事業部にジョイン

©MIXI 6 講義の概要 Section 1 機械学習とは何か Section 2 Deep Learning
———— 昼食タイム ——— Section 3 勾配ブースティング Section 4 その他のML技術 Section 5 ML技術のデプロイ Section 6 サービスについて考える

©MIXI 7 HANDS ON: Jupyter Notebookを動かしてみよう 00 intro jupyter notebook
Jupyter Notebookの使い方を知ろう https://github.com/mixigroup/2025BeginnerTrainingAI

©MIXI Section 1 機械学習とは何か

©MIXI 9 機械学習とは過去のデータから知見を得て、それを次の決定に利用すること • 過去のデータ：過去の状態・情報 ◦ 数値, 画像, 音声,
テキスト, etc. • 知見：ブラックボックスな関数 f(x) ◦ 過去のデータには統計的なルールがあり、それを表すf(x)を学習によりモデル化する • 決定：現在の状態 (x) から未来 (y) を予測する ◦ 学習した知見を元に、未来の結果を予測する

©MIXI 10 プログラミングとの違いは？プログラミング機械学習ルールを自分で決めて表現する過去のデータの中からルールを得る盤面のスコアリングをルールベースで決定し、次のアクションの結果を評価して駒を動かす
大量の棋譜からパターンを見つけて、次の手を決定する盤面のスコアリングから、次の行動で一番点数の高い角を5一にしよう過去の棋譜と差し手のパターンから角を5一にしよう

©MIXI 11 統計との違いは？統計機械学習データからルールを得て、可視化して分析・説明するデータからルールを得て、目的のタスクの予測などに活かすある意思決定の理由を説明するの
が目的過去の統計情報をもとに、未知の情報を予測し、精度を上げていくことが目的明日の売上は ???円になりそう！データから知見を得るという部分は同じだし、基礎理論も同じ →良いデータサイエンティストは良いMLエンジニア

©MIXI 12 どんな問題を解決できるか? 様々な分野で様々な問題を解決することができる画像・動画処理自然言語処理音声処理時系列その他テーブルデータ
- 商品のレコメンド - 競馬/競輪のオッズ予測 - 検索機能の最適化 - 音声合成 - 声質変換 - 音声認識 - 翻訳 - 書類のチェック - コードレビューの補助 - カスタマー対応 - 書類の文字認識 - モーションキャプチャ - アニメーション生成 - 需要・コスト予測 - 不審な決済ログの洗い出し - ゲームデッキのレコメンド - ゲームAI - 自動運転

©MIXI 13 Discussion 本講義の目的 • 機械学習の技術を用いて解決できそうな問題があるか？ • 機械学習の技術に必要なデータはどのようなものか？これを考えられるようになってもらうのが講義の主目的です講義の中でこれらを考えてみてください。

©MIXI 14 機械学習の分類機械学習 - ラベル付されたデータ - 直接のフィードバック - 成果予測と未来予測
- ラベルと目的変数なし - フィードバックなし - データから隠れた構造を見つける - 意思決定プロセス - 報酬系 - 一連の行動を学習教師あり学習教師なし学習強化学習 - 出力が計算値 - 出力が連続値

©MIXI 15 機械学習のモデル構築方法機械学習 - ラベル付されたデータ - 直接のフィードバック - 成果予測と未来予測
- ラベルと目的変数なし - フィードバックなし - データから隠れた構造を見つける - 意思決定プロセス - 報酬系 - 一連の行動を学習教師あり学習教師なし学習強化学習 - 出力が計算値 - 出力が連続値回帰分類 Deep Learning 勾配ブースティング決定木 Q学習 SVM Clustering

- ラベルと目的変数なし - フィードバックなし - データから隠れた構造を見つける - 意思決定プロセス - 報酬系 - 一連の行動を学習教師あり学習教師なし学習強化学習 - 出力が計算値 - 出力が連続値回帰分類

©MIXI 17 教師あり学習教師データを用いて学習ラベル付けされた教師データとモデルの出力の損失（loss）を最小化することを目指して学習モデル入力出力
損失(loss) 教師デター

©MIXI 18 分類(Classiﬁcation)と回帰(Regression) クラスラベルを予測するための分類 • 出力が離散値 True/False... 犬、猫、人... • データに与えられたクラス（カテゴリ）
を予測する際に使用 SVMによる2 値分類 0.3 0.9 0.1 赤色スピード攻撃力予測多クラス分類例えば... モンストキャラの画像や特徴からそのキャラがなにかを予測

©MIXI 19 分類(Classiﬁcation)と回帰(Regression) 連続値を予測するための回帰 • 出力が連続値金額や人数、温度… • 数字の大小に意味が存在する値を予測する際に使用
線形回帰自己回帰による時系列予測例えば... 過去のモンストの売上から明日の売上を予測

©MIXI 20 QUIZ：分類(Classiﬁcation)と回帰(Regression) 分類問題か回帰問題か？ 1. ユーザの収入や家族構成、その他パラメータから預金額を予測する 2. ユーザの収入や家族構成、その他パラメータからある取引が不正かどうかを予測する 3.
画像に写っている物の種類を予測する 4. 画像に写っている物の位置を予測する

©MIXI 21 教師あり学習の流れ (分類問題) 用意したデータモデル入力出力損失(loss) 教師データ(ラベル)
入力(特徴量) 教師デター

©MIXI 22 教師あり学習の流れ (分類問題) 用意したデータ入力出力教師データ(ラベル) 入力(特徴量) 教
師デターモデル Parameters Hyper Parameters 損失(loss)から Parametersを更新

©MIXI 23 Parameters: Weights & Biases パラメーターは学習で変化する値　　 WeightとBiasがある　
y = b + x * w この値を調整すると、出力の値が変わる

©MIXI 24 教師あり学習の流れ (分類問題) 用意したデータ入力出力教師データ(ラベル) 入力(特徴量) 教
師デターモデル Parameters Hyper Parameters 損失関数 Loss 最適化関数 (Optimizer) Parameters 更新

©MIXI 25 損失関数(Loss Function) 多クラス分類問題の代表的な損失関数 ➢ Categorical Cross Entropy Label
Name オラゴンブルーリドラレッドリドラグリーンリドラ Output 3.57 0.27 1.80 - 0.83 Softmax 0.8200 0.0302 0.1397 0.0101 Label 1 0 0 0 Cross Entropy 0.086 0 0 0

©MIXI 26 最適化関数: 最急降下法(Gradient Descent) 最適化関数 ➢ Lossが最小になるようなWeightを決定例: 最急降下法(Gradient
Descent) 更新式学習率 (learning rate) Loss

©MIXI 27 教師あり学習の流れ用意したデータ入力出力教師データ(ラベル) 教師デ
ターモデル Parameters Hyper Parameters 損失関数 Loss 最適化関数 (Optimizer) Parameters 更新

©MIXI 29 教師なし学習：クラスタリング構造が不明なラベル付けされてないデータを扱いデータ内のパターンを見つける学習クラスタリングによるグループの発見 - 大量の情報を意味のあるグループ（クラスタ）として構造化できる探索的データ解析 -
教師は必要なく、データのパターンを見つけるクラスタリングクラスタ1 クラスタ2 クラスタ3

©MIXI 30 教師なし学習：次元削減構造が不明なラベル付けされてないデータを扱いデータ内のパターンを見つける学習データ圧縮のための次元削減 - 高次元のデータからノイズを取り除き特性は保持しつつ、重要な情報だけ抜き出す手法
特徴量赤色つの丸い目入力と同じデータを出力するように学習するため、自己教師あり学習とも呼ばれる Encoder Decoder

©MIXI 32 強化学習 • 環境とやりとりして行動の報酬をもらうことでエージェントが学習環境エージェント行動観測意思決定
報酬学習変化

©MIXI 33 強化学習 • 環境とやりとりして行動の報酬をもらうことでエージェントが学習 START +10 -10 環境エージェント
START

©MIXI 34 Deep Learningとの違いは？機械学習 - ラベル付されたデータ - 直接のフィードバック -
成果予測と未来予測 - ラベルと目的変数なし - フィードバックなし - データから隠れた構造を見つける - 意思決定プロセス - 報酬系 - 一連の行動を学習教師あり学習教師なし学習強化学習 - 出力が計算値 - 出力が連続値回帰分類 Deep Learning 勾配ブースティング決定木 Q学習 SVM Clustering

©MIXI 35 Deep Learningと教師あり・教師なし・強化学習の関係性 Deep Learning は「機械学習の一種」 • Deep Learningは、先ほど学んだ３つの学習方法を実現するための手法
• つまり、導入で説明した f(x) を表す方法であり、モデルの仕組み Deep Neural Network (DNN) • Deep Learningでは、主にDeep Neural Network という枠組みを用いており、より複雑な問題を解くことができる • → 詳しい説明はSection 2であります。ポイント • 教師あり/なし/強化学習 →「学習の方法（目的やデータの使い方）の分類」 • Deep Learning →「学習を実行するためのモデル（道具）の種類」

©MIXI 36 [余談] LLMどうやって学習してるの？ LLM（大規模言語モデル）とは？ • Deep Learningの一種で、大量のテキストデータを用いて学習されたモデル学習の仕組み •
分類タスク：語彙の中から次の単語を選択 • 入力：過去に現れた単語系列 • 出力：未来に現れる可能性の高い単語を予測 → Section 3でも詳しく触れますポイント • 「時系列データの多クラス分類」を繰り返しているこんにち...? LLM あいうえお...はひ... 尤度

©MIXI 37 Discussion 次の技術ではどの学習が使われているでしょうか？ 1. ChatGPT 2. 手書き画像の分類 3. Alpha碁（Deep
Mindによる囲碁AI） 4. 競馬のオッズAI予測

Section 2 Deep Learning

©MIXI 39 HANDS ON: 学習してみよう 01 multiclass learning: Neural Network
Neural Networkによる学習を経験してみましょう https://github.com/mixigroup/2025BeginnerTrainingAI ※ 勾配ブースティングの項目は後ほどやります

©MIXI 40 未学習(underﬁtting)/過学習(overﬁtting) • どのモデルが正しくデータの傾向を学習できているか？ (a) (b) (c)

©MIXI 41 過学習: overﬁtting 過学習が起こる条件 • データが少なすぎる • データに対してモデルが複雑すぎる過学習を対策するためには...
• データを訓練データと検証データに分けることで、overﬁttingに気づける状態にしておくデータ訓練データ検証データテストデータ

©MIXI 42 訓練データ/検証データ/テストデータ • 訓練データで学習させていくと、やがてモデルは Lossを下げるために過学習していく ➢ 次第に未知のデータへの予測精度が悪化 • 検証データを切り分け、そのLossを検証することで、
モデルが訓練データに対して過学習することを防ぐ • 検証データを使って訓練データの学習を制御 ➢ 検証データの情報が訓練データにリークするので最終的な精度の検証はテストデータで行う検証データ学習データ Epochs Loss

©MIXI 43 訓練データ/検証データ/テストデータ実際に学習に使用するデータこのデータにモデルが適合しすぎると過学習学習のステップごとに検証に使用するデータこのデータと訓練データの結果に差があると過学習と判断できる学習後に結果を検証するデータハイパーパラメータも含めて調整時には使っ
てはいけないデータデータ訓練データ検証データテストデータ訓練データ検証データテストデータ

©MIXI 44 過学習とデータ量 • 訓練データは表現したいものの全ての空間を表現している必要がある ex) 人の顔を認識させたいのに、イケメンばかり学習データに使用したら？ • 問題によって異なるが、データの数はあればあるだけ良い ➢
ただしありすぎると学習は遅くなる

©MIXI 45 過学習に対する手法 • Early Stopping • Data Augmentation •
正則化 • Dropout • バッチ正規化 • …

©MIXI 46 過学習に対する手法 • Early Stopping • Data Augmentation •
正則化 • Dropout • バッチ正規化 • …

©MIXI 47 過学習を防ぐ手法 Early Stopping • 監視する精度(Loss, Accuracy等)が一定期間上がらない場合、学習を停止させる •
主に検証データのLossを監視指標とすることが多い記法例 (Keras) 検証データでの Lossが5回連続改善しない場合学習終了検証データ学習データ Epochs Loss

©MIXI 48 過学習を防ぐ手法 Data Augmentation • 既存のデータを加工して新しいデータを作ることで、データ量を水増しする ➢ データのパターンを増やすことにより過学習を抑制
例: 画像のAugmentation オリジナル回転位置縮尺 Augmentationあれこれ: https://github.com/AgaMiko/data-augmentation-review

©MIXI 49 過学習を防ぐ手法正則化 • 過学習が発生しているモデルは複雑 • 複雑になるのは目的関数を最適化した結果 • 複雑になりすぎないように目的関数にペナルティ(正則化項)を導入する
目的関数 = 損失関数 + λ 正則化項正則化の効きをコントロールするパラメータ

©MIXI 50 正則化項: L1/L2 Normalization L1 Normalization • モデルのweightを菱形のライン上に収める •
不必要なweightは0を取る事が多い(≒次元圧縮) L2 Normalization • モデルのweightを円のライン上に収める • 不必要なweightは0に近づく損失が最小となる点

©MIXI 51 過学習を防ぐ手法 Dropout • ニューラルネットを用いた学習時に、一部のニューロンからの出力を0にする ➢ 特定のニューロンに対しての依存を抑制 • アンサンブル学習のような効果が見込める
➢ エポック毎にDropoutするニューロンが変わることで擬似的に複数モデルで協調した出力がされる形となり、過学習を抑制 … 1 epoch 2 epoch 3 epoch モデル Dropout 適用

©MIXI 52 HANDS ON: 過学習をさせてみよう 01 multiclass learning: Neural Network
Neural Networkによる学習で、過学習を起こしてみよう https://github.com/mixigroup/2025BeginnerTrainingAI ※ 勾配ブースティングの項目は後ほどやります過学習を起こす例 - モデルのパラメータ数を大きくする - Learning Rate を高くする - Dropoutを消す - などなど...

©MIXI 53 深層学習におけるモデル: ニューラルネットワーク(NN) Output Input • まず線形なモデルを考える

©MIXI 54 ニューラルネットワーク(NN) Output Input Hidden 線形変換からは逃れられない… • 層を増やしてみる

©MIXI 55 ニューラルネットワーク(NN) : Activation関数(非線形変換) Hidden2 Hidden1 Activation Input Output
• NNでは層の途中にActivation関数 (非線形変換)を挟む • この関数により、線形分離ができない問題も解けるように ➢ より複雑な表現が可能 • NNでは、Activationを図に表記しないことが多いので注意

©MIXI 56 Activation関数

©MIXI 57 Hyper Parameters ハイパーパラメータ • 学習前に予め決めておく必要がある値 • 学習によって変化しない •
最適値はタスクによって異なる例 • learning rate, バッチサイズ • パラメーターの数 • 使用するアルゴリズムの係数 • …

©MIXI 58 深層学習における代表的なネットワーク • DNN • CNN • RNN, LSTM
• Transformer • GAN • …

©MIXI 59 DNN(Deep Neural Network) • NNの層をDeepにしたものがDNN • 深層学習におけるベーシックなネットワーク記法例
(Keras) • 値の合計が1になるように調整する関数 • 主に多クラス分類の出力における活性化関数として用いられる Softmax Dence • 全結合型ニューラルネットワーク

©MIXI 60 CNN (Convolutional Neural Network) • 画像など近傍値間で関連が高いデータに使うネットワーク • 画像処理で行われるフィルタ処理を学習するというのが思想
ex) エンボスフィルタ, ラプラシアンフィルタ, etc… • 複雑な処理を少ない訓練パラメータで行える • 畳み込み層とプーリング層が存在するエンボスフィルタのカーネル値エンボス加工の例

©MIXI 61 CNN: 画像と行列 • 白黒画像は、2次元行列で表現できる ➢ SVGAサイズの場合、[800, 600]の行列に0〜255の数値が入る •
カラー画像の場合、カラーモードの次元を含めた3次元行列で表現できる ➢ RGBの場合、 [800, 600, 3]の行列に0〜255の数値が入る 110 136 115 115 104 134 150 186 197 123 112 199 255 225 123 139 216 209 179 114 95 126 115 94 104 134 150 83 52 123 112 83 57 21 89 47 42 41 21 64 96 126 115 93 104 134 150 83 59 123 112 81 64 44 92 R G B [4, 5, 3]

©MIXI 62 CNN: フィルタを用いた畳み込み • CNNでは、画像の行列に対してフィルタをかけることで畳み込みを行う • フィルタの大きさは[縦, 横, カラーモード]で、縦と横はハイパーパラメータ
➢ カラーモードはInputの画像で決めるため、実装では指定しなくて良い ➢ フィルタをスライドさせ、畳み込んでいく(スライド幅もハイパーパラメータ) • フィルタの値がweightであり、学習で最適されるパラメータとなる • フィルタの数はハイパーパラメータとなる画像 [32, 32, 3] フィルタ [5, 5, 3] スライド幅 1 フィルタ数 6 畳み込み後フィルタ数分畳み込む 62

©MIXI 63 CNN: フィルタを用いた畳み込み 63 0 1 0 1 0
1 0 1 0 1 1 0 0 1 1 1 0 0 0 1 R G B フィルタ 1 1 0 0 0 1 0 1 1 1 0 0 0 1 1 0 1 0 0 0 0 1 1 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 1 0 0 1 0 1 0 1 画像 [4, 5, 3] フィルタ [2, 3, 3] スライド幅 1 フィルタ数 1 スライド幅ずつずらしていく 5 + bias 1 = 6 [3, 3, 1] Output 1 0 0 1 1 0 0 1 0 1 0 0 [2, 3, 3] 画像(RGB) [4, 5, 3]

©MIXI 64 CNN: プーリング • 畳み込み後に、行列を圧縮するために用いられる手法 • プーリング幅として[縦, 横, フィルタ数]の行列を指定
➢ フィルタ数は畳み込み時に指定するので、実装では指定しなくて良い • 指定した行列の範囲内における最大値や平均値を出力することで圧縮を行う 0 1 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0 1 R G B 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 1 0 0 0 0 1 1 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 1 0 1 4 + bias 1 = 6 3 5 3 4 4 3 2 5 [3, 3, 1] Output 1 0 0 1 1 0 0 1 0 1 0 0 フィルタプーリング幅 [2, 2, 1] スライド幅 1 Max Pooling Average Pooling 6 5 4 5 4 4 3 3.75 [2, 2, 1]

©MIXI 65 CNN: ネットワークの全体像 https://paperswithcode.com/methods/category/convolutional-neural-networks 65

©MIXI 66 CNN: Kerasでの記法例 Padding • validとsameがある • validにすると畳み込み後のサイズがフィルタによって小さくなる
• sameにすると元の行列の周辺に0を埋めるPadding処理を行う ➢ スライド幅1の場合、畳み込み後もサイズが変わらない Flatten • 行列を1次元に平坦化する • NNでは多次元の処理が扱えないので、 CNN -> NN にする前でこの平坦化する処理を行っている

©MIXI 67 Transfer Learning • 学習済みモデルの一部を利用し、追加で解きたいタスクの学習をさせること • 学習の精度向上や、学習の高速化が期待できる • 出力層以外は学習済みモデルを使用し、出力層やその前の全結合層を新たに
定義して学習させることで、自分のタスクに必要な部分のみを学習させる • CNNの層までは学習済みモデルのパラメーターで固定 • Flatten後のFC層は学習可能なパラメーターとして新しく定義 67 https://paperswithcode.com/methods/category/convolutional-neural-networks 例

©MIXI 68 HANDS ON: チャレンジ！ https://github.com/mixigroup/2025BeginnerTrainingAI • 02_image_classiﬁcation • 03_transfer_learning
• ハンズオン02と03をVertex AIのJupyter Notebook環境下でトライしてみてください(詳しくはアナウンスします)

Section 03 勾配ブースティング

©MIXI 70 モデル選定とデータ形式 • 機械学習における深層学習(Deep Learning)系のモデルは、非構造化データに対してより優れた精度を発揮することが多い ➢ 非構造化データの例: 音楽,
画像, 動画, テキスト, etc… • 一方、構造化データに対しては、勾配ブースティング決定木(GBDT)系のモデルのほうがより優れた精度を発揮することが多い ➢ 構造化データの例: 表形式データ, RDB内のテーブルデータ, csvデータ, etc… • メリット ◦ 解釈性が高い ➢ 2分木ごとに条件文があるため ◦ 比較的軽くGPUも不要 ◦ DNNと比較して簡単に精度がでやすい • デメリット ◦ 非構造化データには(基本的に)非対応 ◦ マルチモーダルな入力のモデルを作れない • 構造化データ+画像データ＋音声+etc...

©MIXI 71 GBDTモデルの基礎: 決定木 • 二分木の構造を用いて、分類・回帰を行う手法 • 複数の条件を二分していき、最終的な出力を決定する ➢ 決定木の条件は学習によって最適化されていく
71 True False True True False False Attacker Defender Defender Attacker シュート精度 >= 中ボール奪取力 >= 高スピード >= 中例: サッカーの選手の能力から適正ポジション(Attacker or Defender)を予測シュート精度ヘディング精度ボール奪取力ボディバランススピードスタミナ高高低中高中選手A 能力値木を深くしすぎると、過学習に陥りやすくなる...

©MIXI 72 ランダムフォレスト • 単一の木を深くするのではなく、決定木自体を複数作成し、それぞれの出力値の多数決や平均を使うことで、最終的な出力を得る手法シュート精度ヘディング精度ボール奪取力ボディバランス
スピードスタミナ高高低中中高選手A 能力値 True False True False Attacker Defender Attacker スタミナ >= 高スピード >= 中 True False True False DefenderAttacker Attacker ボディバランス >= 高ボール奪取力 >= 中 True False True False Attacker Defender Attacker ヘディング精度 >= 高シュート精度 >= 高 Attacker 3 Defender 0 Attacker

©MIXI 73 ランダムフォレスト • 単一の木を深くするのではなく、決定木自体を複数作成し、それぞれの出力値の多数決や平均を使うことで、最終的な出力を得る手法 73 シュート精度ヘディング精度ボール奪取力
ボディバランススピードスタミナ低中高高中中選手B 能力値 True False True False Attacker Defender Attacker スタミナ >= 高スピード >= 中 True False True False Attacker Attacker ボディバランス >= 高ボール奪取力 >= 中 True False True False Attacker Defender Attacker ヘディング精度 >= 高シュート精度 >= 高 Attacker 2 Defender 1 Attacker Defender 木の出力値を、どの条件を通るかに関係なく平等に評価してしまう... 73

©MIXI 74 勾配ブースティング決定木(GBDT) Defender - Attackerか否かの 2値分類とする ➢ 0.5 >=
Attacker ➢ 0.5 < Defender - • 学習時に各決定木の教師データとの誤差を使って、出力値毎のスコアを算出 ➢ スコアから誤差を算出して、その誤差を次の決定木へと伝搬 • 計算式を用いてスコアを合計し、推論を行う 74 シュート精度ヘディング精度ボール奪取力ボディバランススピードスタミナ低中高高中中選手B 能力値 True False True False Attacker DefenderAttacker スタミナ >= 高スピード >= 中 True False True False Attacker Attacker ボディバランス >= 高ボール奪取力 >= 中 True False True False Attacker Defender Attacker ヘディング精度 >= 高シュート精度 >= 高 Defender 3.5 -2 1 -4 2.5 0.5 3 -1.5 0.5 Sigmoid

©MIXI 75 GBDT系手法のライブラリ: LightGBMでの記法主要な学習パラメータ • objective 目的変数(ラベル) ◦ 二値分類
-> binary ◦ 回帰 -> regression ◦ 多クラス分類 -> multiclass • metric 損失関数 ◦ 二値分類 -> binary_logloss - loglossはcross_entropyと同義 ◦ 回帰 -> MSE, MAE ◦ 多クラス分類 -> multi_logloss • モデルの構造 ◦ n_estimators: 決定木の数 ◦ learning_rate: 学習率 ◦ num_leaves: 葉の数 ◦ max_depth: 階層の最大数パラメータの公式リファレンス https://lightgbm.readthedocs.io/en/latest/Parameters.html 75

©MIXI 76 特徴量エンジニアリング • 特徴量を前もって学習しやすい形に加工しておくこと　 ex) 収入を予測するモデル • 住んでいる家の緯度、経度の情報は関係ある値
• ただ、同じ経度でも東北の緯度と東京の緯度では意味は異なる • 本当に意味があるのは数値ではなく、どの地域なのかの情報 • 緯度と経度で分離してバケット化

©MIXI 77 良い特徴量(入力データ)とは良い特徴量の条件は 1. 目的に関係している値である • 競馬の購入馬券を予測する問題で、馬主の年齢は関係あるか？ • いらないデータはノイズになる
2. 推論のタイミングで利用可能である • 子供の誕生時の体重を予測する問題で、妊娠日数は使えるか？ 3. 意味のある数値(ベクトル)に変換できる • 文章はベクトルに変換することも可能 4. 人間の洞察が含まれている • 良いデータサイエンティストが良いmlエンジニアである理由

©MIXI 78 HANDS ON: チャレンジ！ 01 multiclass learning: 勾配ブースティング勾配ブースティングによる学習までチャレンジしてみてください。
https://github.com/mixigroup/2025BeginnerTrainingAI

Section 04 その他のML技術

©MIXI 80 その他のML技術 • 時系列データ • 自然言語処理 • 画像解析 •
音声処理

音声処理

©MIXI 82 時系列データ：RNN • 時系列データに適用するネットワーク ex) 言語, 株取引, 音楽, シーケンスデータ,
etc…

©MIXI 83 時系列データ：Encoder-Decoder Model RNNだけじゃなく、CNNを使ったもの、 Attentionを使ったものもあります Encoder • 時系列データXを特徴量ベクトル hにEncode
Decoder • 特徴量ベクトルhから時系列Yを推論例)文章要約の場合 1. 対象の文章をEncoderへ入力し、意味を持ったベクトル h を出力 2. Decoderで要約を出力

©MIXI 84 時系列データ：Transformer 「Attention Is All You Need」という論文で自然言語処理向けに提案されたEncoder-Decoderを元にしたモデル特徴
- Attention機構を用いて、時系列的に離れた情報との関係性もモデル化可能 - 入力ベクトルに位置情報を付与 - モデルのスケールアップが可能 - 大規模なモデルサイズ＋大規模なデータセットでさらに精度向上 84 Encoder Decoder Vaswani et al. “Attention Is All You Need”

©MIXI 85 時系列データ：Transformer (Attentionとは？) 「要素と要素の関係性を学習する」例）自然言語処理単語と単語の関係性を学習するようなイメージ Vaswani et al.
“Attention Is All You Need”

音声処理

©MIXI 87 自然言語処理：自然言語処理(NLP)とTransformer 自然言語処理（Natural Language Processing; NLP）とは • 人間が日常的に使う自然な言葉をコンピュータが理解し、処理する技術代表的な技術
• 形態素解析、構文解析、意味解析、感情分析、文章生成主な活用例 • 機械翻訳、チャットボット、音声アシスタント、文書分類主要なDeepLearningモデル • ルールベース (TF, IDF) • RNN • Transformer

©MIXI 88 自然言語処理：Generative Pre-trained Transformer (GPT) TransformerのDecoderのみを用いたモデル過去の文章から次の文字を予測するように学習 →自己教師あり学習と呼ばれ、教師データが必要としないため、　大規模なテキストデータで事前学習が可能
推論の流れ 1. 入力として与えたプロンプトに対して、次の単語を予測 2. 出力を繋ぎながら次々と文章を生成していく

©MIXI 89 自然言語処理：ChatGPT • GPTを発展させた高精度なChatbot AI • Reinforcement Learning from
Human Feedback(RLHF)が特徴 89 Supervised Fine-tuning(SFT) Reinforcement Learning 教師ありデータセットを用いてモデルを微調整報酬から Agentを最適化報酬モデル(RM)を学習強化学習モデル(PPO)を用いて出力を最適化応答 (複数) 入力 (Prompt) ランク付け (ラベル) ラベルを元にランク学習応答 (ラベル) 入力 (Prompt) ラベルを元にモデルをFine-Tuning Training language models to follow instructions with human feedback OpenAI et al, 2022 Reward Model(RM)

©MIXI 90 自然言語処理：LLM ディープラーニング技術を用いて構築された超巨大な言語モデル • 大規模とは ◦ データ量 ◦ 計算量
◦ モデルのパラメータ数 LLMモデル Prompt 質問や命令文出力 - 生成 - 要約 - 解説 - 翻訳など

©MIXI 91 [余談] MIXIで使えるLLMサービス Chatサービス - Chat-M (MIXI) : MIXIの社内向け
- サービス（社内の知見をRAGで検索可能） - ChatGPT (OpenAI) : Enterprise 利用可能 - Gemini (Google) AIコーディング - GitHub Copilot (GitHub) - Cursor (Anysphere) などなど...

©MIXI 92 RAG(RetrievalAugmentedGeneration) • LLM(大規模言語モデル) + 自前コンテンツの検索 ◦ LLMでの生成ではハルシネーション(それっぽい誤情報)がありがち ◦
自前コンテンツの検索システムを組み合わせることでハルシネーション対策になる 92 ・Question: モンストで好奇心旺盛でおっちょこちょいなキャラ Embedding ベクトルDB Prompt ・Instruction 以下のDocumentを参照して、質問に解答してください・Question: モンストで好奇心旺盛でおっちょこちょいなキャラ・SearchResult パンドラは、神々に作られた少女。金髪碧眼で... LLMで解答を生成 Retriever Generator

©MIXI 93 RAG: Retriever • Retriever ◦ 大規模なデータセットから関連する情報を検索・抽出するパート ◦ テキストや画像がベクトルデータに変換されベクトルDBに格納されている
テキスト Embedding 画像ベクトルDB 検索したいコンテンツ近似コンテンツの情報

©MIXI 94 RAG: Generator • Generator ◦ Retrieverから得られた情報を用いて、質問に即した回答を生成するパート ◦ プロンプトに正しい情報を使うため
ハルシネーション対策になる Embedding LLMでテキスト解答を生成 Prompt ・Instruction 以下のDocumentを参照して、質問に解答してください・Question: モンストで好奇心旺盛でおっちょこちょいなキャラ・SearchResult パンドラは、神々に作られた少女。金髪碧眼で... Generator LLMで解答を生成「好奇心旺盛でおっちょこちょいな性格であり、「やっちゃダメ」と言われることを苦手とする。うっかり禁断の箱を開けてしまうなど、おっちょこちょいエピソードも。」

©MIXI 95 LangChainについて 95 • LangChain ◦ LLMを用いた開発を効率的に行うためのライブラリ ◦ さまざまなLLMのクラスやRetriever(後述)のクラスが揃っている
◦ 破壊的アップデートが多い ◦ 過度な抽象化によりカスタマイズ性が悪いメリット ◦ 手軽 ◦ 本来数百行必要なコードが数行に ◦ 新しい技術を試しやすい ◦ 実装が抽象化されており、内部のコードを読まなくても簡単に試せるまとめデメリット ◦ PoCで使う分には便利 ◦ 本番環境で使うには注意・検討が必要 • 小規模で管理できるなら

©MIXI 96 LangChain: Retriever • LangChainではRetrieverの機能をもつクラスがいくつか提供されている ◦ 参考: https://python.langchain.com/docs/how_to/#retrievers •
実装例 ParentDocumentRetriever 96 docをsplitterでsubdocに区切り検索を行う SelfQueryRetriever docをLLMを用いてmetadataでﬁlteringし検索を行う

©MIXI 97 Text Embedding • Text Embedding ◦ テキストを抽象化ベクトルに変換 ➢
テキスト同士の類似度を距離で表現できる金髪のキャラクター [0.2, 0.1, -0.12 …] パンドラ、金色の髪と青い目 [0.19, 0.11, -0.12 …] ユビレギリ、片目に眼帯 [-0.5, 0.43, 0.22 …] ゲキリン、ピンクの髪と黄色の目 [0.2, -0.41, -0.72 …] 0.9985 -0.4727 0.3948 Cos類似度ハンズオンでは Multilingual-E5 のモデルを利用します。そのほかにも、HuggingFace上に様々なモデルが公開されています GCP VertexAIではEmbeddings for TextやEmbeddings for Multimodalなどが使えます Hugging Face 機械学習モデルの開発と共有、公開をするためのプラットフォームです

©MIXI 99 LangChain: LCEL • LCEL ◦ LCEL(LangChain Expression Language)
➢ 各コンポーネントを`|`でつないでChainを定義 ➢ LangChainの各コンポーネントや定義したメソッドをパイプラインに固められる記法: `chain = (プロンプト | model)`などマグロの釣り方：大海原の王者に挑むマグロ釣りは、釣りの中でも特に挑戦的でエキサイティングなジャンルです。その引きの強さと大きさから、「海の王者」とも呼ばれるマグロを釣り上げるには、相応の準備と知識が必要です。 …

©MIXI 100 HANDS ON：チャレンジ！ https://github.com/mixigroup/2025BeginnerTrainingAI • 03_document_retrieval_by_RAG • ハンズオン03をVertex AIのJupyter
Notebook環境下でトライしてみてください

音声処理

©MIXI 102 画像処理：VIT(Vision Transformer) • Transformerの仕組みを画像分野に応用する試み • パッチと呼ばれるものに画像を均一に分割し、これを単語のように扱う •
特徴 ◦ CNNベースモデルより精度が高い ➢ データセットが小さい場合は CNNの方が精度が高い傾向にある ◦ Attentionの機構を利用して、判断根拠(どこに注目したか)の抽出ができる ◦ Fine-tuningにより、様々なタスクに応用可能パッチ化(均一に分割) パッチごとにベクトル化 (本当はRGBの行列) パッチのベクトルを単語のように扱う [(0, 0, 0), (0, 0, 0), (225, 10, 10), (235, 5, 5), (255, 0, 0) ...]

©MIXI 103 画像生成：Stable Diﬀusion • 入力されたテキスト情報を元に画像を生成する技術 103 VAE Encoder 潜在空間に
次元圧縮各潜在変数は確率分布 (正規分布) に従う各ステップで正規分布に基づくノイズを追加喜んでいるオラゴン 0 1 2 3 CLIP Text Encoder [0.32, 0.14, 0.01, …] UNet VAE Decoder 学習時のみ使用 UNet UNet 潜在変数から画像に変換 0ステップ目と各ステップのUNetにテキストから抽出された特徴量を追加

©MIXI 104 HANDS ON：触れてみよう Hugging Face Spacesに様々なデモが公開されています。使って感覚を掴んでみましょう。 https://huggingface.co/spaces 物体認識
- YOLO-world 画像生成 - Stable-diﬀusion

音声処理

©MIXI 106 音声処理：音声認識(Automatic Speech Recognition; ASR) 音声認識とは、音声をテキストに変換する技術 • スマートスピーカー、字幕生成、議事録作成、検索入力など幅広く活用仕組み
• 音声信号（波形）を特徴量（例：メルスペクトログラム）に変換 • 音響モデルが音を文字・単語にマッピング • 文脈を考慮した言語モデルで自然な文に補正代表的な音声認識モデル • Whisper（OpenAI）: 多言語対応・高精度・ノイズ耐性が強み • Kotoba Whisper（日本語特化）: Whisperをベースに日本語性能を強化

©MIXI 107 音声処理：音声合成(Speech synthesis) 音声合成とは、テキストから自然な音声を作る技術 • アクセシビリティ（読み上げソフト）やナビ音声、キャラクター音声などで活用仕組み 1. テキストから各音素の発話長を推測
2-1. スペクトログラム生成 2-2. 生成時に話者情報も付与 3. スペクトログラムから音声波形生成代表的な音声認識モデル • VITS • YourTTS

©MIXI 108 HANDS ON：触れてみよう Hugging Face Spacesに様々なデモが公開されています。使って感覚を掴んでみましょう。 https://huggingface.co/spaces 音声認識
- kotoba-whisper 音声合成 - coqui/xtts

Section 05 ML技術のデプロイ

©MIXI 112 要件定義：機能要件 ML技術を導入する際は、一般的に以下の内容を決める 1. 機械学習で解決すべき問題なのか？ • ルールベースとML技術で費用対効果（Return on Investment;ROI）を比較
◦ ルールベースで解けるなら、ML技術は使うべきではない 2. 適切な定量評価の指標を設定 • 目的関数：モデルを学習するための指標（MSE, Cross Entropy） • 評価指標：学習後にモデルの性能を測定する指標 (Accuracy,エラー率) • KPI：ビジネス目標の達成度を測る指標 (売上増加率、顧客維持率など) 3. 比較対象を設定 • 定量評価の比較対象としてベースラインを設定 ◦ 既存のシステムや単純なモデル（ランダム予測、最頻値予測）を比較対象とする

©MIXI 113 要件定義：機能要件 113 目的関数評価関数 KPI 各機械学習モデルが目的関数を最適化評価指標における最良の
機械学習モデルを選択 ML技術を運用し、ビジネス的価値をKPIで測定特に、ML技術の効果を計る３つの適切な指標を定めておくことが重要引用：評価指標入門〜データサイエンスとビジネスを繋ぐ架け橋〜

©MIXI 114 要件定義：システム要件 MLモデルによる「推論」をどのように動かすかも決めておく。 1. MLモデルをどのタイミングで動かすか ◦ 非同期処理か • バッチ処理による一括推論
• ストリーム処理による逐次推論 ◦ 同期処理か 2. 推論速度 ◦ リアルタイム推論で許容されるレイテンシーは？ ◦ 速度と精度、どちらを優先すべきか

©MIXI 115 要件定義：みてねのML推論事例機能要件 • 画像から顔を検出し、顔の解析を行う ◦ 顔の位置、顔の向き、推定年齢など非機能要件
• リアルタイム推論は必要ない • 1日に約1000万レベルのメディアを解析 • 複数のタスク特化したモデルを使用アーキテクチャ • Queue(SQS) を用いて非同期処理 • 複数の顔解析器をパイプライン化 • メディアのUploadをトリガーに非同期処理

©MIXI 116 要件定義：minimo のML推論事例機能要件 • AIのレコメンドスコアでスタイリストの検索結果を並び替える ◦ ユーザーの関心がありそうなスタイリストを上位に表示する要件
• リアルタイム推論が必要 ◦ 検索結果の表示が遅れることで、体験を損ねる • 並び替え対象が300件以上ある場合は、軽量なルールベースを使用アーキテクチャ • 特徴量は事前にOpenSearchに格納 • 推論にはAWSのSagemakerEndpoint

©MIXI 118 モデル実装、PoC構築、本実装要件定義で決定した３つの指標を元に効果検証を行うフェーズ →　大学の研究で最も行ってきた分野 1. モデルの実装 ◦ 評価指標を最大化するモデルの構築 2.
PoC構築 ◦ モデル精度だけでなく、システム組み込み可能性も検討 ◦ ビジネス側と継続判断の基準を擦り合わせる 3. 本実装： ◦ モデルのサービスへの組み込み

©MIXI 120 継続的学習：機械学習はトレーニングだけではない 120 MLOps: ML における継続的デリバリーと自動化のパイプライン実際の ML システムの中で
ML コードで構成されているものはごく一部で、必要となる周辺要素は膨大で複雑です。

©MIXI 121 継続的学習：Machine Learning Operations; MLOps MLモデルを継続的に運用するには？ • モデル管理、精度検証、データ収集、再学習、データドリフト対応.... ◦
MLモデルも、プロダクトとして継続的にUpdateしなければならないこれらを継続的に行えるシステム(MLOps)の構築が必要 MLOpsとは • MLシステムの開発（Dev）と運用（Ops）を統合するエンジニアリング手法 • CI/CDに加えて、継続的トレーニング(CT)が行われ、MLモデル更新の自動化とモニタリングを推進する

©MIXI 122 継続的学習：Machine Learning Operations; MLOps モデルの学習パイプラインモデルの自動デプロイパフォーマンスチェック MLOps:
ML における継続的デリバリーと自動化のパイプライン分析・学習 CI/CD

©MIXI 123 HANDS ON : チャレンジ！ https://github.com/mixigroup/2025BeginnerTrainingAI • 05 deploy
and serving • 下記のハンズオンにトライしてみてください

Section 06 サービスについて考える  

©MIXI 125 今日学んだこと今日の研修を通して以下のことを学びました Section 1 機械学習とは何か Section 2 Deep
Learning Section 3 勾配ブースティング Section 4 その他のML技術 Section 5 ML技術のデプロイ Section 6 サービスについて考える

©MIXI 126 Discussion 自分のサービスに、ML技術を用いてどんな価値が提供できるか考えてみよう！ • 何に対して機械学習に適用できるか • どんなことを考えるべきか • どんな解決したい課題があるか
• どんなデータを持っているか • それは学習できそうか • そもそも既存のモデルが存在しないか？ • サービスに入れる評価基準は決められそうか？ • どういう風にサービスと繋ぐか？

©MIXI 127 おわりにお疲れ様でした本日の講義はこれで無事終了です是非、今日学んだり思考したことをきっかけに、サービス改善の選択肢としてAI導入も検討してもらえるようになってもらえると嬉しいです困ったときは社内に頼りになるMLエンジニアがいるので、相談してみてください

AI研修【MIXI 25新卒技術研修】

AI研修【MIXI 25新卒技術研修】

Video

More Decks by MIXI ENGINEERS

Other Decks in Technology

Featured

Transcript