Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習モデル性能向上への学習データからのアプローチ

 機械学習モデル性能向上への学習データからのアプローチ

2023.06.01 に開催された Data-Centric AI勉強会のライトニングトークにて使用した資料。データに着目することでモデルの品質を向上させる手法の考え方とその応用例の簡単な紹介。

おかだ

June 02, 2023
Tweet

More Decks by おかだ

Other Decks in Technology

Transcript

  1. 合同会社ふうたシステムサービス 自己紹介 合同会社ふうたシステムサービス 代表社員 岡田年且 • 基本情報 1970年生まれの初老に手が届くおじさん • 最終学歴

    名古屋工業大学(修士課程修了) 人工知能分野について研究 (知識獲得・分散協調) • 職歴 1995年~2022年 トヨタ系列のIT子会社に所属 システム開発業務・技術研究に従事 ITからAIまでの幅広い業務を担当 2022年10月に独立し [合同会社ふうたシステムサービス]を創設 • 実績(主なもの) AI技術を用いたCADの自動面生成機能開発 特定部品の劣化予測技術開発 人材育成活動に指導者として参加 等 ふうた わたし
  2. 合同会社ふうたシステムサービス お断り 勉強会での発表テーマであることを理解してください 私の意見がまちがっていないことを信じていますが まちがっている可能性は常に検討しておいてください 当然ですが自己責任で! Bing の Image Creator

    の生成した画像を使おうかと思ったのですが、以下の条文があったため断念。 作成物の使用。お客様は、本契約、Microsoft サービス規約、および弊社のコンテンツポリシーを遵守することを条件に、オンライン サービス以外の場所で、 個人の合法的な非商業的目的のために作成物を使用できます。 会社名出している以上、非商業目的と言い切りにくいからなぁ…
  3. 合同会社ふうたシステムサービス 機械学習のデータの基本 D C B A データの分類イメージ A データ1 データ1の存在領域

    B データ2 データ2の存在領域 C 重複 データ1とデータ2が判別できない領域 D 未定義 どちらのデータにも属さない領域 多くの人は A,B にのみ着目している。 しかし、実際には C,D の領域に着目する必要がある。 C,D の領域の存在を理解し対策を行うことで モデルそのままでも性能の向上が可能である(意見)。 今回のトピックはCの領域です。Dの領域については今回はしゃべりません。(言いたいけど)
  4. 合同会社ふうたシステムサービス データ加工の例:異常検知 D C B A データの分類イメージ A 正常 正常データの存在領域

    B 異常 異常データの存在領域 C 重複 正常・異常の判別できない領域 D 未定義 正常か異常かわからない領域 異常検知では紛らわしいもの(=C)は「異常」と判別したい。 そうすることで、見逃しを減らすことができる。 従来、多くの場合はsoftmax等の出力の判別閾値をコントロール することでこの性能を制御していた。しかし、閾値のコントロー ルでは、C以外の領域にも影響が出る。 問題の根本はC領域を放置していることである。 分類問題として解くケース
  5. 合同会社ふうたシステムサービス データ加工の例:異常検知 D C B A データの分類イメージ A 正常 正常データの存在領域

    B 異常 異常データの存在領域 C 重複 異常データとして扱う領域 D 未定義 正常か異常かわからない領域 Cの領域のラベルを全てBに置き換える。 そうすることで紛らわしい値を閾値の制御をせずともBと 判定できるようになる。 ※閾値の制御をやらないで良い訳ではない 実際のデータで適用した結果、モデルのチューニングでは 達成が困難なレベルの正答率の向上が見られた。 ※正答率が大幅に向上した例の詳細は次ページに 目的により加工方法は 色々あります!
  6. 合同会社ふうたシステムサービス 性能大幅向上の詳細 前職の業務内容に触れるところがあるので細かくは言えません。 エビデンスも手元にないので… 対象者 画像データでの異常検知をしている人。MLの知識は新技術を調べて実践できるレベル。 色々なモデルを使い性能も上がってきたのだが、頭打ち状態。 条件 異常検知であるので以下であることがよい。 1.

    見逃しは極力少ない(見逃しはCをAと判定していると考える) 2. 誤検知も極力少ない 3. 過検知も少ないに限るが見逃しよりはマシ 対策 1 主に領域Cなので検討対象 → C の領域を B とラベル変更し曖昧さを解消 2 主に領域Aなので対象外 → 今まで通りとする 3 主に領域Aなので対象外 → 今まで通りとする Cの領域の振る舞いをコントロールすることで、異常検知モデルの振る舞いを制御。 結果、曖昧さに起因する誤検知(=見逃し)が減り性能向上。 当然ですが効果はデータセットや問題設定により変わります。 全てのケースで性能が向上するわけではありません。 Accuracy, Precision, Recall, F値 の値の変化そのものなのか 向上割合なのか…細かい情報が出せずすみません。
  7. 合同会社ふうたシステムサービス CIFAR10の飛行機を並び替えてみた 飛行機以外のデータもアリとするとこうなります。 6,000x10=60,000 データを並び替えています。 すると、実は飛行機以外のデータも似ているという 結果が出てきます。つまり、結構紛らわしいデータが 大量にあるという事です。 当然、少数派を気にするパラメタで計算すると違う 結果になります。どういう形でデータを考えたいか?

    ということを考えて行くべきです。過学習どんとこい ならば、少数派も結構採用されますし、そんなに センシティブな学習をしないという事も出来ます。 性能上げるのは過学習なのでは?という雰囲気のデータセットです。 というか、過学習気味に学習しないと紛らわしいデータが分類できない。