Upgrade to Pro — share decks privately, control downloads, hide ads and more …

企業内スモールデータでのデータ解析

Avatar for hamage hamage
July 30, 2022

 企業内スモールデータでのデータ解析

1.ビッグデータからスモールデータへ
2.ディープラーニングの弱点
3.企業内DX担当者の悩み
4.スモールデータ解析事例
 ・PLS
 ・MIC

Avatar for hamage

hamage

July 30, 2022
Tweet

More Decks by hamage

Other Decks in Programming

Transcript

  1. 企業内DX担当者の悩み ・A:定数 ・B:定数 ・z : 外生変数(exogenous variable) AIやIoT、DXのようなバズワードが流行り出すと、企業の偉いさんからは、、 • 当社もAIやディープラーニングを使ってDXをしてくれ!

    →(ぼやき)いや、AIとかDLとかは手段だから、それを使って何をするのか、   どのような目的なのかが重要でしょ。。。 DLするにはデータが大量に必要ですけど。。。 • データが必要?ではIoT基盤を導入するぞ! →(ぼやき)いやいや、だから導入するのはいいけど、導入して何に使うの?  それによって、どんなデータをどのような頻度で収集するのか決まら  ないんですけど。。。 • 当社もIoT基盤を導入したので安泰だな! →(ぼやき)いやいやいや、そのデータ誰が解析するのよ。オレ一人じゃ  無理よ。。。社内教育を進めないといけないんですけど。。。
  2. 企業内DX担当者の悩み ・A:定数 ・B:定数 ・z : 外生変数(exogenous variable) • 前処理にどれだけ時間がかかってるんだ! →(ぼやき)いやいやいやいや、解析の

    80%は前処理って言われてて、一番時間がかかる作業だし、  ここで間違ったことをするとちゃんと解析できないので、重要なんですけど。。。 • Auto MLというのがあるそうじゃないか、誰でも解析できるな! →(ぼやき)いやいやいやいやいや、例えば欠損処理でも何故欠損したかというような  背景を理解したり、他のデータも欠損しているかどうかなどを調査しない  と、どう処理したらいいか決められないでしょ。。。
  3. 企業内DX担当者の悩み ・A:定数 ・B:定数 ・z : 外生変数(exogenous variable) 工場の担当者からは、、 • 異常データを検知したいんじゃなくて、異常を無くしたいんだよ

    →ディープラーニングは不向き。決定木や線形回帰など解釈性が高い手法で解析必要。    • AIでちゃちゃっとできるんでしょ? →いや、皆さんのドメイン知識が重要になります。 • 要は相関が高いやつ見つければいいんでしょ? →相関が高いのは、あくまで線形的な関係性が高いというだけなんで、  必ずしもそのようなことはないですよね。。。
  4. スモールデータ解析事例 PLS(部分的最小二乗法) PLSの概要 • 線形の回帰分析手法の1つ • 説明変数(記述子)の数がサンプルの数より多くても計算可能 • 回帰式を作るときにノイズの影響を受けにくい •

    説明変数の間の相関が高くても対応可能 • 主成分分析をしたあとの主成分と目的変数との間で最小二乗法を行うのは主成分回帰 (PCR) であり、PLSとは異なるので注意 https://datachemeng.com/partialleastsquares/
  5. スモールデータ解析事例 MIC(Maximum Information Coefficient) 独立と無相関の違いについて 独立データ 円形データ 相関データ 上凸データ 相関係数:0

    相関係数:0 相関係数:1 相関係数:0 独立 独立でない (当然)独立でない 独立でない 物性試験データとプロセスデー タの関係がこのようになることは 考えられませんか? 相関だけでは有用 なデータを見つけら れない
  6. スモールデータ解析事例 MIC(Maximum Information Coefficient) 独立と無相関の違いについて 無相関 独立 直感的な意味合い 直線的な関係が無い 何の関係性も無い

    イメージ 散布図を4つに分けた場合に右上及び 左下、もしくは右下及び左上にデータが 集まっていない 散布図をグリッドで分けた場合に、デー タが全体的に点在している 定義式 E[XY} = E[X]E[Y] P(x,y) = P(x)P(y) https://manabitimes.jp/math/934
  7. スモールデータ解析事例 MIC(Maximum Information Coefficient) 独立と無相関の違いについて 無相関 独立 直感的な意味合い 直線的な関係が無い 何の関係性も無い

    イメージ 散布図を4つに分けた場合に右上及び 左下、もしくは右下及び左上にデータが 集まっていない 散布図をグリッドで分けた場合に、デー タが全体的に点在している 定義式 E[XY} = E[X]E[Y] P(x,y) = P(x)P(y) https://manabitimes.jp/math/934 ・独立なら無相関 ・無相関でも独立とは限らない
  8. スモールデータ解析事例 MIC(Maximum Information Coefficient) MIC→新しい相関係数 独立データ 円形データ 相関データ 上凸データ 相関係数:0

    相関係数:0 相関係数:1 相関係数:0 独立 独立でない (当然)独立でない 独立でない MIC:0 MIC:0.17 MIC:1.00 MIC:0.68
  9. スモールデータ解析事例 MIC(Maximum Information Coefficient) MIC→新しい相関係数 独立データ 円形データ 相関データ 上凸データ 相関係数:0

    相関係数:0 相関係数:1 相関係数:0 独立 独立でない (当然)独立でない 独立でない MIC:0 MIC:0.17 MIC:1.00 MIC:0.68 上凸データの場合、相関係数は 0だが、MICは円形データよりも かなり大きい!!