前処理と特徴量エンジニアリング

前処理と特徴量エンジニアリング 2020年5月28日濱川　普紀

自己紹介大阪在住職業：某繊維メーカーで工場のスマート化に従事しています Python歴：2年趣味：作曲 Name : 濱川普紀 Hamakawa Hirotoshi
　 @hamage9

経歴 2000年8月某産業機械メーカーに就職電気設計を従事 2016年7月某産業機械メーカーで IoT開発に従事 2020年3月某繊維メーカーに就職工場のスマート化に従事
1997年4月大学を卒業して電子部品を扱う某商社に就職。その後転々と転職。。。

Agenda １．前処理が作業の８０％２．データ量は足りてるか？３．逆に特徴量が多い？４．異常データが足りない！５．標準化か？正規化か？

前処理が作業の80%

前処理が作業の80% 機械学習は、前処理や特徴量エンジニアリングばかり、、、。機械学習のコーディングはたったこれだけ Hidden Technical Debt in Machine Learning
Systems

前処理が作業の80% データが集まった後の作業フローは、、、 EDAや特徴量エンジニアリングばかり Feature Engineering and Selection Practical Data Science
with R and Python それだけ前処理は重要

データ量は足りているか？

データ量は足りているか？最低限必要なデータ量。例えば多変量関数で考えると。。。変数の数だけ数式が必要。→特徴量の数以上のデータ量が必要だけど、これじゃ少し足りない？

データ量は足りているか？バーニーおじさんの定理では10倍必要と言うが、、、でもこんなにデータを集められない。 Generalization and Parameter Estimation in Feedforward Nets
「モデルのパラメータ数の10倍のデータ数が必要」

逆に特徴量が多い？

逆に特徴量が多い？特徴量選択による次元削減フィルタ法ラッパー法組み込み法（埋め込み法）閾値を使って有用でないと思われる特徴量を除去する手法特徴量の一部を使って実際にモデルを学習し精度を調べる手法モデルの学習プロセス自体に特徴量選択を組み込む手法参考文献
Python機械学習クックブック機械学習のための特徴量エンジニアリング Feature Engineering

逆に特徴量が多い？フィルタ法分散の小さい特徴量分散が0に近い特徴量を削除相関の強い特徴量相関の強い特徴量の片方を削除無関係な特徴量クラス分類や回帰に無関係な特徴量を削除注意）フィルタ法では、モデルにとって良い特徴量を選んでいるかどうかはわからない

逆に特徴量が多い？分散の小さい特徴量 →VarianceThresholdを使用注意）１．特徴量に単位の違うものが混じっているとうまく機能しない２．閾値は自分で決める必要がある

逆に特徴量が多い？相関の強い特徴量注意）閾値は自分で決める必要がある（0.7〜0.95ぐらい？？）

逆に特徴量が多い？クラス分類に無関係な特徴量（特徴量がカテゴリデータの場合） →カイ2乗統計量を使用

逆に特徴量が多い？クラス分類に無関係な特徴量（特徴量が数値データの場合） →F値を使用

逆に特徴量が多い？回帰に無関係な特徴量 →引数をf_regressionにする

逆に特徴量が多い？ラッパー法（反復特徴量選択） →再帰的特徴量削減（recursive feature elimination：RFE）

逆に特徴量が多い？組み込み法（埋め込み法） →モデルベース特徴量選択（SelectFromModel）使用

異常データが足りない！

異常データが足りない！不均衡データ（ Imbalanced Data）学習に用いられるアプローチデータレベルコスト考慮型学習異常検知手法正常と異常データの数量を均衡にするアプローチ各クラスのデータ量に応じた重みを付けるアプローチ異常検知手法を適用するアプローチ
参考サイト【ML Tech RPT. 】第4回不均衡データ学習 (Learning from Imbalanced Data) を学ぶ(1)

異常データが足りない！データレベルのアプローチ（imbalanced-learnを使用したオーバーサンプリング）参考サイト Usage of the sampling_strategy parameter for
the different algorithms imblearn.over_sampling.SMOTE

異常データが足りない！データレベルのアプローチ（imbalanced-learnを使用したアンダーサンプリング）参考サイト Usage of the sampling_strategy parameter for
the different algorithms ※アンダーサンプリングができるなら、ちょっと「異常データが足りない！」と言うタイトルとは相反しますが、不均衡データの取り扱いという括りで紹介しておきます。

異常データが足りない！コスト考慮型学習のアプローチ →class_weight="balanced"と指定し、データ量に応じた重み付け参考文献 Python機械学習クックブック

異常データが足りない！異常検知手法を適用するアプローチ →異常検知手法：ホテリング理論参考文献入門機械学習による異常検知入門機械学習による異常検知―Rによる実践ガイドをPythonで実装 T2統計量、Q統計量

標準化か？正規化か？

標準化か？正規化か？機械学習で行う主なスケーリング標準化データ全体を標準正規分布に近似する手法 sklearn.preprocessing.StandardScaler 正規化データ全体の最小値を最大値を揃える手法 sklearn.preprocessing.MinMaxScaler
対数変換対数に変換する手法。金額やカウント表す変数に適用 numpy.log 外れ値に頑健四分位範囲が1になるよう変換する手法 sklearn.preprocessing.RobustScaler 参考文献 Python機械学習クックブック Kaggleで勝つデータ分析の技術上記以外にも多種多様な変換手法あり

標準化か？正規化か？標準化と正規化のどちらを使えばいいの？参考文献 Python機械学習クックブック〜Python機械学習クックブックの抜粋〜　主成分分析には標準化が適しているが、ニューラルネットワークには min-maxスケール変換が適している。一般には、何か特別な理由がない限り標準化を用いたほうがよい。

ご静聴ありがとうございました

前処理と特徴量エンジニアリング

前処理と特徴量エンジニアリング

hamage

More Decks by hamage

Other Decks in Technology

Featured

Transcript

前処理と特徴量エンジニアリング 2020年5月28日濱川　普紀

自己紹介大阪在住職業：某繊維メーカーで工場のスマート化に従事しています Python歴：2年趣味：作曲 Name : 濱川普紀 Hamakawa Hirotoshi

経歴 2000年8月某産業機械メーカーに就職電気設計を従事 2016年7月某産業機械メーカーで IoT開発に従事 2020年3月某繊維メーカーに就職工場のスマート化に従事

Agenda １．前処理が作業の８０％２．データ量は足りてるか？３．逆に特徴量が多い？４．異常データが足りない！５．標準化か？正規化か？

前処理が作業の80%

前処理が作業の80% 機械学習は、前処理や特徴量エンジニアリングばかり、、、。機械学習のコーディングはたったこれだけ Hidden Technical Debt in Machine Learning

前処理が作業の80% データが集まった後の作業フローは、、、 EDAや特徴量エンジニアリングばかり Feature Engineering and Selection Practical Data Science

データ量は足りているか？

データ量は足りているか？最低限必要なデータ量。例えば多変量関数で考えると。。。変数の数だけ数式が必要。→特徴量の数以上のデータ量が必要だけど、これじゃ少し足りない？

データ量は足りているか？バーニーおじさんの定理では10倍必要と言うが、、、でもこんなにデータを集められない。 Generalization and Parameter Estimation in Feedforward Nets

逆に特徴量が多い？

逆に特徴量が多い？分散の小さい特徴量 →VarianceThresholdを使用注意）１．特徴量に単位の違うものが混じっているとうまく機能しない２．閾値は自分で決める必要がある

逆に特徴量が多い？相関の強い特徴量注意）閾値は自分で決める必要がある（0.7〜0.95ぐらい？？）

逆に特徴量が多い？クラス分類に無関係な特徴量（特徴量がカテゴリデータの場合） →カイ2乗統計量を使用

逆に特徴量が多い？クラス分類に無関係な特徴量（特徴量が数値データの場合） →F値を使用

逆に特徴量が多い？回帰に無関係な特徴量 →引数をf_regressionにする

逆に特徴量が多い？ラッパー法（反復特徴量選択） →再帰的特徴量削減（recursive feature elimination：RFE）

逆に特徴量が多い？組み込み法（埋め込み法） →モデルベース特徴量選択（SelectFromModel）使用

異常データが足りない！

異常データが足りない！データレベルのアプローチ（imbalanced-learnを使用したオーバーサンプリング）参考サイト Usage of the sampling_strategy parameter for

異常データが足りない！データレベルのアプローチ（imbalanced-learnを使用したアンダーサンプリング）参考サイト Usage of the sampling_strategy parameter for

異常データが足りない！コスト考慮型学習のアプローチ →class_weight="balanced"と指定し、データ量に応じた重み付け参考文献 Python機械学習クックブック

異常データが足りない！異常検知手法を適用するアプローチ →異常検知手法：ホテリング理論参考文献入門機械学習による異常検知入門機械学習による異常検知―Rによる実践ガイドをPythonで実装 T2統計量、Q統計量

標準化か？正規化か？

標準化か？正規化か？機械学習で行う主なスケーリング標準化データ全体を標準正規分布に近似する手法 sklearn.preprocessing.StandardScaler 正規化データ全体の最小値を最大値を揃える手法 sklearn.preprocessing.MinMaxScaler

ご静聴ありがとうございました