AutoML 使ってみた

GCP Natural Language AutoML 触ってみた 1

ToC MLプロジェクトのプロセス MLプロジェクトににおける課題なぜAutoMLをやるのか AutoML の紹介（202008時点）先⾏事例やったことまとめ 2

MLプロジェクトのプロセス企画机上検証実証実験システム開発システム運⽤だいたいこんな感じ 3

MLプロジェクトにおける課題（の⼀部）主に机上検証・実証実験における課題データの質・量がよろしくないコードの品質が悪い適切なモデルをつくることが難しい 4

なぜAutoMLをやるのかデータの前処理やクレンジングを担ってくれるのかコードの質を気にせずにモデルをつくることができるのか適切なモデルというの確かめることができるかこれらを AutoML が解決できるのかを確かめる。 5

AutoML の紹介（202008時点） AutoML Vision（画像分析） AutoML Video Intelligence（動画分析） AutoML Natural Language（⾃然⾔語処理）
<- 今回はこれやる AutoML Translation（翻訳） AutoML Tables（構造化データの分析） 6

先⾏事例画像分類 LIFULL, 物件画像の分類 cookpad, 商品画像の分類その他事例 https://cloud.google.com/automl?hl=ja , etc
7

やったこと GCP Natural Language AutoML を使うデータの取得データの加⼯ AutoMLにデータを投⼊データが読み込まれる
8

GCP Natural Language AutoML を使うエンティティの抽出コンテンツ分類感情分析 <- 今回はこれやる
9

データの取得右の画像のようなレビューデータをGASでクローリング Spredsheet に保存全部で22アプリのレビューデータを取得ジャンルは、EC, Game, ⼈材,
漫画などなど 10

データのラベル付け今回はレビューデータを使うので、あらかじめ星が付いてる。したがって、ユーザーが付けた星を正とする。ラベルデータがないなら⾃分でラベルを付ける。 AutoML Natural Language UI（Data Labeling）などを活⽤する。
AI Platform Data Labeling Service を使⽤して⼈間のラベル付け担当者に依頼する。 11

データの加⼯収取したレビューデータをAutoML が望む形に加⼯する必要がある。いくつかある中で、今回は右のようなフォーマットを選択。 ✗: 1 label - 1
file ◦: 1 record - 1 file Source: https://github.com/konumaru/sentime nt_analysis/blob/master/main.py 12

データの投⼊（Items） 13

Train ワンクリックで実⾏できる。学習⽤データ・評価⽤データをよしなに分割してくれる。学習は何度も実⾏でき、モデルごとにUnique_IDが割り当てられる。評価⽤データにおける精度を確認できる。学習⽤データの精度がみれないので、過学習の判断ができない。
14

Evaluate 評価⽤データの評価結果が⾒れる。評価⽤データのラベルごとの数がわかる。評価結果では、Confusion Matrix もみることができる。 15

Test & Use 簡易的に未知のデータを使って予測することができる。勝⼿にREST API も作ってくれる。上記を呼べるようなpythonスクリプトの例も出してくれる。
16

Pros / Cons 17

Pros 決まったデータさえあれば予測モデルからAPIまでつくれる。 GUIでデータのクレンジングができる。 GUIで予測結果を探索できる。インタラクティブで楽しい。（良し悪しはあるが）学習・評価データを勝⼿に分割してくれる。 18

Cons 問題設定が限られるので使い所が難しいデータの前処理が必要なので no code という訳にはいかない。データの前処理が結構たいへん（ここが⼀番Autoになってほしいな...）⾃作する場合よりもモデルの解釈が難しい。過学習が判断できない。 19

まとめ基本的には便利机上検証・実証実験における課題のうち、コードにまつわる課題は解決されている。⼀⽅で、使い所が限られる。モデルの解釈・分析が難しい。データの前処理は相変わらず⼤変。⾊々あるが、今後⼤いに期待できるツールになるはず。 20

おまけ：本当に感情分析するなら感情というあいまいな情報を抽出しようという試みなのでどこかで妥協が必要機械的な分析を諦め、定性分析を⾏う -> tensorflow embedding 機械的な分析を諦められないなら -> 分散表現を獲得し、k-meansなどでクラスタリングした後、スコアリングするとか？
（しかし、ものすごくうまく動くことは期待できないと思う） 21

AutoML 使ってみた

AutoML 使ってみた

konumaru

More Decks by konumaru

Other Decks in Technology

Featured

Transcript

GCP Natural Language AutoML 触ってみた 1

ToC MLプロジェクトのプロセス MLプロジェクトににおける課題なぜAutoMLをやるのか AutoML の紹介（202008時点）先⾏事例やったことまとめ 2

MLプロジェクトのプロセス企画机上検証実証実験システム開発システム運⽤だいたいこんな感じ 3

MLプロジェクトにおける課題（の⼀部）主に机上検証・実証実験における課題データの質・量がよろしくないコードの品質が悪い適切なモデルをつくることが難しい 4

AutoML の紹介（202008時点） AutoML Vision（画像分析） AutoML Video Intelligence（動画分析） AutoML Natural Language（⾃然⾔語処理）

先⾏事例画像分類 LIFULL, 物件画像の分類 cookpad, 商品画像の分類その他事例 https://cloud.google.com/automl?hl=ja , etc

やったこと GCP Natural Language AutoML を使うデータの取得データの加⼯ AutoMLにデータを投⼊データが読み込まれる

GCP Natural Language AutoML を使うエンティティの抽出コンテンツ分類感情分析 <- 今回はこれやる

データの取得右の画像のようなレビューデータをGASでクローリング Spredsheet に保存全部で22アプリのレビューデータを取得ジャンルは、EC, Game, ⼈材,

データの加⼯収取したレビューデータをAutoML が望む形に加⼯する必要がある。いくつかある中で、今回は右のようなフォーマットを選択。 ✗: 1 label - 1

データの投⼊（Items） 13

Evaluate 評価⽤データの評価結果が⾒れる。評価⽤データのラベルごとの数がわかる。評価結果では、Confusion Matrix もみることができる。 15

Test & Use 簡易的に未知のデータを使って予測することができる。勝⼿にREST API も作ってくれる。上記を呼べるようなpythonスクリプトの例も出してくれる。

Pros / Cons 17