スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた

スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみたデータアナリティクス事業本部玉井励

スライドは後で入手することが出来ますので発表中の内容をメモする必要はありません。写真撮影をする場合はフラッシュ・シャッター音が出ないようにご配慮ください

3 ハッシュタグイベント全体について #cmdevio この部屋のセッションについて #cmdevio4

4 自己紹介玉井励（タマイレイ） • データアナリティクス事業本部 • 大阪オフィス勤務 •
今日は出張で東京に来ました • 3日後にはアメリカ出張人生のモットー • 群れない媚びない頑張らない

5 空前の機械学習ブーム

6 空前の機械学習ブーム

7 機械学習をやるために必要そうなもの

8 機械学習をやるために必要そうなもの

9 勉強できそうな本もたくさん

10 技術的なことはわかってきた

11 でも、これらの技術を実際に使ってみた話はあんまり聞いたことがない？

12 今日は機械学習を実際にやってみた話をします

13 本日お話すること

14 本日お話すること • 機械学習を使ったデータ分析プロジェクトをやってみたという経験談 • Alteryx • Amazon Rekognition
• スティーブン・セガールに関する簡単な説明

15 Alteryx？

16 Alteryx Designer

17 本日お話しないこと

18 本日お話しないこと • Alteryxの詳しい説明 • 機械学習に関する高度な説明 • データ分析におけるベストプラクティス • インフラについて
• スティーブン・セガールに関する詳しい説明

19 「やってみた」という物語～沈黙の分析

20 仕事ではじめる機械学習めちゃくちゃ参考にしました

21 書評も書きました https://dev.classmethod.jp/book-review/donated-book-machine- learning-to-begin-with-work/

22 機械学習でデータ分析する時の流れ

23 「仕事ではじめる機械学習」より 1. 問題を定式化する 2. 機械学習以外の方法を考える 3. アルゴリズムを選定する 4. 特徴量、教師データとログの設計をする
5. 前処理をする 6. 学習・パラメータチューニング 7. 評価

25 ビジネスだったら • ECサイトの売上をあげたい • 工場の消費電力のコストを下げたい

26 ビジネスだったら • ECサイトの売上をあげたい • ECサイトの売上を上げるために、ユーザー毎におすすめ商品を提示する • 工場の消費電力のコストを下げたい •
工場の消費電力を最適化するために、消費電力を予測する

27 問題を定式化する今回は？

スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた（再掲）

29 セガール映画の邦題主演作の邦題には「沈黙の～」で始まるものが多いため、まとめて『沈黙シリーズ』と呼ばれることが多いが、実際のシリーズ作は『沈黙の戦艦』とその続編『暴走特急』（シリーズ原題『Under Siege』）のみである。他は日本国内での配給権を得た会社が、配給会社にかかわらず、原題とは無関係に「沈黙の～」としているにすぎない。
https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82% A3%E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82% BB%E3%82%AC%E3%83%BC%E3%83%AB

30 問題を定式化する • スティーブン・セガールが出演する映画で、「沈黙」がつくのは、どういう作品になるのか知りたい • スティーブン・セガールが出演する映画で、まだ邦題がついていない作品に、もし邦題がつくとしたら、「沈黙」がつくかどうか知りたい

31 問題を定式化するセガール映画のデータを元に、邦題に「沈黙」がつくかどうか予測する

32 こういう人もいるかもしれないスティーブン・セガールって？

33 スティーブン・セガールについてスティーヴン・フレデリック・セガール（Steven Frederick Seagal / 1952年4月10日 - ）は、アメリカ合衆国の俳優で、テキサス州ハズペス郡保安局の執行
官、武道家。合気道七段。 https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82% A3%E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82% BB%E3%82%AC%E3%83%BC%E3%83%AB

34 スティーブン・セガールについて 17歳の時から10年以上大阪府に滞在していたため、日本語が堪能。千葉真一と親交があり、千葉がハリウッドに拠点を移してからは、セガールが流暢な大阪弁で「千葉先生、居てはりまっか？」などと、頻繁に千葉へ連絡している。淀川長治とも日本語で対談を行い、淀川の「日本語がお上手ですね」に対してセガールは「恐れ入ります」と応えた。 https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82%
A3%E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82% BB%E3%82%AC%E3%83%BC%E3%83%AB

35 スティーブン・セガールについて遅刻と早退の常習犯で、『沈黙の脱獄』と『沈黙の傭兵』を製作したキル・マスター・プロダクションとニュー・イメージから、映画製作を遅らせたとして訴えられた。その訴訟内容の中には脚本の勝手な書き換えや、取り巻き連中による撮影の妨害という内容まである。 https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82% A3%E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82% BB%E3%82%AC%E3%83%BC%E3%83%AB

36 スティーブン・セガールの受賞歴ゴールデンラズベリー賞 • 最低監督賞：受賞『沈黙の要塞』、最低作品賞：ノミネート『沈黙の要塞』、最低主演男優賞：ノミネート『沈黙の要塞』（1994年） • 最低助演男優賞：ノミネート『エグゼクティブ・デシジョン』（1996年） • 最低主演男優賞：ノミネート『沈黙の断崖』、最低主題歌賞：ノミネート『沈
黙の断崖』、最低作品賞：ノミネート『沈黙の断崖』、最低スクリーン・カップル賞：ノミネート『沈黙の断崖』（1997年） • 最低主演男優賞：『奪還 DAKKAN -アルカトラズ-』（2002年） https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82%A3% E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82%BB%E3 %82%AC%E3%83%BC%E3%83%AB

38 機械学習以外の方法を考える機械学習（をビジネスに組み込むの）は難しい • （予測に対して）必ず一定の間違いが発生する • モデルをずっとメンテナンスし続ける必要がある • 機械学習を用いたシステムは技術的負債が蓄積しやすい •
そういう論文があります • https://ai.google/research/pubs/pub43146

39 機械学習以外の方法を考える目的は「問題を解決すること」

40 機械学習以外の方法を考える • 機械学習自体が目的ではない • 例えばBIツール等でデータを分析してみて、それで問題解決へのアクションが分かればそれに越したことはない

41 機械学習以外の方法で予測してみた例 2010年代から全部「沈黙」がついている →今後の作品も全部「沈黙」がつくのでは？

43 機械学習の種類 • 分類 • 回帰 • その他

44 分類 • このメールはスパムかどうか？ • この画像は犬か猫か？ • 教師あり学習 •
入力データとそれに対する正解カテゴリ（クラス）をもとに学習し、未知のデータに対してカテゴリを予測する

45 回帰 • 来年の売上を予測したい • うちのWebサイトのアクセス数はどうなる？ • 教師あり学習 •
入力データとそれに対する正解の数値をもとに学習し、未知のデータに対して数値（連続値）を予測する

46 強化学習

47 その他 • クラスタリング • 次元削減 • 推薦 • 頻出パターンマイニング
• 異常検知（outlier detection） • …など

48 アルゴリズムを選定する今回は？

49 アルゴリズムを選定する「沈黙」がつくかどうか

50 アルゴリズムを選定する分類です

51 分類のアルゴリズム • ロジスティック回帰 • サポートベクターマシン • ニューラルネットワーク • 決定木
• ランダムフォレスト • …などなど

52 アルゴリズムを選定する複数のアルゴリズムを併用して一番結果が良いものを選択する

53 今回はこの4つを試したいと思います • ロジスティック回帰 • ニューラルネットワーク • 決定木 • ランダムフォレスト

54 ロジスティック回帰とは • シンプルなアルゴリズム • 予測性能はそこそこ • 学習速度が速い • （予測時に）確率が出る
• Google Mapの駐車場の空き具合推定に使われている • https://ai.googleblog.com/2017/02/u sing-machine-learning-to- predict.html

55 ニューラルネットワークとは • 脳の神経回路の情報伝達の方法から着想を得たので、この名前（らしい） • 学習速度は遅め • GPUを活用することで改善
• パラメータの数が多い • チューニングが難しい • 過学習しやすい • これがめっちゃ進化したのがディープラーニング

56 決定木とは • ツリー型のアルゴリズム • 人間がみて理解しやすいモデル • IF文が連発してる感じ •
過学習しやすい • 「枝刈り」という手法で対策

57 ランダムフォレストとは • 決定木をの応用版 • 決定木を複数並行で行い、結果を多数決で統合する • 決定木より予測性能は高い（といわれている）
• 過学習しやすい • 「枝刈り」がない（しない）

59 特徴量、教師データとログの設計をするどんなデータをどこからとってきてどういう形にするべきか

60 ざっくり考えてみる… • スティーブン・セガールが出演した映画のデータ • 出演者 • 公開年 • ジャンル
• 上映時間 • …など • 邦題も必要

61 データ取得先の候補 TMDb API OMDb API

62 The Movie Database API （TMDb API） • APIでデータをとってこれる
• 無償（重要） • 特徴量として使えそうなデータが少なめ • https://www.themovied b.org/

63 The Open Movie Database API（OMDb API） • APIでデータをとってこれる
• 無償（重要） • 特徴量として使えそうなデータが多め • http://www.omdbapi.co m/

64 OMDb APIに決定しそうな勢いだったが… OMDb APIは必ず作品名か IMDbのIDを投げないといけない

65 どういうことか理想はリクスエストパラメータに「Seagal」とか投げて、セガール映画のデータを一気に取りたかった • OMDb APIはそれができない（タイトルかIMDb IDがいる） •
セガール映画のIDリストを別途用意して、それをもとに OMDb APIに投げる必要あり

66 セガール映画のIMDb IDを一気に取得したい TMDb APIで可能

67 データ取得先の候補 2つのAPIを両方使うことに決定

68 次の問題邦題はどうする？

69 Wikipediaをスクレイピングせざるをえない

70 APIのデータとWikipedia（邦題）データ「原題」で結合する

71 まとめ • TMDbのAPIからスティーブン・セガールが出演した映画のIMDbのIDを取得する • OMDbのAPIからスティーブン・セガールが出演した映画のデータを取得する • スティーブン・セガールのWikipediaから原題と邦題
のデータを取得する • 上記2つのデータを「原題」で結合する

73 前処理をする • TMDbのAPIからスティーブン・セガールが出演した映画のIMDbのIDを取得する • OMDbのAPIからスティーブン・セガールが出演した映画のデータを取得する • スティーブン・セガールのWikipediaから原題と邦題

74 /discover/movie • /discover/movie • ここに欲しい映画に関するワードをリクエストに投げれば、IMDb IDがレスポンスとして取得でき
る

75 リクスエストパラメータセガールの名前ではなくIDが必要

76 /search/person • /search/person • queryに「seagal」と投げてセガールのIDを取得する

77 ついにAlteryxが登場

78 1.セガールID取得ワークフロー

82 2.セガール映画データ取得ワークフロー

83 2.セガール映画データ取得ワークフローセガールIDを使用してセガール映画のIMDb IDを取得

85 2.セガール映画データ取得ワークフローセガール映画のIMDb IDを使用してセガール映画のデータを取得

90 3.セガール映画の邦題取得ワークフロー

91 Dashblock Webサイトの任意の値を API化して取得できるアプリケーション https://dashblock.com/

92 3.セガール映画の邦題取得ワークフロー DashblockでWikipediaのデータを API化し、そこからGET

93 3.セガール映画の邦題取得ワークフロー取得したJSONを整形

94 3.セガール映画の邦題取得ワークフロー

96 3.セガール映画データと邦題の結合ワークフロー

97 3.セガール映画データと邦題の結合ワークフロー原題で結合

98 3.セガール映画データと邦題の結合ワークフロー想定以上に結合漏れする映画が発生（数十件）

99 どういうことか API側とWikipediaで大文字と小文字の表記が異なっていた • 「Above the Law」と「Above The Law」など
• 双方とも全て大文字に変換してから結合することで対策

100 3.セガール映画データと邦題の結合ワークフローそれでも結合漏れする映画が発生

101 1つづつ確認していくそもそも日本未配給だった（要するに邦題がない） • Get Bruce! • The Unbeatable Bruce
Lee • How to Blow Up a Helicopter (Ayako's Story) • Sheep Impact • The Joe Show • 80’s Blockbusters: When Hollywood Played Tough

102 本来結合するべきはずの映画たち Urban Justice • 原題は「Renegade Justice」（Wikipediaはこっち） • しかしアメリカ版DVDだけ「Urban Justice」（API側は
こっち） • ちなみに邦題は「沈黙の報復」

103 本来結合するべきはずの映画たち Cartels • 英語版Wikipediaの説明文 • Cartels also known as
Killing Salazar[1] is a 2017 action film starring Steven Seagal and directed by Keoni Waxman. • セガールの日本語Wikipediaには「Killing Salazar」という映画が記載。99%とこの作品と判断。 • ちなみに邦題は「キリング・サラザール沈黙の作戦」

104 この2作品はどうする？面倒なので出力したcsvを直接編集した

105 3.セガール映画データと邦題の結合ワークフロー邦題に「沈黙」を含んでたらTrue

106 3.セガール映画データと邦題の結合ワークフロー

107 これでデータは揃った…？まだ前処理は終わらない

108 機械学習の前処理として避けられない • ダミー変数（化） • 欠損値の補完 • 正規化

109 ダミー変数とは題名脚本 Above the Law Andrew Davis (story)
Hard to Kill Steven McKay Marked for Death Michael Grais Out for Justice R. Lance Hill

110 ダミー変数とは題名脚本_Andrew Davis (story) 脚本_Steven McKay … Above
the Law 1 0 … Hard to Kill 0 1 … Marked for Death 0 0 … Out for Justice 0 0 …

111 欠損値とは • 一言でいうとNULLのこと • NULLがあると学習が回らない • 補完する必要がある • 手法はいろいろ…
• 平均を代入する • 中央値を代入する • 最頻出値を代入する • 任意の固定値を代入する • …などなど

112 正規化とはデータ等々を一定のルール（規則）に基づいて変形し、利用しやすくすること。 • by Wikipedia • 例えば身長と体重は純粋に数字だけで比較できない •
同じ粒度に変換して、計算や比較を行いやすいようにする

113 欠損値補完、正規化、ダミー変数化するWF

114 欠損値補完、正規化、ダミー変数化するWF

115 欲張り屋さんなんだから～気になるデータがまだ2つあります

116 学習に使えそうな2つのデータ • 映画のあらすじ • 文章データ • ポスター画像（のURL） • 画像データ

117 学習に使えそうな2つのデータ

118 これらを学習に使うためには？ • 映画のあらすじ • 自然言語処理 • ポスター画像（のURL） • 画像認識

119 二兎追う者は一兎も得ず（時間的にもスキル的にも）どちらか一方しかできない

120 二兎追う者は一兎も得ずポスター画像から学習に使えそうなデータをとってくることにしました

121 理由 • 日本の配給会社は映画の内容と関係なく「沈黙」をつけている • 「映画のあらすじ」は映画の内容を表しているデータなので、今回の学習・予測には不適格と判断

122 ポスター画像から何をデータとして取り出すのか • 前作（「沈黙の分析2」@大阪）で下記の発言をした • 「ポスター画像内でセガールの顔が占める割合」が大きいほど「沈黙」がつくのでは …？（沈黙の仮説）
※TMDB APIから取得したポスター画像（沈黙の追撃） https://m.media-amazon.com/images/M/MV5BMjM2MjAyMDUzMl5BMl5BanBnXkFtZTgwNTMxNjAwNzE@._V1_SX300.jpg

123 沈黙の画像セガール映画のポスター画像の中でセガールの顔が占める割合を計算しそのデータを学習データをして使用する

124 Amazon Rekognition

125 有名人の認識 ※TMDB APIから取得したポスター画像（沈黙の追撃） https://m.media-amazon.com/images/M/MV5BMjM2MjAyMDUzMl5BMl5BanBnXkFtZTgwNTMxNjAwNzE@._V1_SX300.jpg

126 沈黙の画像認識全画像に一括で「有名人認識」を実行すればすぐ終わるやん

127 沈黙の画像認識そうは問屋が卸さなかった

128 複数のケースが発生 • セガールと認識された+写ってる人間が1人 • セガールと認識された+写ってる人間が複数 • セガールと認識されないが顔としては認識された＋写ってる人間が1人 •
セガールと認識されないが顔としては認識された＋写ってる人間が複数 • セガールと認識されない＋そもそも顔自体が認識されない • 別の有名人と認識されたが、よく見たらセガールだった

129 複数のケースが発生 • 取得できるデータはJSON形式 • データだけではどれがセガールか分からないケースが出てきた • SDKやAWS CLIを使用した場合、
画像自体は確認できないため

130 セガールと認識された+写ってる人間が1人 • そこに写っているのはセガール本人であると判断 • 取得したデータをそのまま使用する ※TMDB APIから取得したポスター画像（沈黙の追撃）
https://m.media-amazon.com/images/M/MV5BMjM2MjAyMDUzMl5BMl5BanBnXkFtZTgwNTMxNjAwNzE@._V1_SX300.jpg

131 セガールと認識された+写ってる人間が複数 • セガールと判断されたデータはセガール本人であると判断（信用する） • セガール部分のデータをそのまま使用する ※TMDB
APIから取得したポスター画像（弾突 DANTOTSU） https://m.media-amazon.com/images/M/MV5BMTY0MjM0OTQ4OV5BMl5BanBnXkFtZTcwODg4NjI5MQ@@._V1_SX300.jpg

132 セガールと認識されないが顔としては認識された＋写ってる人間が1人 • 画像を目視してセガール本人であることを確認 • セガール本人と確認できたものはそのままデータを使用する ※TMDB
APIから取得したポスター画像（沈黙の激突） https://m.media-amazon.com/images/M/MV5BMTQ2ODkyODAyM15BMl5BanBnXkFtZTgwNjY0NjAwNzE@._V1_SX300.jpg

133 セガールと認識されないが顔としては認識された＋写ってる人間が複数 • 画像を目視してどれがセガールなのか確認 • セガール本人と確認できたデータを使用する ※TMDB APIから取得したポスター画像（沈黙の帝王）
https://m.media- amazon.com/images/M/MV5BNzZlYWNmYzItMTVlMC00MDNlLWI3MzEtNGE1Njg4ZmZiMWYzXkEyXkFqcGdeQXVyMjE4ODM 4MjI@._V1_SX300.jpg

134 セガールと認識されない＋そもそも顔自体が認識されない • 「顔の分析」という別の機能を使用 • 複数人が写っている場合は、画像を目視してどれがセガールなのか確認 •
セガール本人と確認できたデータを使用する ※TMDB APIから取得したポスター画像（沈黙の粛清） https://m.media- amazon.com/images/M/MV5BMGI1ODNkYTQtZGM5YS00Y2NkLWJhZDQtMWQ2MzkxOGVjOGViXkEyXkFqcGdeQXVyMjMzMz Y4Njk@._V1_SX300.jpg

135 顔の分析 ※TMDB APIから取得したポスター画像（沈黙の粛清） https://m.media- amazon.com/images/M/MV5BMGI1ODNkYTQtZGM5YS00Y2NkLWJhZDQtMWQ2MzkxOGVjOGViXkEyXkFqcGdeQXVyMjMzMz Y4Njk@._V1_SX300.jpg

136 別の有名人と認識されたが、よく見たらセガールだった • データとしてはBruce Maimuth氏として認識 • 念の為目視で確認 • どう見てもセガールやないかい
• セガールのデータとして使用 ※TMDB APIから取得したポスター画像（ハード・トゥ・キル） https://m.media-amazon.com/images/M/MV5BMTc4NzE1NTU5N15BMl5BanBnXkFtZTgwNTgwNTg4NjE@._V1_SX300.jpg

137 沈黙の画像認識のまとめ • 有名人認識でセガールを認識されなかったものは、ほとんど目視で確認 • セガールの顔エリアの縦×横の値を取得した後、下記の計算を行う • （セガールの顔エリアの縦×横）/（ポスター画像の縦×
横）

138 沈黙の画像認識ワークフロー

140 沈黙予測モデル作成ワークフロー

141 沈黙予測モデル作成ワークフローサンプルデータだけ抽出 ※詳細は後述

142 沈黙予測モデル作成ワークフロー

143 ロジスティック回帰ツール目的変数（予測したい値）説明変数（予測に使用する変数）

144 ロジスティック回帰ツール目的変数（沈黙フラグ）説明変数（出演俳優とかジャンルとか…）

145 ロジスティック回帰ツールよくわかんないので全カラム指定してみた

146 ロジスティック回帰ツール

147 ロジスティック回帰ツールエラー

148 ロジスティック回帰ツールデータ数に対して説明変数が多すぎるとうまく学習できないらしい

150 そもそもデータ数ってどれくらいいるのか？ https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

151 そもそもデータ数ってどれくらいいるのか？

152 そもそもデータ数ってどれくらいいるのか？

153 そもそもデータ数ってどれくらいいるのか？ 54件は少なすぎでしょ…

155 沈黙の復活さすがにここでは終われないので無理やりにでも続けます

157 説明変数を極端に減らしてみると成功

158 ロジスティック回帰ツールどの説明変数をどれだけ指定するのがベストなのか？

159 p値が低すぎる説明変数を省く • データが偏りすぎている変数は省く • 1が一つしかないダミー変数とか • p値が高すぎる説明変数を省く • 手法がいくつかあります

160 p値が低すぎる説明変数を省く • データが偏りすぎている変数は省く • 1が一つしかないダミー変数とか • p値が低すぎる説明変数を省く • 手法がいくつかあります

161 p値が低すぎる説明変数を省く AIC（赤池情報量基準）を使用する • 統計学者の赤池弘次氏が考案 • そのモデルのAICが小さいほど、そのモデルの精度は良いと評価できる • 説明変数を選択する基準によく用いられる

162 AICはいいんだけど… 「p値が一番大きい変数を1つずつ外してはAIC を確認…外してはAICを確認…」面倒そう…

163 AICはいいんだけど… Alteryxは自動でできる

164 ステップワイズツールを投入する

165 ステップワイズツールを投入する基準はAIC、p値が大きいものから減らしていく方法を指定

166 ついにロジスティック回帰成功か？これでいけるか？

167 ついにロジスティック回帰成功か？エラー

168 ついにロジスティック回帰成功か？いくらステップワイズツール入れてもやっぱり説明変数多すぎるらしい

169 どっちの対策もやることに • データが偏りすぎている変数は省く • 1が一つしかないダミー変数とか • p値が低すぎる説明変数を省く • 手法がいくつかあります

170 データが偏りすぎている変数は省く • 俳優系のダミー変数はほぼ全部偏っていた • 大体、一度しか出演してない俳優 • （当然ながら）逆にセガールは全部出ている • 公開国のダミー変数もほぼ全部偏っていた
• 逆にアメリカはほとんど全部公開国 • 脚本家とかもほとんど全部偏っていた • …など

171 説明変数の選択偏っているか微妙なデータはどうする？

172 説明変数の選択センス

173 データに対する知見は絶対必要 • もちろんグラフ等で偏りをしっかり確認するのは大事 • しかし、データに対する知見（センス）も必要 • 例：監督がキオニ・ワックスマンかどうかは必要と思う • キオニ・ワックスマンはいつもの何とも言えないセガール映画
を量産している監督で有名 • キオニ・ワックスマンが監督の時は「沈黙の～」になるのでは？？という仮説も浮かんだり。

174 そして… ひとまずロジスティック回帰動きました

175 最終的に選択した説明変数

176 今回は他のアルゴリズムも使います他のアルゴリズムも同じ要領で設定する

177 他のアルゴリズムも投入

178 他のアルゴリズムも投入決定木ランダムフォレストニューラルネットワーク

179 学習結果が明らかにおかしい場合もある学習結果が明らかにおかしい場合 • 例：結果が良すぎる場合 • p値がどれも0に極めて近い（全部が有意になっている）

180 学習結果が明らかにおかしい場合もある過学習（または未学習）の可能性

181 過学習とは • 学習したデータはバッチリ予測できる • 未知のデータはてんでダメ • テスト勉強で問題を丸暗記しただけ、な状態 • →テスト以外の問題問題が出たら解けない

182 交差検証（クロスバリデーション）全データ開発データテストデータ訓練データ検証データ ※交差検証にも色々な手法があります

183 交差検証（クロスバリデーション）

185 モデルの評価そのモデルの予測精度はいいのか？それとも悪いのか？

186 モデルの評価指標 • 正解率 • 適合率 • 再現率 • F値

187 正解率（Accuracy）正解した数 / 予測した全データ数 • シンプル • これでいい？

188 正解率（Accuracy）正解率で精度を評価するのはダメ

189 正解率（Accuracy）すべて「沈黙がつく」と予測するモデル • データの偏りによってはそれなりの精度になる • そのモデルに意味はあるか？

190 ではどうすれば？適合率と再現率を見る

191 適合率と再現率適合率（Precision） • モデルがTrueと予測したうち、実際に正解していた割合 • 「沈黙がついている」と予測したうち、実際に正解していた割合再現率（Recall） •
全データに含まれるTrueのうち、モデルが正解した割合 • 実際に「沈黙」がついている映画のうち、モデルが実際に正解した割合

192 適合率と再現率適合率と再現率はトレード・オフの関係正確性見逃し適合率高多再現率低
少

193 適合率、再現率、F値どの指標を優先するかは、分析の要件による • 今回の「沈黙の予測」は予測するからには外したくないので、適合率優先でいきます。

194 F値 • 適合率と再現率のバランスを表した指標 • 1に近いほどよい

195 どうやって出すのか Alteryxはこれらの指標も出してくれます

196 モデル比較ツールを投入する

199 混同行列（Confusion Matrix）実際の結果が負（沈黙なし）実際の結果が真（沈黙なし）予測した結果が負（沈黙なし）予測した結果が
真（沈黙あり）

200 混同行列（Confusion Matrix）実際の結果が負（沈黙なし）実際の結果が真（沈黙なし）予測した結果が負（沈黙なし）真陰性
偽陰性予測した結果が真（沈黙あり）偽陽性真陽性

201 混同行列（Confusion Matrix）実際の結果が負（沈黙なし）実際の結果が真（沈黙なし）予測した結果が負（沈黙なし） 5
3 予測した結果が真（沈黙あり） 4 10

3 予測した結果が真（沈黙あり） 4 10 10 / 4+10 = 適合率

3 予測した結果が真（沈黙あり） 4 10 10 /3+10 = 再現率

204 再掲

205 数値の名前を説明に合わせます正解率 F値

206 数値の名前を説明に合わせます再現率 ※なぜか適合率はない…

207 今回の結果適合率再現率 F値ロジスティック回帰 66% 61% 0.52
決定木 60% 69% 0.37 ランダムフォレスト 71% 76% 0.58 ニューラルネットワーク 53% 69% 0.37

208 今回の結果ランダムフォレスト（で作成したモデル）を採用します

209 他にも評価するための手法は色々あります • リフトチャート • 適合率再現率曲線 • ROC曲線 • …など

210 圧倒的沈黙…ッッ… ついに「沈黙」を予測する時がきた

211 沈黙のワークフロー

212 沈黙のワークフロー予測したいデータ

213 沈黙のワークフローさっき作成したモデル

214 沈黙のワークフロー予測したいデータの形式も、学習時と同一にしておく（ダミー変数化や正規化など）

215 沈黙の予測結果

216 沈黙の予測結果「Sheep Impact」と「80’s Blockbusters～」に邦題をつけるとしたら、約60%の確率で「沈黙」がつく

217 80's Blockbusters, When Hollywood Played Toughを詳しく • 80年代アクションスターに関するドキュメンタリー •
スタローンとかシュワちゃんとか • どうやら制作はフランス？ • 作品としての評価はあまり良くない • https://www.amazon.com/Blockbusters-When-Hollywood- Played-Tough/dp/B076QX1HV1#customer-review-section • そもそもセガールはメインじゃない

218 所詮は機械学習… セガールが主人公じゃないドキュメンタリーなんかに「沈黙」の名は与えられない

219 Sheep Impactを詳しく • 2010年に放映されたオーストラリアの短編映画（4分） • カールトン&ユナイテッドブルワリーズの広告として制作された（ほとんどCM） • セガールとその友人がバーベキューに肉を持ち込んだら起
訴されて色々揉める話？ • YouTubeで普通に見れる • https://youtu.be/LgXXC7OTD3g

220 私が命名します「沈黙の羊たち」

221 セガール vs レクター博士？どこかで聞いたことがあるような…？

222 まとめに入ります

223 今回のプロジェクトの問題点データ少なすぎ • そもそも問題設定からして無理があった • 一人の俳優が出演した作品数なんて多くても2桁どまり • モデルの精度にも影響が出たアルゴリズムわかってなさすぎ
• ハイパーパラメータの調整とか一切やってない • そもそもアルゴリズムの選び方が適当すぎる

224 総まとめ問題設定はしっかり機械学習以外の方法を真剣に考えるデータに対する知識のある人が必要 • そのデータの内容をわかっていないと分析は不可アルゴリズムの使い方がわかる人が必要 • 今回のように”なあなあ”でやってもモデルは作れてしまう
前処理はやっぱり時間がかかる

スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた

スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた

More Decks by tama-chang

Other Decks in Technology

Featured

Transcript