スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた

スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみたデータアナリティクス事業本部玉井励

スライドは後で入手することが出来ますので発表中の内容をメモする必要はありません。写真撮影をする場合はフラッシュ・シャッター音が出ないようにご配慮ください

3 自己紹介玉井励（タマイレイ） • データアナリティクス事業本部プロダクト営業部 • 営業ではありません
• サポートエンジニア • 群れない媚びない頑張らない

4 空前の機械学習ブーム

5 空前の機械学習ブーム

6 機械学習をやるために必要そうなもの

7 機械学習をやるために必要そうなもの

8 勉強できそうな本もたくさん

9 技術的なことはわかってきた

10 でも、これらの技術を実際に使ってみた話はあんまり聞いたことがない？

11 今日は機械学習を実際にやってみた話をします

12 本日お話すること

13 本日お話すること • 機械学習を使ったデータ分析プロジェクトをやってみたという経験談 • Alteryxというツールを使いました • スティーブン・セガールに関する簡単な説明

14 Alteryx？

15 Alteryx Designer

16 本日お話しないこと

17 本日お話しないこと • Alteryxの詳しい説明 • 機械学習に関する高度な説明 • データ分析におけるベストプラクティス • AWS等のインフラ
• →本作品はローカルPCの中が舞台です • スティーブン・セガールに関する詳しい説明

18 「やってみた」という物語～沈黙の分析

19 仕事ではじめる機械学習めちゃくちゃ参考にしました

20 書評も書きました https://dev.classmethod.jp/book-review/donated-book-machine- learning-to-begin-with-work/

21 機械学習でデータ分析する時の流れ

22 「仕事ではじめる機械学習」より 1. 問題を定式化する 2. 機械学習以外の方法を考える 3. アルゴリズムを選定する 4. 特徴量、教師データとログの設計をする
5. 前処理をする 6. 学習・パラメータチューニング 7. 評価

24 ビジネスだったら • ECサイトの売上をあげたい • 工場の消費電力のコストを下げたい

25 ビジネスだったら • ECサイトの売上をあげたい • ECサイトの売上を上げるために、ユーザー毎におすすめ商品を提示する • 工場の消費電力のコストを下げたい •
工場の消費電力を最適化するために、消費電力を予測する

26 問題を定式化する今回は？

スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた（再掲）

28 セガール映画の邦題主演作の邦題には「沈黙の～」で始まるものが多いため、まとめて『沈黙シリーズ』と呼ばれることが多いが、実際のシリーズ作は『沈黙の戦艦』とその続編『暴走特急』（シリーズ原題『Under Siege』）のみである。他は日本国内での配給権を得た会社が、配給会社にかかわらず、原題とは無関係に「沈黙の～」としているにすぎない。
https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82% A3%E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82% BB%E3%82%AC%E3%83%BC%E3%83%AB

29 問題を定式化する • スティーブン・セガールが出演する映画で、「沈黙」がつくのは、どういう作品になるのか知りたい • スティーブン・セガールが出演する映画で、まだ邦題がついていない作品に、もし邦題がつくとしたら、「沈黙」がつくかどうか知りたい

30 問題を定式化するセガール映画のデータを元に、邦題に「沈黙」がつくかどうか予測する

31 こういう人もいるかもしれないスティーブン・セガールって？

32 スティーブン・セガールについてスティーヴン・フレデリック・セガール（Steven Frederick Seagal / 1952年4月10日 - ）は、アメリカ合衆国の俳優で、テキサス州ハズペス郡保安局の執行
官、武道家。合気道七段。 https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82% A3%E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82% BB%E3%82%AC%E3%83%BC%E3%83%AB

33 スティーブン・セガールについて 17歳の時から10年以上大阪府に滞在していたため、日本語が堪能。千葉真一と親交があり、千葉がハリウッドに拠点を移してからは、セガールが流暢な大阪弁で「千葉先生、居てはりまっか？」などと、頻繁に千葉へ連絡している。淀川長治とも日本語で対談を行い、淀川の「日本語がお上手ですね」に対してセガールは「恐れ入ります」と応えた。 https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82%
A3%E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82% BB%E3%82%AC%E3%83%BC%E3%83%AB

34 スティーブン・セガールについて遅刻と早退の常習犯で、『沈黙の脱獄』と『沈黙の傭兵』を製作したキル・マスター・プロダクションとニュー・イメージから、映画製作を遅らせたとして訴えられた。その訴訟内容の中には脚本の勝手な書き換えや、取り巻き連中による撮影の妨害という内容まである。 https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82% A3%E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82% BB%E3%82%AC%E3%83%BC%E3%83%AB

35 スティーブン・セガールの受賞歴ゴールデンラズベリー賞 • 最低監督賞：受賞『沈黙の要塞』、最低作品賞：ノミネート『沈黙の要塞』、最低主演男優賞：ノミネート『沈黙の要塞』（1994年） • 最低助演男優賞：ノミネート『エグゼクティブ・デシジョン』（1996年） • 最低主演男優賞：ノミネート『沈黙の断崖』、最低主題歌賞：ノミネート『沈
黙の断崖』、最低作品賞：ノミネート『沈黙の断崖』、最低スクリーン・カップル賞：ノミネート『沈黙の断崖』（1997年） • 最低主演男優賞：『奪還 DAKKAN -アルカトラズ-』（2002年） https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%82%A3% E3%83%BC%E3%83%B4%E3%83%B3%E3%83%BB%E3%82%BB%E3 %82%AC%E3%83%BC%E3%83%AB

37 機械学習以外の方法を考える機械学習（をビジネスに組み込むの）は難しい • （予測に対して）必ず一定の間違いが発生する • モデルをずっとメンテナンスし続ける必要がある • 機械学習を用いたシステムは技術的負債が蓄積しやすい •
そういう論文があります • https://ai.google/research/pubs/pub43146

38 機械学習以外の方法を考える目的は「問題を解決すること」

39 機械学習以外の方法を考える • 機械学習自体が目的ではない • 例えばBIツール等でデータを分析してみて、それで問題解決へのアクションが分かればそれに越したことはない

40 機械学習以外の方法で予測してみた例 2010年代から全部「沈黙」がついている →今後の作品も全部「沈黙」がつくのでは？

42 機械学習の種類 • 分類 • 回帰 • その他

43 分類 • このメールはスパムかどうか？ • この画像は犬か猫か？ • 教師あり学習 •
入力データとそれに対する正解カテゴリ（クラス）をもとに学習し、未知のデータに対してカテゴリを予測する

44 回帰 • 来年の売上を予測したい • うちのWebサイトのアクセス数はどうなる？ • 教師あり学習 •
入力データとそれに対する正解の数値をもとに学習し、未知のデータに対して数値（連続値）を予測する

45 強化学習

46 その他 • クラスタリング • 次元削減 • 推薦 • 頻出パターンマイニング
• 異常検知（outlier detection） • …など

47 アルゴリズムを選定する今回は？

48 アルゴリズムを選定する「沈黙」がつくかどうか

49 アルゴリズムを選定する分類です

50 分類のアルゴリズム • ロジスティック回帰 • サポートベクターマシン • ニューラルネットワーク • 決定木
• ランダムフォレスト • …などなど

51 分類のアルゴリズム • ロジスティック回帰 • サポートベクターマシン • ニューラルネットワーク • 決定木
• ランダムフォレスト • …などなど

52 アルゴリズムを選定する • 本来は複数のアルゴリズムをやってみて、一番結果が良いものを選択する • 今回は話をシンプルにするため、とりあえずロジスティック回帰だけにしてみた • 勉強不足で複数のアルゴリズムを扱う能力がない

53 ロジスティック回帰とは • シンプルなアルゴリズム • 予測性能はそこそこ • 学習速度が速い • （予測時に）確率が出る
• Google Mapの駐車場の空き具合推定に使われている • https://ai.googleblog.com/2017/02/u sing-machine-learning-to- predict.html

55 特徴量、教師データとログの設計をするどんなデータをどこからとってきてどういう形にするべきか

56 ざっくり考えてみる… • スティーブン・セガールが出演した映画のデータ • 出演者 • 公開年 • ジャンル
• 上映時間 • …など • 邦題も必要

57 データ取得先の候補 TMDb API OMDb API

58 The Movie Database API （TMDb API） • APIでデータをとってこれる
• 無償（重要） • 特徴量として使えそうなデータが少なめ • https://www.themovied b.org/

59 The Open Movie Database API（OMDb API） • APIでデータをとってこれる
• 無償（重要） • 特徴量として使えそうなデータが多め • http://www.omdbapi.co m/

60 OMDb APIに決定しそうな勢いだったが… OMDb APIは必ず作品名か IMDbのIDを投げないといけない

61 どういうことか理想はリクスエストパラメータに「Seagal」とか投げて、セガール映画のデータを一気に取りたかった • OMDb APIはそれができない（タイトルかIMDb IDがいる） •
セガール映画のIDリストを別途用意して、それをもとに OMDb APIに投げる必要あり

62 セガール映画のIMDb IDを一気に取得したい TMDb APIで可能

63 データ取得先の候補 2つのAPIを両方使うことに決定

64 次の問題邦題はどうする？

65 Wikipediaをスクレイピングせざるをえない

66 APIのデータとWikipedia（邦題）データ「原題」で結合する

67 まとめ • TMDbのAPIからスティーブン・セガールが出演した映画のIMDbのIDを取得する • OMDbのAPIからスティーブン・セガールが出演した映画のデータを取得する • スティーブン・セガールのWikipediaから原題と邦題
のデータを取得する • 上記2つのデータを「原題」で結合する

69 前処理をする • TMDbのAPIからスティーブン・セガールが出演した映画のIMDbのIDを取得する • OMDbのAPIからスティーブン・セガールが出演した映画のデータを取得する • スティーブン・セガールのWikipediaから原題と邦題

70 /discover/movie • /discover/movie • ここに欲しい映画に関するワードをリクエストに投げれば、IMDb IDがレスポンスとして取得でき
る

71 リクスエストパラメータセガールの名前ではなくIDが必要

72 /search/person • /search/person • queryに「seagal」と投げてセガールのIDを取得する

73 ついにAlteryxが登場

74 1.セガールID取得ワークフロー

78 2.セガール映画データ取得ワークフロー

79 2.セガール映画データ取得ワークフローセガールIDを使用してセガール映画のIMDb IDを取得

81 2.セガール映画データ取得ワークフローセガール映画のIMDb IDを使用してセガール映画のデータを取得

86 3.セガール映画の邦題取得ワークフロー

87 Dashblock Webサイトの任意の値を API化して取得できるアプリケーション https://dashblock.com/

88 3.セガール映画の邦題取得ワークフロー DashblockでWikipediaのデータを API化し、そこからGET

89 3.セガール映画の邦題取得ワークフロー取得したJSONを整形

90 3.セガール映画の邦題取得ワークフロー

92 3.セガール映画データと邦題の結合ワークフロー

93 3.セガール映画データと邦題の結合ワークフロー原題で結合

94 3.セガール映画データと邦題の結合ワークフロー邦題に「沈黙」を含んでたらTrue

95 3.セガール映画データと邦題の結合ワークフロー想定以上に結合漏れする映画が発生（数十件）

96 どういうことか API側とWikipediaで大文字と小文字の表記が異なっていた • 「Above the Law」と「Above The Law」など
• 双方とも全て大文字に変換してから結合することで対策

97 3.セガール映画データと邦題の結合ワークフローそれでも結合漏れする映画が発生

98 1つづつ確認していくそもそも日本未配給だった（要するに邦題がない） • Get Bruce! • The Unbeatable Bruce
Lee • How to Blow Up a Helicopter (Ayako's Story) • Sheep Impact • The Joe Show • 80’s Blockbusters: When Hollywood Played Tough

99 本来結合するべきはずの映画たち Urban Justice • 原題は「Renegade Justice」（Wikipediaはこっち） • しかしアメリカ版DVDだけ「Urban Justice」（API側は
こっち） • ちなみに邦題は「沈黙の報復」

100 本来結合するべきはずの映画たち Cartels • 英語版Wikipediaの説明文 • Cartels also known as
Killing Salazar[1] is a 2017 action film starring Steven Seagal and directed by Keoni Waxman. • セガールの日本語Wikipediaには「Killing Salazar」という映画が記載。99%とこの作品と判断。 • ちなみに邦題は「キリング・サラザール沈黙の作戦」

101 この2作品はどうする？面倒なので出力したcsvを直接編集した

102 3.セガール映画データと邦題の結合ワークフロー

103 これでデータは揃った…？まだ前処理は終わらない

104 機械学習の前処理として避けられない • ダミー変数（化） • 欠損値の補完 • 正規化

105 ダミー変数とは題名脚本 Above the Law Andrew Davis (story)
Hard to Kill Steven McKay Marked for Death Michael Grais Out for Justice R. Lance Hill

106 ダミー変数とは題名脚本_Andrew Davis (story) 脚本_Steven McKay … Above
the Law 1 0 … Hard to Kill 0 1 … Marked for Death 0 0 … Out for Justice 0 0 …

107 欠損値とは • 一言でいうとNULLのこと • NULLがあると学習が回らない • 補完する必要がある • 手法はいろいろ…
• 平均を代入する • 中央値を代入する • 最頻出値を代入する • 任意の固定値を代入する • …などなど

108 正規化とはデータ等々を一定のルール（規則）に基づいて変形し、利用しやすくすること。 • by Wikipedia • 例えば身長と体重は純粋に数字だけで比較できない •
同じ粒度に変換して、計算や比較を行いやすいようにする

109 4.欠損値補完、正規化、ダミー変数化するWF

110 4.正規化とダミー変数化するワークフロー

112 沈黙予測モデル作成ワークフロー

113 沈黙予測モデル作成ワークフローサンプルデータだけ抽出 ※詳細は後述

114 沈黙予測モデル作成ワークフロー

115 ロジスティック回帰ツール目的変数（予測したい値）説明変数（予測に使用する変数）

116 ロジスティック回帰ツール目的変数（沈黙フラグ）説明変数（出演俳優とかジャンルとか…）

117 ロジスティック回帰ツールよくわかんないので全カラム指定してみた

118 ロジスティック回帰ツール

119 ロジスティック回帰ツールエラー

120 ロジスティック回帰ツールデータ数に対して説明変数が多すぎるとうまく学習できないらしい

122 そもそもデータ数ってどれくらいいるのか？ https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

123 そもそもデータ数ってどれくらいいるのか？

124 そもそもデータ数ってどれくらいいるのか？

125 そもそもデータ数ってどれくらいいるのか？ 54件は少なすぎでしょ…

127 沈黙の復活さすがにここでは終われないので無理やりにでも続けます

129 説明変数を極端に減らしてみると成功

130 ロジスティック回帰ツールどの説明変数をどれだけ指定するのがベストなのか？

131 p値が低すぎる説明変数を省く • データが偏りすぎている変数は省く • 1が一つしかないダミー変数とか • p値が高すぎる説明変数を省く • 手法がいくつかあります

132 p値が低すぎる説明変数を省く • データが偏りすぎている変数は省く • 1が一つしかないダミー変数とか • p値が低すぎる説明変数を省く • 手法がいくつかあります

133 p値が低すぎる説明変数を省く AIC（赤池情報量基準）を使用する • 統計学者の赤池弘次氏が考案 • そのモデルのAICが小さいほど、そのモデルの精度は良いと評価できる • 説明変数を選択する基準によく用いられる

134 AICはいいんだけど… 「p値が一番大きい変数を1つずつ外してはAIC を確認…外してはAICを確認…」面倒そう…

135 AICはいいんだけど… Alteryxは自動でできる

136 ステップワイズツールを投入する

137 ステップワイズツールを投入する基準はAIC、p値が大きいものから減らしていく方法を指定

138 ついにロジスティック回帰成功か？これでいけるか？

139 ついにロジスティック回帰成功か？エラー

140 ついにロジスティック回帰成功か？いくらステップワイズツール入れてもやっぱり説明変数多すぎるらしい

141 どっちの対策もやることに • データが偏りすぎている変数は省く • 1が一つしかないダミー変数とか • p値が低すぎる説明変数を省く • 手法がいくつかあります

142 データが偏りすぎている変数は省く • 俳優系のダミー変数はほぼ全部偏っていた • 大体、一度しか出演してない俳優 • （当然ながら）逆にセガールは全部出ている • 公開国のダミー変数もほぼ全部偏っていた
• 逆にアメリカはほとんど全部公開国 • 脚本家とかもほとんど全部偏っていた • …など

143 説明変数の選択偏っているか微妙なデータはどうする？

144 説明変数の選択センス

145 データに対する知見は絶対必要 • もちろんグラフ等で偏りをしっかり確認するのは大事 • しかし、データに対する知見（センス）も必要 • 例：監督がキオニ・ワックスマンかどうかは必要と思う • キオニ・ワックスマンはいつもの何とも言えないセガール映画
を量産している監督で有名 • キオニ・ワックスマンが監督の時は「沈黙の～」になるのでは？？という仮説も浮かんだり。

146 そして… ひとまずロジスティック回帰動きました

147 最終的に選択した説明変数

148 ステップワイズで絞込んだ方

149 学習結果が明らかにおかしい場合もある学習結果が明らかにおかしい場合 • 例：結果が良すぎる場合 • どれも0に極めて近い（全部が有意になっている）

150 学習結果が明らかにおかしい場合もある過学習（または未学習）の可能性

151 過学習とは • 学習したデータはバッチリ予測できる • 未知のデータはてんでダメ • テスト勉強で問題を丸暗記しただけ、な状態 • →テスト以外の問題問題が出たら解けない

152 交差検証（クロスバリデーション）全データ開発データテストデータ訓練データ検証データ ※交差検証にも色々な手法があります

153 交差検証（クロスバリデーション）

155 モデルの評価そのモデルの予測精度はいいのか？それとも悪いのか？

156 モデルの評価指標 • 正解率 • 適合率 • 再現率 • F値

157 正解率（Accuracy）正解した数 / 予測した全データ数 • シンプル • これでいい？

158 正解率（Accuracy）正解率で精度を評価するのはダメ

159 正解率（Accuracy）すべて「沈黙がつく」と予測するモデル • データの偏りによってはそれなりの精度になる • そのモデルに意味はあるか？

160 ではどうすれば？適合率と再現率を見る

161 適合率と再現率適合率（Precision） • モデルがTrueと予測したうち、実際に正解していた割合 • 「沈黙がついている」と予測したうち、実際に正解していた割合再現率（Recall） •
全データに含まれるTrueのうち、モデルが正解した割合 • 実際に「沈黙」がついている映画のうち、モデルが実際に正解した割合

162 適合率と再現率適合率と再現率はトレード・オフの関係正確性見逃し適合率高多再現率低
少

163 適合率、再現率、F値どの指標を優先するかは、分析の要件による • 今回の「沈黙の予測」は予測するからには外したくないので、適合率優先でいきます。

164 F値 • 適合率と再現率のバランスを表した指標 • 1に近いほどよい

165 どうやって出すのか Alteryxはこれらの指標も出してくれます

166 モデル比較ツールを投入する

169 混同行列（Confusion Matrix）実際の結果が負（沈黙なし）実際の結果が真（沈黙なし）予測した結果が負（沈黙なし）予測した結果が
真（沈黙あり）

170 混同行列（Confusion Matrix）実際の結果が負（沈黙なし）実際の結果が真（沈黙なし）予測した結果が負（沈黙なし）真陰性
偽陰性予測した結果が真（沈黙あり）偽陽性真陽性

171 混同行列（Confusion Matrix）実際の結果が負（沈黙なし）実際の結果が真（沈黙なし）予測した結果が負（沈黙なし） 4
1 予測した結果が真（沈黙あり） 4 7

1 予測した結果が真（沈黙あり） 4 7 7 / 4+7 = 適合率

1 予測した結果が真（沈黙あり） 4 7 7 /1+7 = 再現率

174 再掲

175 数値の名前を説明に合わせます正解率 F値

176 数値の名前を説明に合わせます再現率 ※なぜか適合率はない…

177 今回の結果適合率再現率 F値ロジスティック回帰 75% 75% 0.75
ステップワイズ 63% 87% 0.61

178 今回の結果ロジスティック回帰（で作成したモデル）を採用します

179 他にも評価するための手法は色々あります • リフトチャート • 適合率再現率曲線 • ROC曲線 • …など

180 圧倒的沈黙…ッッ… ついに「沈黙」を予測する時がきた

181 沈黙のワークフロー

182 沈黙のワークフロー予測したいデータの形式も、学習時と同一にしておく（ダミー変数化や正規化など）

183 沈黙の予測結果

184 1とかありえへんから… 出力値がおかしい

185 しかし… もう時間がないのでこのまま行きます

186 沈黙の予測結果 Sheep Impact に邦題をつけるとしたら「沈黙」がつく！

187 Sheep Impactを詳しく • 2010年に放映されたオーストラリアの短編映画（4分） • カールトン&ユナイテッドブルワリーズの広告として制作された（ほとんどCM） • セガールとその友人がバーベキューに肉を持ち込んだら起
訴されて色々揉める話？ • YouTubeで普通に見れる • https://youtu.be/LgXXC7OTD3g

188 私が命名します「沈黙の羊たち」

189 セガール vs レクター博士？どこかで聞いたことがあるような…？

190 まとめに入ります

191 今回のプロジェクトの問題点データ少なすぎ • そもそも問題設定からして無理があった • 一人の俳優が出演した作品数なんて多くても2桁どまり • モデルの精度にも影響が出たアルゴリズムわかってなさすぎ
• ハイパーパラメータの調整とか一切やってないロジスティック回帰一点突破 • 他のアルゴリズムも試してみるべき

192 総まとめ問題設定はしっかり機械学習以外の方法を真剣に考えるデータに対する知識のある人が必要 • そのデータの内容をわかっていないと分析は不可アルゴリズムの使い方がわかる人が必要 • 今回のようになあなあでやってもモデルは作れてしまう
前処理はやっぱり時間がかかる

194 「沈黙の分析」続編制作決定

195 決定木ッッ… ランダムフォレストッッ… ニューラルネットワークッッ…

196 「沈黙の分析２」 10月11日（金）大阪府梅田スカイビルタワーウエスト 22F

スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた

スティーブン・セガール出演作品の邦題に「沈黙」がつくかどうか判別する機械学習モデルを作ろうとしてみた

More Decks by tama-chang

Other Decks in Technology

Featured

Transcript