Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ボケて電笑戦技術解説 2022 ~AI は人を笑わせられるのか? 挑戦を支える技術とAWS~ ...

ボケて電笑戦技術解説 2022 ~AI は人を笑わせられるのか? 挑戦を支える技術とAWS~ / Den-sho-sen 2022 Tech Session

Yoshitaka Haribara

May 25, 2022
Tweet

More Decks by Yoshitaka Haribara

Other Decks in Technology

Transcript

  1. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ボケて電笑戦技術解説 2022 〜AI は⼈を笑わせられるのか︖ 挑戦を⽀える技術と AWS〜 針原 佳貴 (Yoshitaka Haribara, Ph.D.) スタートアップ ML ソリューションアーキテクト Amazon Web Services Japan
  2. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Agenda • 「電笑戦」の概要について • 「電笑戦」参加者の開発モデル説明 ※この技術セッションは4⽉22⽇時点の開発⽅針に基づいており、 AWS Summit 当⽇までに変更がある場合がございます。 § 森⻑ 誠 ⽒ (ストックマーク株式会社) § 中⻄ 健太郎 ⽒ (株式会社ミクシィ) § カレーちゃん ⽒ • まとめ
  3. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ⾃⼰紹介 針原 佳貴 (はりばら よしたか) AWS Japan スタートアップ ML ソリューションアーキテクト ⼤阪府出⾝。2018年に東京⼤学⼤学院情報理⼯学系 研究科博⼠課程修了後、AWS Japan に⼊社。 以来スタートアップ担当のソリューションアーキテクト として機械学習基盤の設計や機械学習プロジェクト、 最近は量⼦コンピューティング案件も⽀援。 趣味はドラム。
  4. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 写真で⼀⾔ ボケて by オモロキ
  5. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 例題と解答例
  6. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. • ボケて電笑戦では、ボケのビッグ データを⽤いて学習させた AI が ボケを⾃動⽣成する • 3名の出場者がモデルを持ち寄り ⾯⽩さと技術を競う • この技術セッションでは、 電笑戦を⽀える AI モデルなど、 その詳細を紹介します ボケて 電笑戦 Presented by Omoroki & Dentsu Digital ࣸਅͰҰݴ
  7. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ボケビッグデータについて (提供: オモロキ) • ボケてに投稿されているボケは全部で約9300万ボケ • そのうちお題画像がクリエイティブコモンズ ライセンスの約100万ボケをピックアップ • データ量が多いため、扱いやすいよう ユーザーからのボケ評価数に応じて 「ボケ⽸」としてパッケージ化し提供 ボケ⽸データセット (合計 1,100,542 ボケ): • BokeKanSP 評価数 10,001以上 (380 ボケ) • BokeKanRed 評価数 1,001 – 10,000 (8,183 ボケ) • BokeKanGreen 評価数 101 – 1,000 (37,342 ボケ) • BokeKanYellow 評価数 1 – 100 (955,901 ボケ) • BokeKanBlue 評価数 0 (98,736ボケ) ボケビッグデータが⼊ってるボケ⽸イメージ BokeKanSP BokeKanRed BokeKanGreen BokeKanYellow BokeKanBlue
  8. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 「ボケ⽸」データセットの中⾝ (提供: オモロキ) boke.csv README.md (Photo by Kullez, licensed under the Creative Commons Attribution License 2.0) Images
  9. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. “a surfer riding on a wave” 画像の説明⽂ (キャプション) を ⽣成する分野は、2015年頃から 深層学習の技術が使われ始めた。 当初はCNN (画像特徴量抽出) と RNN/LSTM (⽂章⽣成) を 掛け合わせたシンプルなモデルが 主流であった。 深層学習を⽤いた画像の説明 (License: Public Domain [Image source])
  10. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ベースラインのモデル (提供: 電通デジタル) 2014年頃から盛んに研究されている Encoder-Decoder モデルを⽤いて 画像をテキストに「翻訳」する。 • Encoder: CNN (ImageNet で学習 された VGG16) の全結合層から ⼊⼒画像の特徴ベクトルを抽出。 • Decoder: LSTM (系列モデル) に繋げることでキャプションを⽣成。 前ステップの出⼒を次の⼊⼒として ⽤いることで⽂章を再帰的に⽣成。 電笑戦企画・コーディネートの電通デジタル ⽯川 隆⼀ ⽒より提供された ベースラインのモデルを電笑戦ハンズオンとして GitHub で公開中 https://github.com/aws-samples/bokete-denshosen Input image CNN LSTM LSTM LSTM LSTM <start> a surfer <end> <start> a wave … Encoder (CNN) Decoder (LSTM)
  11. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ボケ AI モデルによるボケの⽣成例 (Photo by Donnie Ray Jones, licensed under the Creative Commons Attribution License 2.0) CNN LSTM LSTM LSTM <start> お ⽗ さん が ころん だ ー <end> Encoder (CNN) Decoder (LSTM) LSTM LSTM LSTM LSTM LSTM <start> お ⽗ さん が ころん だ ー
  12. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. https://github.com/aws-samples/bokete-denshosen
  13. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 「電笑戦」参加者の開発モデル説明 ※この技術セッションは4⽉22⽇時点の開発⽅針に基づいており、 AWS Summit 当⽇までに変更がある場合がございます。
  14. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 電笑戦 〜ストックマーク株式会社の挑戦〜 Senior Researcher ストックマーク株式会社 森⻑ 誠 (もりなが まこと)
  15. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ストックマークとは 会社名 ストックマーク株式会社 Stockmark Inc. 所在地 〒107-0062 東京都港区南⻘⼭1丁⽬12-3 LIFORK MINAMI AOYAMA S209 設 ⽴ 2016年11⽉15⽇ 代 表 代表取締役CEO 林 達 取締役CTO 有⾺ 幸介 事業内容 ⾃然⾔語処理技術を活⽤した ビジネス意思決定サポートサービスの提供 従業員数 65名(2022年4⽉現在)
  16. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 電笑戦モデル概要 • 教師データ § ボケ⽸: SP (300ボケ)、Red (8,500ボケ) ※同⼀画像のボケは排除 § ビジネス記事のタイトルと及び画像データ(20,000件) • 前処理 § ボケ及び記事タイトルを形態素解析後、トークン化(語彙数は約25,000) • モデル GAN § Generator (ボケ⽣成器) – Encoder – Decoder モデル (ResNet + GRU+ Attention + Dropout) § Discriminator (ボケ判別器) • トレーニング § Amazon EC2 p3.2xlarge インスタンスで10時間程度 • 後処理 § 形態素解析を⾏い、⽂として変な⽂を除外 • 画像連想機能 § 連想画像検索 § 類似単語検索
  17. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 今回の開発で⼒を⼊れた点 画像から連想して、ボケを⽣成すること
  18. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 具体的な施策 • 教師データの⽔増し § ボケだけでなく、ビジネス記事のタイトルとその画像データを教師データに含め、真⾯⽬な⽂章 とボケを組み合わせ。 例)「太陽光パネルめぐる諸課題 関係省庁が連携し対策取りまとめへ」 「イノベーション成功の鍵とは何か」 § ⽔増しで右記のようなボケも⽣成される 前回も 実施 (Photo by Abhisit Vejjajiva, licensed under the Creative Commons Attribution License 2.0)
  19. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 具体的な施策 • GAN (Generative Adversarial Network) の仕組みを導⼊ § Generator (ボケ⽣成器) と Discriminator(ボケ判別器)を導⼊して、相互に学習を⾏いながら、良いボケを ⼤量に作成していく § Generator︓Discriminatorに教師データのボケと⾒間違ってもらえるボケを作りたい § Discriminator:教師データのボケとGeneratorのボケを判別して、教師データのボケを⾒つけたい – 強化学習の reward を設計 https://tech.stockmark.co.jp/blog/denshosen2021/ • 芸⼈さんに例えると、、、 § 駆け出しの芸⼈さんが審査員にボケを 常に審査してもらい、講評をもらっている § 芸⼈さんも精進する § 審査員も常に審美眼を磨いている ふとんが ふっとんだ! 学習後期 前回も 実施
  20. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 具体的な施策 (⽟⽯混合だが、パターンを増やす) • 画像からの連想 – 前回、無機物部⾨は⾯⽩かった。⼈では連想できず、機械がうまく連想してバリエーションを 増やせると⾯⽩いと思った § 画像から別の画像を連想、別の画像からボケ⽂を⽣成 1. Resnet + 教師あり学習で連想画像検索を作成 2. 連想画像からボケ⽂を作成 1. ボケ⽸のタグを使った。1画像 -> 10画像 -> ボケ⽣成。最終的に⼈が選べる。 § 画像からテキスト(画像の説明⽂)を⽣成、 テキストの類義語と画像からボケ⽂を⽣成 1. タグ を元に物体名の検出 2. 物体名から単語分散表現を元に類義語検索 (FastText) 3. 画像からボケ⽣成 1. 更に、ボケを類義語で置き換え (形態素解析で名詞だけ置換) 2. 1画像から100個⽣成して、上位20個は使い物になる
  21. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 本戦への意気込み 前⼤会は敗れてしまったので、今⼤会は優勝を⽬指します︕ 2度⽬の敗北は許されません! (Photo by Michal Novota, licensed under the Creative Commons Attribution License 2.0)
  22. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 電笑戦 〜株式会社ミクシィの挑戦〜 Romi事業部 エンジニア 株式会社ミクシィ 中西 健太郎 (なかにし けんたろう)
  23. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 株式会社ミクシィ Romi 事業部 l ⾃律型会話ロボット ロミィ l 雑談対話ができるのが特徴 l ルールベースから深層学習モデルまで 様々な⽅法で雑談や各種機能を提供 l 興味ある⽅は気軽に連絡ください︕ - SNS: @cfiken
  24. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. アプローチ概要 l 訓練データ - 全データから⼀定基準でフィルタリング。星の数、特定ワード、⽂字数など l 前処理 -`cl-tohoku/bert-base-japanese-v2` の tokenizer を使⽤ l モデル - Encoder/Decoder ともに Transformer ベースのモデル - Image captioning (bottom-up は諦めて、画像からend-to-end で学習) - Transformer のモデルなら object detector 挟まなくても良さそうだった - ClipCap, Encoder/Clip: OpenAI, Decoder: Rinna GPT-2 (GPT-2 単体だと cross attention で変なのが⼊る) https://arxiv.org/abs/2111.09734 l 環境 - 学習は Amazon EC2 P3 インスタンスを使⽤ - 推論は Amazon EC2 G4dn インスタンスを使⽤。GPT-2: 40件⽣成で10-20s
  25. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 開発の課題 l 多様なボケがあり⽣成が難しい - レートの⾼いボケなら何でも⾯⽩いわけではない - 想像⼒が爆発している(AIには難しそうな)ボケもある - 基本的に⼈の画像が⼤半
  26. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 今後の開発⽅針 l 1. 学習⽤データのフィルタリングを⼯夫 - ⽂字数が⻑過ぎるボケは抜く/重みを減らす - ボケて特有 - 「ボケて」や「星3」などメタワードのボケは抜く - ボケて特有の「盗作」などを回避できるよう辞書を作成 - セリフを表す括弧が多すぎるボケは難しいので抜く (複数⼈会話) - Rinna Tokenizer に⼊っていないものを置き換え (特殊⽂字) l 2. 画像とボケを⼊れたら⾯⽩さを出⼒するモデルを作れないか - 後処理でスコアによる re-ranking で弱い候補を抜く: rate は掲載時間な どに影響される。 Negative sampling など、本番直前まで調整 - blue/yellow の星の少ないデータに pseudo labeling してスコアが⾼いボ ケをラベルとして付与
  27. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 今後の開発⽅針 l 4. その他 - カテゴリ (⼈/セリフ/動物/その他など) で conditional に⽣成 -> 上⼿くい かなかった - 他ドメインの image-to-text データを活⽤ - ⽂章⻑ (20⽂字未満・以上で分けて token 指定して学習、推論時に出し分 け)、単体だと精度が落ちたので、普通のモデルと併⽤して利⽤ - 1⽂字⽬だけランダムサンプリングして⽣成
  28. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 電笑戦への意気込み ⼼地よい笑いを届けられるよう頑張ります︕
  29. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 電笑戦 〜カレーちゃんの挑戦〜 AIエンジニア カレーちゃん
  30. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ⾃⼰紹介 仕事では、データサイエンティストとして、広 告の評価をしており、どの広告を出稿すると、 効果があるか予測するAIを作成。 データ分析のコンペに取り組むことを趣味とし ており、Kaggle(カグル)というプラットフォー ムでは、グランド マスターの称号を獲得。 本の執筆、TwitterやPodcastでの発信も好き。 カレーちゃん
  31. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 作成予定のAI、採用予定の技術 ボケを量産するAI 2つ作成 • GPT-2 で学習 • BLIP (Salesforce): 画像 -> ⽂字 (captioning) • Caption とボケ (それぞれ text) から学習して 作成 • 画像ペアのラベル間で、似たクラスを含む画像を⽂ 章で探す (Cos 類似度) • マスクして BERT で予測、汚い⽂章を綺麗整形 ボケ作成AIが作ったボケを採点 お題によって、どういうボケが良いか、レコメン ドできる 3軸で評価 (100個ほど⾃分でラベル付け) • ユーザー評価数 • カレーちゃん評価 • カレーちゃん基準シュールさ ボケ作成AI 採点AI 採⽤予定の技術 ・ボケの作成︓BERT, GPT3 学習時間は、Amazon EC2 g4dn.4xlarge インスタンスで10時間程度
  32. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ⽬指すAI、⼯夫する点 • ボケを評価し、どのボケが⾯⽩いか評価できるAIを作りたい ->仕事でやっている広告評価モデルの知⾒を • ⾃分が好きな、シュールなボケを多めに出せるようにしたい -> ⾃分でアノテーションした。データ⾃体が⾯⽩かった
  33. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ボケのカテゴリの例︓シュール https://bokete.jp/boke/27713670 • ボケをいくつかのカテゴリに分類し、 左のボケの例だと、シュールだとい うことを判別したい。 • ただ、多様なボケのパターンがある ことと、それぞれのパターンをどう 定義するのかが難しいことから難易 度が⾼そう。 • 参考︓シュールな笑い →「独特な世界観により、⾮常に⾼い不確定性の情 報を提⽰する⼿法。語源は絵画などの⼀分野 「シュールリアリズム」から」(科学で読み解く笑い の⽅程式【下巻】より)
  34. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 電笑戦本戦への意気込み • 他にはない、⾃分好みのボケを出す⾯⽩いAIを作りたいです。 • どんなボケができたのか、応援お願いします。 • ⾯⽩いAIを作って、その後の⽣活にも活かせるよう 頑張ります︕
  35. © 2022, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. まとめ • 本技術セッションでは3名の取り組みについて紹介しました • 前回参加者のモデルは builders.flash ブログでも解説しています bit.ly/bokete1, bit.ly/bokete2, bit.ly/bokete3 • 電笑戦ハンズオンコンテンツが GitHub に公開されています https://github.com/aws-samples/bokete-denshosen
  36. Thank you! © 2022, Amazon Web Services, Inc. or its

    affiliates. All rights reserved. 針原 佳貴 AWS Japan Twitter: @_hariby 森⻑ 誠 ストックマーク 中⻄ 健太郎 ミクシィ Twitter: @cfiken カレーちゃん Twitter: @currypurin