Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識

データ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識

近年注目を集めているテクニックであり、データ拡張(Data Augmentation)について。データ水増しという表現をされることもあります。

・解説記事
https://note.com/masayamori/n/n63caf39a4cdf

この手法は、機械学習における普遍的な課題である過学習(Overfitting)に関わり、またなぜ深層学習(Deep Learning)が学習し、高いパフォーマンスを出せるのかという謎に近づく手がかりでもあります。

More Decks by Masaya Mori (森正弥) / Partner of Deloitte Digital

Other Decks in Technology

Transcript

  1. 3 • 企業情報化協会 AI&ロボティクス委員長 • 日本データベース学会理事 • APEC(アジア太平洋経済協力)データ・アナリ ティクス人材育成プロジェクトアドバイザー •

    楽天株式会社 執行役員 森 正弥 https://note.mu/masayamori • 先端技術の動向の情報発信を行い、産業横断的な公職にも携わる • 楽天では、開発組織のグローバル化、研究開発の統括を行い、AI を用いた新サービスも創出 Profile
  2. 7 AI / Deep Learning の成果 ⚫ 画像認識 (Rakutenラクマでの活用、楽天ドローンでの活用) ⚫

    顔認識 (各グループ会社での活用、楽天Pay の顔認識ペイメント) ⚫ 機械翻訳 (Video配信ビジネスでの7言語の字幕翻訳。世界レベルの精度) ⚫ 商品データの自動生成 ⚫ 顧客ニーズの抽出及び商品デザイン ⚫ 株価予測・マーケット予測 ⚫ 潜在顧客ターゲティング (Rakuten Airis) ⚫ 広告バナーの自動生成、商品解説文の自動生成 (Creative AI) • Deep Learning による具体的なビジネスソリューションを創出
  3. 9 広告事業とともに企画した、データ&Deep Learningを活用した新ビジネス AIris AIエージェントが顧客の個々の 購買行動を解析し、予測する [Iris] “AI”(Artificial Intelligence:人工知能)と、英語で「虹彩」を意味する “Iris”

    を 組み合わせた造語で、機械学習を用いた独自のアルゴリズムで消費行動を解析することで 購買の見込みがあるユーザーを抽出することができる「Target Prospecting機能」を有しています。 2018年5月、深層学習を活用し、広告配信における高精度な拡張ターゲティングの新ビジネスを開始 Customer DNA Brand Mart • ブランドコード • デモグラフィック • 検索履歴 • ページ来場 • 購入履歴 • 価格選好 • 利用デバイス • アクセス時間 • 楽天サービスの利用 AIris インプット 潜在顧客 Target Prospecting アイテム / ブランド シードユーザー Alrisのプロダクトデザイン
  4. 12 Next Paradigm is coming. Deep learning Small Dataset Big

    Dataset Great AI Deep learning So so AI Other Dataset 2nd Deep Learning Another so so AI Connect & Loop Learning Super AI Interactive Loop
  5. 15 具体的な手法:言語データ • 同義語、類義語で置き換える • 類似度を計算して置き換える • 反意語で置き換える • 文章内の語と語を入れ替える

    • ランダムに削除する • Back Translation を用いて文章を水増しする • 楽天の機械翻訳も、データ拡張を駆使して、 元データを増やし、35言語翻訳に到達して いる • 特に、お客様の声の分析や、Chatbot、翻訳 などの開発においては有効に作用する (理由は後で述べます)
  6. 16 具体的な手法:画像データ • 水平・垂直に画像をシフトする • 水平方向・垂直方向に画像を反転させる • 回転させる (回転角度はランダムのケースもある) •

    明度を変える • ズームインする、ズームアウトする • 画像の一部をくり抜く、削除する • 背景色を変える • 背景を置き換える • Mixup、CutMix • 冒頭で紹介したハッカソンでも参加者は みなデータ拡張を駆使 • Mixup, CutMix 以外はラベルの変更不要 • 例えば、ドローンやUGV (無人配送車) の学習では、道路の画像に、対象物のCG 物体や人物を配置したデータでも十分な 成果がでてくる
  7. 18 背景としての インターネット、スマートフォンの普及 • C2C、B2C 領域においてはスマホが広く普及 • 言語データ: 様々なユーザーが入力した文章データは 不完全な文や構造化されていない文、またフレーズの誤

    用や記述ミス等も含まれる。 • 画像データ: SNSの画像共有とあいまって多くはスマ ホで撮影。色々な距離や角度、照明の強弱、反射、映り 込み、陰影、何かによって一部覆われていることも。 • 実際のデータは様々な撹乱があり、それらに対応し、ロバストネスさを高めていくこ とも非常に重要。
  8. 19 Waymo もData Augmentation を駆使し、自動運転を実現 https://note.com/masayamori/n/n7f21db4e5e49 • Deep Neural Net

    を複数用いたアーキテクチャ としており、入力データの拡張だけでなく、 内部データも拡張させていく方法で、ロバス トな自動運転を実現している。
  9. 21 GAN (敵対的生成ネットワーク) Generator Discriminator Random Input Sample Sample Real

    Data Generator Loss Discriminator Loss • データ拡張にも使えるが、創造性を持ったAI (Creative AI)というトレンドの原 動力にもなっている
  10. 23 新しいトレンド: Creative Economy, Creative AI ⚫ World Economic Forum

    でも注目されるトレンド ⚫ 特定の技術やソリューションではなく、活用(アプリケーション) ⚫ Non-iterative かつ Expert Knowledge を要する経済的価値創出を実現する ✓ PFNのオンライン線画自動着色サービス PaintsChainer ✓ Magical PunchLine、 AI をクリエイティブディレクターに迎える ✓ 電通によるAI コピーライター AICO ✓ 佐藤・松崎研によるAIによるSF小説「人狼知能能力測定テスト」 ✓ 日経のAI記者「決算サマリー」 (LINK) (LINK) (LINK) (LINK) (LINK)
  11. 24 Draw by AI AttnGAN by Microsoft: AI can create

    a picture from caption Text-to-Image convertor http://www.itmedia.co.jp/news/articles/1801/19/news054.html “A bird with a yellow body, with black feathers and has a short beak.” • 画像から画像を作るのではないところがポイント。 • 例えば応用することで、設計図から製品の画像を作り出し、実際の製品と比較す ることで設計図どおりに作られているのかの確認等にも使える。
  12. 25 Creative AI 事例 [LuBan System, Alibaba] Background Shapes Colors

    Layout Product Alibaba used automated banner design system at 11.11 出典: (Alibaba社 発表資料より)http://www.uisdc.com/alibaba-luban-ai-banner
  13. 30 • Data Augmentation (データ拡張)という手法 • Back Translation、GAN という新テクノロジー •

    Creative AI という新トレンドにもつながっている • 単にデータを集める・貯める、をこえた データをどう拡張して活用していくかという視点が AI 活用においては大事 まとめ https://note.mu/masayamori