Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 / Automatic Video Creation From a Web Page

chck
January 18, 2021

論文読み会 / Automatic Video Creation From a Web Page

社内論文読み会、PaperFridayでの発表資料です

chck

January 18, 2021
Tweet

More Decks by chck

Other Decks in Research

Transcript

  1. 2 Point: Web PageのURLを入力にend-to-endで動画を生成する URL2Videoを提案 UIST 2020: acceptance rate 20.3%

    Authors: Peggy Chi, Zheng Sun, Katrina Panovich, Irfan Essa - Google Research 選定理由: - 最近Landing Pageの研究開発をしている - デザイナー向け広告作成支援ツールとしてのUIや 広告のためのPage内要素の議論などが参考になりそう
  2. Design Understanding ◂ 初期 ◂ WebPageから広告キーワード抽出 [Yih, 06] ◂ リタゲのためのWebデザイン

    [Kumar, 11] ◂ 最近 ◂ コンテンツ階層と意味理解によるMobileUI改善 [Deka, 17] ◂ ユーザの感情反応やSaliencyによる広告デザイン [Yuan, 20] URL2Videoは既存のWebPageから動画生成する デザイナー支援が目的 9
  3. Computational Video Editing ◂ 動画制作プロセスは段階的でコストが高い ◂ 動画編集は対話動画, Interview, Sportsなど各ドメインに特化 ◂

    ユーザー嗜好に基づいた動画要約 [Ogata, 04] ◂ 絵コンテ生成 [Goldman, 06] ◂ 最も近い研究はWikipediaやBlogを動画で要約 [Kalender, 18] ◂ 動画テンプレートにコンテンツマッチングで配置 URL2Videoは動画長やアス比制約を満たした上で WebContentsの集合が与えられた動画構成に注目 10
  4. Formative Study プロのWebデザイナー6名を募集 右表のWeb Page6つを1人1p割振 Google Slidesで編集可能な形で 素材とスクショを提供 10秒, 16:9の動画の絵コンテを制限時間60

    分でGoogle Slidesで完結させるように制 作してもらう 絵コンテはshotを順序付けし、秒単位の timestampを付与 素材の並び替えやtrim, text編集はOK 14
  5. Formative Study 素材の密集を避け, 90%以上のsceneが主要な 画像と見出し1つずつで構成 長いテキストは可読性のため2shotに分割も WebPageの視覚的な流れと素材構成を維持 - aは上からlogo, メイン画像の流れ

    - bは素材blockを3つの連続シーンに ブランディングのためページから色やフォントを Pickupし、背景色や見出しに トリミングやリサイズは動画サイズに合わせて調 整 16
  6. Design Guidelines 1. シンプルな情報提供 2. コンテンツの階層抽出 3. デザイン選択の変換 4. 時間配分の推論

    5. ユーザレビュー 1)動画広告は短い時間でブランド・組織・サービスを宣伝するので、 情報過多にならないように重要なメッセージだけを含める 17
  7. Design Guidelines 1. シンプルな情報提供 2. コンテンツの階層抽出 3. デザイン選択の変換 4. 時間配分の推論

    5. ユーザレビュー 2)階層は情報の優先順位を示すので , Pageの素材の順序を考慮し たツールが望ましい 18
  8. Design Guidelines 1. シンプルな情報提供 2. コンテンツの階層抽出 3. デザイン選択の変換 4. 時間配分の推論

    5. ユーザレビュー 3)ブランドイメージを保つためにページデザインの色・画像・フォン トなどを抽出、動画に適用したい 19
  9. Design Guidelines 1. シンプルな情報提供 2. コンテンツの階層抽出 3. デザイン選択の変換 4. 時間配分の提案

    5. ユーザレビュー 4)短い動画長を考慮するとシーンを人で決めるのは困難なので素 材を考慮しタイムラインを提案してほしい 20
  10. Design Guidelines 1. シンプルな情報提供 2. コンテンツの階層抽出 3. デザイン選択の変換 4. 時間配分の提案

    5. ユーザレビュー 5)デザイナーが UIを通じてツールの出力を見ながら反復的に再生 成できる仕組み 21
  11. Asset Extraction and Scoring 1.素材重要度の高いHTMLタグを定義 - 見出し...<H1>-<H6> - 映像...<IMG>or <VIDEO>

    - 背景...CSSを1つ以上含むDOM 2.上記を1つ以上含むDOM N_majorを探索 3.各N_major_iに対しスクショとのoverlapが閾値以上なら 素材グループg_iを作成 4.含まれるNodeが重複, グラフ上で隣接している素材グ ループはマージし, 素材グループ候補Gを作成 5.各g_iに対し, html tagの種類・ページ上部からの順番 ・Box領域の3点で評価し, 優先スコアa_iを付与 - ページの先頭に近く存在感の大きい素材グループの スコアが高くなる Z個のNodeを含むDOMツリー 素材優先度の高い DOM Node 30
  12. Constraint-Based Temporal Planning 変数: d: 各素材グループg_iをタイムライン上で何秒表示させるかの時間          Dの領域は [0, L], Lはユーザ指定の動画長

    制約条件: d_i=0の場合はg_iは動画から除外 目的変数: 上記時間的制約を満たしながらG_iの以下のscoreを最大化 Gの表示時間の合計はLに等しい コンテンツ視認: 任意の素材グループG_sはd_min以上で再生 動的コンテンツ促進 ユーザが指定した素材グループは必ず含める 32
  13. Constraint-Based Temporal Planning 変数: d: 各素材グループg_iをタイムライン上で何秒表示させるかの時間          Dの領域は [0, L], Lはユーザ指定の動画長

    制約条件: d_i=0の場合はg_iは動画から除外 目的変数: 上記時間的制約を満たしながらG_iの以下のscoreを最大化 Gの表示時間の合計はLに等しい コンテンツ視認: 任意の素材グループG_sはd_min以上で再生 動的コンテンツ促進 ユーザが指定した素材グループは必ず含める これにより優先度が加味された素材グループの Sequenceが完成 選ばれた各素材グループ G_sは動画長Lにマッピングされた時間 dを持つ この時間配分は次の Visual Planningフェーズで調整可能 33
  14. Visual Planning c. Stylization ◂ フォント, サイズ, 配置などページから得られたテキスト素材のスタイルを適用 ◂ 読みやすさを加味し,

    画像上でないテキストは色のコントラストを合わせる ◂ 視覚的なバランスのため最小・最大フォントサイズも定義 38
  15. Implementation - Pipeline - C++ - Page Analysis - 社内ツール

    - 数理最適化 - OR-Tools - 動画レンダラ - MediaPipe, OpenCV, FFMpeg - テキストレンダラ - HarfBuzz, Skia 42
  16. Results - アス比16:9, 9:16, 1:1, 動画長10秒, 15秒を 制約条件とし1 Pageから6動画を生成 -

    右表は, 本DatasetからRL2Videoが抽出した 素材と、10秒 16:9で出力した動画で使った素材レ イヤー数の統計 - 50 Web Pageから合計で823画像, 7動画, 4874Text素材を抽出 - 10秒動画の場合, 平均5scene, 17shotで構成 46
  17. Study1: Designer Inspection 各ページ(p1-6)について精通者とそうでないデザイナー 2人でレビュー - 基礎調査で協力してくれたデザイナー 5/6人を参加費$15で30min招待, 以 前担当した絵コンテ(p1-6)の生成動画をレビュー

    - 更にソースページを知らないデザイナー 3人を60min招待, $25で1人2本ず つ動画(p1-6)をレビュー baseline - ロゴと最初の4つの主要なPage Contentのスクショからスコア関係なく2秒 ずつ表示させた動画(計10秒) URL2Video - 16:9, 9:16, 1:1で10秒, 16:9で15秒の4パターンの動画 Baselineは6p x 2で12本, URL2Videoは6p x 4で24本 53
  18. Study1: Designer Inspection 各動画に対し以下の5段階評価 (Q1) この動画はわかりやすい (Q2) この動画は重要な情報を伝えている (Q3) この動画のメッセージが理解できる

    (Q4) 専門的にデザインされているように見える (Q5) 見ていて気持ちがいい (Q6) 動画のペースがちょうどいい 54
  19. Study1: Designer Inspection 各動画に対し以下の5段階評価 (Q1) この動画はわかりやすい (Q2) この動画は重要な情報を伝えている (Q3) この動画のメッセージが理解できる

    (Q4) 専門的にデザインされているように見える (Q5) 見ていて気持ちがいい (Q6) 動画のペースがちょうどいい Baseline Proposed M=2 M=4 M=3 M=4 M=2 M=4 N=3 M=3 M=2 M=3 M=5 M=3 Q1, 2, 3, 6はbaselineを上回り高評価 55
  20. Study1: Designer Inspection 各動画に対し以下の5段階評価 (Q1) この動画はわかりやすい (Q2) この動画は重要な情報を伝えている (Q3) この動画のメッセージが理解できる

    (Q4) 専門的にデザインされているように見える (Q5) 見ていて気持ちがいい (Q6) 動画のペースがちょうどいい Baseline Proposed M=2 M=4 M=3 M=4 M=2 M=4 N=3 M=3 M=2 M=3 M=5 M=3 Q4, Q5が課題. デザインループが回しづらい UIだった. テキストのスタイルやアニ メーションが不足していた 56
  21. Study2: Audience Survey 本手法による動画とデザイナーの作品を一般人で比較 ◂ p1-p6に対応するbaselineB1-B6を基礎調査のGoogle Slidesを 元に作成(10秒, 16:9) ◂

    本手法によって作られた同制約の動画をC1-C6 ◂ 動画素材を使ったC7, C8を追加 ◂ 動画素材の効果を見るため ◂ 社内のメーリスを使いオンライン調査 ◂ B1-B6から3本, C1-C6から3本, C7-8から1本の計7本で1task ◂ シャッフルして各1回ずつ再生, 質問はStudy1の5段階, $はナシ 57
  22. Comment ◂ 動画の品質がソースページに大きく依存しそう ◂ 動画生成のような超次元をそのままモデリングせず、 デザインを説明変数に落とし込んで、数理最適化で解くところ が面白い ◂ デザイナーとのインタラクションによるHCI的なシステム改善 が興味深い

    ◂ デザインのモデリングは難しいのでデザイナーへの基礎 調査が有用 ◂ 日本の広告は複雑なので適用には工夫が必要 ◂ 社内メーリスでオンライン評価のボランティア集めよう 61