Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
Search
画像センシングシンポジウム
PRO
June 14, 2023
Science
0
700
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
⼭⼝光太(CyberAgent)
画像センシングシンポジウム
PRO
June 14, 2023
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2025 [OS3] どの論文でもダメなんだけど! 〜実応用とその課題〜
ssii
PRO
2
1.7k
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
ssii
PRO
6
3.3k
SSII2025 [OS3-02] 広告における画像生成技術の実応用の現状
ssii
PRO
6
1.4k
SSII2025 [OS3-03] 有機ミニトマト農場におけるロボット開発と基礎研究
ssii
PRO
0
1.1k
SSII2025 [OS2-01] 自動運転の性能と共に進化するセンシングデバイス
ssii
PRO
2
2k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
3
1.4k
SSII2025 [OS2] 新たなセンシングの潮流
ssii
PRO
1
690
SSII2025 [OS2-02] イベントカメラの研究紹介と可視光通信への応用
ssii
PRO
1
1.4k
SSII2025 [OS2-03] マルチ/ハイパースペクトル領域における高度な画像撮影および処理技術
ssii
PRO
2
1.4k
Other Decks in Science
See All in Science
検索と推論タスクに関する論文の紹介
ynakano
1
160
Accelerated Computing for Climate forecast
inureyes
PRO
0
160
データベース15: ビッグデータ時代のデータベース
trycycle
PRO
0
460
Kaggle: NeurIPS - Open Polymer Prediction 2025 コンペ 反省会
calpis10000
0
410
データベース06: SQL (3/3) 副問い合わせ
trycycle
PRO
1
730
データマイニング - グラフ構造の諸指標
trycycle
PRO
0
270
機械学習 - SVM
trycycle
PRO
1
1k
あなたに水耕栽培を愛していないとは言わせない
mutsumix
1
280
2025-06-11-ai_belgium
sofievl
1
230
データマイニング - ウェブとグラフ
trycycle
PRO
0
250
Hakonwa-Quaternion
hiranabe
1
190
アクシズを探せ! 各勢力の位置関係についての考察
miu_crescent
PRO
1
110
Featured
See All Featured
Bash Introduction
62gerente
615
210k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Odyssey Design
rkendrick25
PRO
2
530
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.8k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
140
A Tale of Four Properties
chriscoyier
162
24k
Side Projects
sachag
455
43k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
73
How GitHub (no longer) Works
holman
316
140k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
590
Transcript
グラフィックデザインと マルチモーダル処理 2023.6.14 ⼭⼝ 光太(CyberAgent)
CyberAgent AI Lab • ػցֶश • ίϯϐϡʔλϏδϣϯ • ίϯϐϡʔλάϥϑΟοΫε •
ࣗવݴޠॲཧ • Ի৴߸ॲཧ • HCI / ϩϘοτ • ܭྔܦࡁֶ
ΞδΣϯμ 1. άϥϑΟοΫσβΠϯͷϞμϦςΟ 2. ࠷ۙͷऔΓΈ
άϥϑΟοΫσβΠϯͷϞμϦςΟ 01
άϥϑΟοΫσβΠϯ • εϥΠυγϣʔɺιʔγϟϧϝσΟΞߘɺϙελʔɺ ಈըࠂɺWebϖʔδ
άϥϑΟοΫσβΠϯ͍ΘΏΔը૾Ͱͳ͍ ϕΫλάϥϑΟοΫ ϥελը૾ Rendering σβΠφʔͷѻ͏ͷ σΟεϓϨΠʹөΔͷ
ϥελը૾ • JPEG, PNG, WebP • ݻఆղ૾ϐΫηϧɺυοτֆ • ͍ΘΏΔը૾ ϕΫλάϥϑΟοΫ
• PDF, PPTX, Photoshop • ղ૾ඇґଘͷඳըࢦࣔ • ͍ΘΏΔυΩϡϝϯτ ϥελܗࣜͱϕΫλܗࣜ Typography Typography Typography
ۀάϥϑΟοΫσβΠϯͷཁૉ • ͨ͘͞ΜͷϞμϦςΟɺςʔϒϧσʔλʹ͍ۙ ίϐʔ ணϖʔδ Ωϟϯϖʔϯ άϥϑΟοΫ ϓϥοτϑΥʔϜ දࣔσόΠε ίϯςϯπ
ίϯςΩετ ഔମ *1 ௌऺ
ϕΫλάϥϑΟοΫͷσʔλߏ Canvas Image Text Text Text Text Canvas Image Text
Text Text Text υΩϡϝϯτ , Ωϟϯόε ϨΠϠʔ Width, Height, Category, … Type, Position, Size, Appearance, Text, Pixels, …
ϨΠΞτੜ • ϨΠΞτ(type, left, top, width, height)ͷϨΠϠʔλϓϧͷܥྻ • ϨΠΞτੜϚϧνϞʔμϧͳܥྻੜʹؼண t1
x1 y1 w1 h1 t2 x2 y2 w2 h2 … Layer 1 Layer 2 Generator Canvas Layer 1 Layer 2
ςΩετͷٯϨϯμϦϯά • ϚϧνλεΫɾϚϧνϞʔμϧͳ༧ଌ Resolution: [1699, 1280] Location: [247, 1130, 748,
1280] Text: "WANT" Font: Barlow Semi Condensed ExtraBold Fill: RGB: [44, 34, 41] Border: Visible: True RGB: [217, 91, 97] Width: 2 Shadow: Visible: False Background: <pixels> ٯϨϯμϦϯά
N Inoue et al., LayoutDM: Discrete Diffusion Model for Controllable
Layout Generation, CVPR 2023 N Inoue et al., Towards Flexible Multi-modal Document Models, CVPR 2023 ࠷ۙͷऔΓΈ 02
LayoutDM[Ҫ্+] ɿϨΠΞτੜ • ࢄ֦ࢄϞσϧʹΑΔϨΠΞτੜ
ϨΠΞτͷͨΊͷϚϧνϞʔμϧࢄදݱ • (type, left, top, width, height)ͷܥྻσʔλΛϞμϦςΟຖʹಠཱͯ͠ࢄදݱ • D3PM[J Austin
21]ʹΑΔࢄ֦ࢄੜϞσϧͷద༻
֤छϨΠΞτੜλεΫ
FlexDM[Ҫ্+] : σβΠφʔͷฤूఔͷϞσϦϯά • ଟछଟ༷ͳϚϧνϞʔμϧɾϚϧνλεΫॲཧΛ͢ΔΤϯίʔμϞσϧ FlexDM Layout generation Texts filling
Font & color styling Images filling Element filling … type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: Arial (210,220,100) - [MASK] [MASK] [NULL] type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: …
ϚεΫ͖ΦʔτΤϯίʔμͷϚϧνλεΫ׆༻ • ϚϧνϞʔμϧͳBERTతͳϞσϧ→ϚεΫΓସ͑Ͱଟ༷ͳλεΫॲཧ Design tasks = = Masking patterns Font
& color prediction Element filling BEST IN TOWN! CAR WASH Full service Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5 Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5
ग़ྗྫ Output Input Output Input Output Input ATTR prediction TXT
prediction IMG prediction POS prediction Element filling Output Input Output (bbox.) Output (img.) Output (bbox.) Output (img.)
άϥϑΟοΫσβΠϯͱϚϧνϞʔμϧॲཧ • άϥϑΟοΫσβΠϯը૾ɺจࣈɺزԿ ஔɺελΠϦϯάଐੑͳͲϚϧνϞʔμ ϧߏσʔλ • γʔέϯεߏͷ׆༻Ͱ֤छλεΫͷఆࣜ Խ͕Մೳʹ