Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
画像を用いた論文解説の可能性
Search
Elith
July 29, 2023
Programming
1.3k
1
Share
画像を用いた論文解説の可能性
画像の中のFigureを用いて論文解説ができる手法についての紹介
Elith
July 29, 2023
More Decks by Elith
See All by Elith
Elith Company & Recruiting Deck
elith
1
380
2026.01ウェビナー資料
elith
0
380
株式会社Elith_会社紹介資料
elith
1
310
Gitの使い方とチーム開発
elith
1
150
【W&B ミートアップ#19】AI エージェントは何に使うべきか - エージェント周りの分類の整理と利用すべき場面 -
elith
0
440
【Elith開催】ITSC 2024論文発表ウェビナー
elith
0
68
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
1.6k
生成AI グローバルトレンド実務で活かす新規事業構築の5つの方法
elith
0
290
今、知っておきたい! 生成AIエージェントの世界
elith
3
1.2k
Other Decks in Programming
See All in Programming
dRuby over BLE
makicamel
2
320
「AIで開発し、AIを届ける」をEvalでつなぐ 〜AIネイティブに始めるプロダクト開発の実践〜 / Connecting "Develop with AI, deliver AI" with Eval
rkaga
4
2.4k
jQueryをバージョンアップする前に使いたいjQuery Migrate
matsuo_atsushi
0
190
ユニットテストの先へ:テスト技法で要求・仕様を整理するJava開発実践 / Beyond_Unit_Testing_Practical_Java_Development_Techniques_for_Organizing_Requirements_and_Specifications
shimashima35
0
350
代数的データ型って何が嬉しいの? #frontend_phpcon_do
kajitack
8
3.2k
タクシーアプリ『GO』の バックエンド開発のおける AI利活用と若者のすべて
pyama86
3
1.9k
3Dシーンの圧縮
fadis
1
650
柔軟なPDFレイアウトエディタを支える型システム設計 — Discriminated UnionとConditional Typeの実践
minako__ph
4
1.4k
技術記事、AIに書かせるか、自分で書くか? 〜それでも私が自分の手で書く理由〜 / #QiitaConference
jnchito
2
1.3k
Javaの型とAI時代に型が大事な理由 / java types and type in AI era
kishida
2
110
JJUG CCC 2026 Spring: JSpecify で実現する Kotlin フレンドリーな Java API 設計
ternbusty
1
140
Signal Forms: Beyond the Basics @ngBaguette 2026 in Paris
manfredsteyer
PRO
0
230
Featured
See All Featured
エンジニアに許された特別な時間の終わり
watany
107
250k
Technical Leadership for Architectural Decision Making
baasie
3
400
Utilizing Notion as your number one productivity tool
mfonobong
4
310
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
310
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.7k
Designing for Timeless Needs
cassininazir
1
250
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
220
What's in a price? How to price your products and services
michaelherold
247
13k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
570
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.5k
Transcript
画像を用いた論文解説の可能性 株式会社Elith 高橋将生/大森 一祥
自己紹介 2 2 高橋 将生 JOY Elith 機械学習スペシャリスト 東京大学大学院 在学
松尾研究所 所属 @wwwsoccerwww 大森 一祥 もっさん Elith MLOpsスペシャリスト データサイエンティスト @oriki111
会社のサービス紹介 3 ChatGPT導入支援 AIcon
目次 1. 全体概要 2. 背景 3. デモの紹介 4. 画像情報を用いた論文解説 5.
出力結果 6. まとめ 7. 今後の動き 4
1. 全体概要 5 画像情報を考慮した論文解説 入力 出力
2. 背景 6
2. 背景 • AIエンジニアは素早くキャッチアップする必要がある • 翻訳サイトだけでは完全な理解が難しい ◦ 完璧ではなく英文も一部読む必要あり ◦ ネイティブに比べて読解が遅くなる
• 重要な文章を探すのが手間 • 重要情報は図表で示される ➡図、表の説明をして欲しい!! 7 論文で重要な点を早くきちんと理解したい 論文読む時間が 足りない〜
2. 背景 8 既存ツールで図などの説明ができないか? ChatPDF ・画像の説明ができないことがある ・画像情報は理解していない ・画像のキャプションを取得できない ChatGPT with
Link Reader ・ChatGPTでPDFを読み込むためのプラグイン ・Link Readerではグラフなどの図は説明できない Link Readerの失敗例 ChatPDFの失敗例
2. 背景 9 PDFファイルを扱う難しさ 画像取得 ・PyMuPDFでは画像が細切れになる キャプション取得 図とキャプションの 関係が定義されていない ・図とキャプションの関係が定義されていない
・図の位置から予測 ・キャプションのテキスト情報抽出 ・キャプションの ・キャプションの多様性(Fig. Figureなど)
3. デモ 10
11 本番ではデモ動画を発表
4. 画像情報を用いた論文解説 12
4. 画像情報を用いた論文解説 13 全体アーキテクチャー テキスト 物体検出 vector DB 図 キャプション
テキスト テキスト 要約 Figure1: XXX YOLOv8 pytesseract LangChain Function Calling 画像
4. 画像情報を用いた論文解説 • 論文をアノテーション ◦ 学習65枚 ◦ テスト10枚 • YOLOv8で学習
• Figureが92%、captionが90%で検出可能 • Figureとcaptionのセットは、最適輸送問題を 解くことでペアを見つける 14 画像とキャプションの取得
4. 画像情報を用いた論文解説 15 画像情報の利用法の模索 画像キャプション ・画像の簡単な説明文 ・この情報を詳しく説明させると図を理解できる 画像 ・解説してほしい対象 ・OCRによる文字起こし
・グラフなどの構造データを理解できない ・イメージキャプショニングによる説明文付与 ・グラフなどの数値は読み取ってくれない ・変な文章を生成することもある キャプション
4. 画像情報を用いた論文解説 Google開発のPix2StructモデルDePlotを利用 • チャートをテーブル(テキスト)に変換 • 技術は、OCR、Object Detection、Key Pointなどを組み合わせたモデル 16
チャートの読み取り DePlot論文*のFigure1抜粋 *Fangyu Liu et al. “DePlot: One-shot visual language reasoning by plot-to-table translation”
4. 画像情報を用いた論文解説 pytesseractによる事前学習モデルを使用 • Google’s Tesseract-OCR Engine(C++)のラッパー • 文字認識精度は98%程度 17
キャプション画像のOCR(optional character recognition) https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf TABLE Ⅱ:Results of Q3, Q4, amd Q5 画像 テキスト
4.1 Function callingによる引数のフォーマット 18 2: 関数の分類(今回は未使用) • 入力した文字列から、予め定義した関数を選択する 関数の定義:①set_alarm_function, ②delete_alarm_function,
③check_alarm_function 入力:"7時にアラームを設定して" 出力:{"name": "set_alarm_function"} 1: 関数に必要な引数の作成 • 入力した文字列から、引数を引き出す 関数の引数:figure, number 入力:"画像1を解説してください" 出力:{"Figure": "1"} 文字列に応じて特定の関数を呼び出すことができるGPT機能 関数の分類と、関数に必要な引数の作成という2つを同時に実行
5. 出力結果 19
5. 出力結果① 20 チャートの情報に関する質問に回答することができる
5. 出力結果② 21 数値の大きいものを表示することも可能
5. 出力結果③ 22 グラフの詳細な説明が可能
6. まとめ • 画像から図とキャプションを取得 • キャプションをOCR • 図をdeplot • PDFをベクトル化
• Function callingで引数作成 23 画像情報を考慮した論文解説
7. 今後の動き • フローチャートを解説したい ◦ 現状LLMが画像を理解できない ◦ 入出力関係をLLMで理解させたい ◦ 論文専用のキャプション生成をしたい
24 • 論文解説記事の自動生成したい ◦ 論文の画像の取得ができると、記事に画像を貼り付けられる • 参考文献を考慮した論文解説をしたい ◦ 1つの論文は主観が入る ◦ 複数の文献を読んだ上で俯瞰的に解説するモデルを作りたい