Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
画像を用いた論文解説の可能性
Search
Elith
July 29, 2023
Programming
1
1.3k
画像を用いた論文解説の可能性
画像の中のFigureを用いて論文解説ができる手法についての紹介
Elith
July 29, 2023
Tweet
Share
More Decks by Elith
See All by Elith
2026.01ウェビナー資料
elith
0
250
株式会社Elith_会社紹介資料
elith
1
94
Gitの使い方とチーム開発
elith
0
140
【W&B ミートアップ#19】AI エージェントは何に使うべきか - エージェント周りの分類の整理と利用すべき場面 -
elith
0
400
【Elith開催】ITSC 2024論文発表ウェビナー
elith
0
46
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
1.4k
生成AI グローバルトレンド実務で活かす新規事業構築の5つの方法
elith
0
270
今、知っておきたい! 生成AIエージェントの世界
elith
3
1.1k
マルチモーダルLLMがもたらすビジネス革新と技術解説
elith
2
960
Other Decks in Programming
See All in Programming
SourceGeneratorのススメ
htkym
0
670
株式会社 Sun terras カンパニーデック
sunterras
0
1.8k
AIによる開発の民主化を支える コンテキスト管理のこれまでとこれから
mulyu
3
2k
PostgreSQL を使った快適な go test 環境を求めて
otakakot
0
280
猫の手も借りたい!ので AIエージェント猫を作って社内に放した話 Claude Code × Container Lambda の Slack Bot "DevNeko"
naramomi7
0
200
その「common」ディレクトリ、腐っていませんか?
kinocoboy2
1
110
2025年の活動の振り返り
hideg
0
110
CSC307 Lecture 10
javiergs
PRO
1
690
Raku Raku Notion 20260128
hareyakayuruyaka
0
420
受け入れテスト駆動開発(ATDD)×AI駆動開発 AI時代のATDDの取り組み方を考える
kztakasaki
2
430
AI Schema Enrichment for your Oracle AI Database
thatjeffsmith
0
400
2026年 エンジニアリング自己学習法
yumechi
0
160
Featured
See All Featured
Practical Orchestrator
shlominoach
191
11k
For a Future-Friendly Web
brad_frost
183
10k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
64
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
140
The agentic SEO stack - context over prompts
schlessera
0
670
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
50k
Between Models and Reality
mayunak
1
210
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
370
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
230
Transcript
画像を用いた論文解説の可能性 株式会社Elith 高橋将生/大森 一祥
自己紹介 2 2 高橋 将生 JOY Elith 機械学習スペシャリスト 東京大学大学院 在学
松尾研究所 所属 @wwwsoccerwww 大森 一祥 もっさん Elith MLOpsスペシャリスト データサイエンティスト @oriki111
会社のサービス紹介 3 ChatGPT導入支援 AIcon
目次 1. 全体概要 2. 背景 3. デモの紹介 4. 画像情報を用いた論文解説 5.
出力結果 6. まとめ 7. 今後の動き 4
1. 全体概要 5 画像情報を考慮した論文解説 入力 出力
2. 背景 6
2. 背景 • AIエンジニアは素早くキャッチアップする必要がある • 翻訳サイトだけでは完全な理解が難しい ◦ 完璧ではなく英文も一部読む必要あり ◦ ネイティブに比べて読解が遅くなる
• 重要な文章を探すのが手間 • 重要情報は図表で示される ➡図、表の説明をして欲しい!! 7 論文で重要な点を早くきちんと理解したい 論文読む時間が 足りない〜
2. 背景 8 既存ツールで図などの説明ができないか? ChatPDF ・画像の説明ができないことがある ・画像情報は理解していない ・画像のキャプションを取得できない ChatGPT with
Link Reader ・ChatGPTでPDFを読み込むためのプラグイン ・Link Readerではグラフなどの図は説明できない Link Readerの失敗例 ChatPDFの失敗例
2. 背景 9 PDFファイルを扱う難しさ 画像取得 ・PyMuPDFでは画像が細切れになる キャプション取得 図とキャプションの 関係が定義されていない ・図とキャプションの関係が定義されていない
・図の位置から予測 ・キャプションのテキスト情報抽出 ・キャプションの ・キャプションの多様性(Fig. Figureなど)
3. デモ 10
11 本番ではデモ動画を発表
4. 画像情報を用いた論文解説 12
4. 画像情報を用いた論文解説 13 全体アーキテクチャー テキスト 物体検出 vector DB 図 キャプション
テキスト テキスト 要約 Figure1: XXX YOLOv8 pytesseract LangChain Function Calling 画像
4. 画像情報を用いた論文解説 • 論文をアノテーション ◦ 学習65枚 ◦ テスト10枚 • YOLOv8で学習
• Figureが92%、captionが90%で検出可能 • Figureとcaptionのセットは、最適輸送問題を 解くことでペアを見つける 14 画像とキャプションの取得
4. 画像情報を用いた論文解説 15 画像情報の利用法の模索 画像キャプション ・画像の簡単な説明文 ・この情報を詳しく説明させると図を理解できる 画像 ・解説してほしい対象 ・OCRによる文字起こし
・グラフなどの構造データを理解できない ・イメージキャプショニングによる説明文付与 ・グラフなどの数値は読み取ってくれない ・変な文章を生成することもある キャプション
4. 画像情報を用いた論文解説 Google開発のPix2StructモデルDePlotを利用 • チャートをテーブル(テキスト)に変換 • 技術は、OCR、Object Detection、Key Pointなどを組み合わせたモデル 16
チャートの読み取り DePlot論文*のFigure1抜粋 *Fangyu Liu et al. “DePlot: One-shot visual language reasoning by plot-to-table translation”
4. 画像情報を用いた論文解説 pytesseractによる事前学習モデルを使用 • Google’s Tesseract-OCR Engine(C++)のラッパー • 文字認識精度は98%程度 17
キャプション画像のOCR(optional character recognition) https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf TABLE Ⅱ:Results of Q3, Q4, amd Q5 画像 テキスト
4.1 Function callingによる引数のフォーマット 18 2: 関数の分類(今回は未使用) • 入力した文字列から、予め定義した関数を選択する 関数の定義:①set_alarm_function, ②delete_alarm_function,
③check_alarm_function 入力:"7時にアラームを設定して" 出力:{"name": "set_alarm_function"} 1: 関数に必要な引数の作成 • 入力した文字列から、引数を引き出す 関数の引数:figure, number 入力:"画像1を解説してください" 出力:{"Figure": "1"} 文字列に応じて特定の関数を呼び出すことができるGPT機能 関数の分類と、関数に必要な引数の作成という2つを同時に実行
5. 出力結果 19
5. 出力結果① 20 チャートの情報に関する質問に回答することができる
5. 出力結果② 21 数値の大きいものを表示することも可能
5. 出力結果③ 22 グラフの詳細な説明が可能
6. まとめ • 画像から図とキャプションを取得 • キャプションをOCR • 図をdeplot • PDFをベクトル化
• Function callingで引数作成 23 画像情報を考慮した論文解説
7. 今後の動き • フローチャートを解説したい ◦ 現状LLMが画像を理解できない ◦ 入出力関係をLLMで理解させたい ◦ 論文専用のキャプション生成をしたい
24 • 論文解説記事の自動生成したい ◦ 論文の画像の取得ができると、記事に画像を貼り付けられる • 参考文献を考慮した論文解説をしたい ◦ 1つの論文は主観が入る ◦ 複数の文献を読んだ上で俯瞰的に解説するモデルを作りたい