Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
画像を用いた論文解説の可能性
Search
Elith
July 29, 2023
Programming
1
1.2k
画像を用いた論文解説の可能性
画像の中のFigureを用いて論文解説ができる手法についての紹介
Elith
July 29, 2023
Tweet
Share
More Decks by Elith
See All by Elith
【W&B ミートアップ#19】AI エージェントは何に使うべきか - エージェント周りの分類の整理と利用すべき場面 -
elith
0
240
【Elith開催】ITSC 2024論文発表ウェビナー
elith
0
12
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
1.1k
生成AI グローバルトレンド実務で活かす新規事業構築の5つの方法
elith
0
140
今、知っておきたい! 生成AIエージェントの世界
elith
3
940
マルチモーダルLLMがもたらすビジネス革新と技術解説
elith
2
700
LLMに医療知識をつけるには
elith
5
1.5k
放射線分野の問題をLLMに解かせてみた
elith
1
720
Data Is All You Need
elith
0
230
Other Decks in Programming
See All in Programming
RubyKaigiで手に入れた HHKB Studioのための HIDRawドライバ
iberianpig
0
340
AtCoder Heuristic First-step Vol.1 講義スライド(山登り法・焼きなまし法編)
takumi152
3
960
マルチアカウント環境での、そこまでがんばらない RI/SP 運用設計
wa6sn
0
330
CTFのWebにおける⾼難易度問題について
hamayanhamayan
1
950
自分のために作ったアプリが、グローバルに使われるまで / Indie App Development Lunch LT
pixyzehn
1
120
安全に倒し切るリリースをするために:15年来レガシーシステムのフルリプレイス挑戦記
sakuraikotone
5
2.2k
Node.js, Deno, Bun 最新動向とその所感について
yosuke_furukawa
PRO
6
3k
PHPによる"非"構造化プログラミング入門 -本当に熱いスパゲティコードを求めて- #phperkaigi
o0h
PRO
0
1.1k
技術好きなエンジニアが "リーダーへの進化" によって得たものと失ったもの
pospome
5
1.3k
RailsでCQRS/ESをやってみたきづき
suzukimar
2
1.5k
コンテナでLambdaをデプロイするときに知っておきたかったこと
_takahash
0
140
보일러플레이트 코드가 진짜 나쁜 건가요?
gaeun5744
0
370
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
69
4.7k
A Tale of Four Properties
chriscoyier
158
23k
How to Ace a Technical Interview
jacobian
276
23k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Testing 201, or: Great Expectations
jmmastey
42
7.4k
Building a Modern Day E-commerce SEO Strategy
aleyda
39
7.2k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
30k
Git: the NoSQL Database
bkeepers
PRO
429
65k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Writing Fast Ruby
sferik
628
61k
Making the Leap to Tech Lead
cromwellryan
133
9.2k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
Transcript
画像を用いた論文解説の可能性 株式会社Elith 高橋将生/大森 一祥
自己紹介 2 2 高橋 将生 JOY Elith 機械学習スペシャリスト 東京大学大学院 在学
松尾研究所 所属 @wwwsoccerwww 大森 一祥 もっさん Elith MLOpsスペシャリスト データサイエンティスト @oriki111
会社のサービス紹介 3 ChatGPT導入支援 AIcon
目次 1. 全体概要 2. 背景 3. デモの紹介 4. 画像情報を用いた論文解説 5.
出力結果 6. まとめ 7. 今後の動き 4
1. 全体概要 5 画像情報を考慮した論文解説 入力 出力
2. 背景 6
2. 背景 • AIエンジニアは素早くキャッチアップする必要がある • 翻訳サイトだけでは完全な理解が難しい ◦ 完璧ではなく英文も一部読む必要あり ◦ ネイティブに比べて読解が遅くなる
• 重要な文章を探すのが手間 • 重要情報は図表で示される ➡図、表の説明をして欲しい!! 7 論文で重要な点を早くきちんと理解したい 論文読む時間が 足りない〜
2. 背景 8 既存ツールで図などの説明ができないか? ChatPDF ・画像の説明ができないことがある ・画像情報は理解していない ・画像のキャプションを取得できない ChatGPT with
Link Reader ・ChatGPTでPDFを読み込むためのプラグイン ・Link Readerではグラフなどの図は説明できない Link Readerの失敗例 ChatPDFの失敗例
2. 背景 9 PDFファイルを扱う難しさ 画像取得 ・PyMuPDFでは画像が細切れになる キャプション取得 図とキャプションの 関係が定義されていない ・図とキャプションの関係が定義されていない
・図の位置から予測 ・キャプションのテキスト情報抽出 ・キャプションの ・キャプションの多様性(Fig. Figureなど)
3. デモ 10
11 本番ではデモ動画を発表
4. 画像情報を用いた論文解説 12
4. 画像情報を用いた論文解説 13 全体アーキテクチャー テキスト 物体検出 vector DB 図 キャプション
テキスト テキスト 要約 Figure1: XXX YOLOv8 pytesseract LangChain Function Calling 画像
4. 画像情報を用いた論文解説 • 論文をアノテーション ◦ 学習65枚 ◦ テスト10枚 • YOLOv8で学習
• Figureが92%、captionが90%で検出可能 • Figureとcaptionのセットは、最適輸送問題を 解くことでペアを見つける 14 画像とキャプションの取得
4. 画像情報を用いた論文解説 15 画像情報の利用法の模索 画像キャプション ・画像の簡単な説明文 ・この情報を詳しく説明させると図を理解できる 画像 ・解説してほしい対象 ・OCRによる文字起こし
・グラフなどの構造データを理解できない ・イメージキャプショニングによる説明文付与 ・グラフなどの数値は読み取ってくれない ・変な文章を生成することもある キャプション
4. 画像情報を用いた論文解説 Google開発のPix2StructモデルDePlotを利用 • チャートをテーブル(テキスト)に変換 • 技術は、OCR、Object Detection、Key Pointなどを組み合わせたモデル 16
チャートの読み取り DePlot論文*のFigure1抜粋 *Fangyu Liu et al. “DePlot: One-shot visual language reasoning by plot-to-table translation”
4. 画像情報を用いた論文解説 pytesseractによる事前学習モデルを使用 • Google’s Tesseract-OCR Engine(C++)のラッパー • 文字認識精度は98%程度 17
キャプション画像のOCR(optional character recognition) https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf TABLE Ⅱ:Results of Q3, Q4, amd Q5 画像 テキスト
4.1 Function callingによる引数のフォーマット 18 2: 関数の分類(今回は未使用) • 入力した文字列から、予め定義した関数を選択する 関数の定義:①set_alarm_function, ②delete_alarm_function,
③check_alarm_function 入力:"7時にアラームを設定して" 出力:{"name": "set_alarm_function"} 1: 関数に必要な引数の作成 • 入力した文字列から、引数を引き出す 関数の引数:figure, number 入力:"画像1を解説してください" 出力:{"Figure": "1"} 文字列に応じて特定の関数を呼び出すことができるGPT機能 関数の分類と、関数に必要な引数の作成という2つを同時に実行
5. 出力結果 19
5. 出力結果① 20 チャートの情報に関する質問に回答することができる
5. 出力結果② 21 数値の大きいものを表示することも可能
5. 出力結果③ 22 グラフの詳細な説明が可能
6. まとめ • 画像から図とキャプションを取得 • キャプションをOCR • 図をdeplot • PDFをベクトル化
• Function callingで引数作成 23 画像情報を考慮した論文解説
7. 今後の動き • フローチャートを解説したい ◦ 現状LLMが画像を理解できない ◦ 入出力関係をLLMで理解させたい ◦ 論文専用のキャプション生成をしたい
24 • 論文解説記事の自動生成したい ◦ 論文の画像の取得ができると、記事に画像を貼り付けられる • 参考文献を考慮した論文解説をしたい ◦ 1つの論文は主観が入る ◦ 複数の文献を読んだ上で俯瞰的に解説するモデルを作りたい