Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによる オープンドメイ...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shumpei Miyawaki
March 11, 2022
Programming
1.2k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
加藤拓真, 宮脇峻平, 第二回AI王最終報告会 - DPR ベースラインによる オープンドメイン質問応答の取り組み (2022)
Shumpei Miyawaki
March 11, 2022
More Decks by Shumpei Miyawaki
See All by Shumpei Miyawaki
ITエンジニア本大賞_現場で活用するためのAIエージェント実践入門 / 2026.02.19
smiyawaki0820
1
340
著者と読み解くAIエージェント現場導入の勘所 Lancers TechBook#2
smiyawaki0820
23
13k
LLMアプリの地上戦開発計画と運用実践 / 2025.10.15 GPU UNITE 2025
smiyawaki0820
4
2k
「高い不確実性」を解消する「高い再現性」 / 2025.09.14 プロダクトヒストリーカンファレンス(YOUTRUST)
smiyawaki0820
2
480
AIエージェントを現場で使う / 2025.08.07 著者陣に聞く!現場で活用するためのAIエージェント実践入門(Findyランチセッション)
smiyawaki0820
10
2.8k
「良さそう」と「とても良い」の間には 「良さそうだがホンマか」がたくさんある / 2025.07.01 LLM品質Night
smiyawaki0820
8
3.5k
AIエージェント開発における「攻めの品質改善」と「守りの品質保証」 / 2024.04.09 GPU UNITE 新年会 2025
smiyawaki0820
3
1.5k
AIエージェントの地上戦 〜開発計画と運用実践 / 2025/04/08 Findy ランチセッション #19
smiyawaki0820
35
18k
2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇
smiyawaki0820
15
7k
Other Decks in Programming
See All in Programming
ECSアプリログをFireLensでコスト削減しようとしたけど諦めた話 in Fargate×Node.js
akihisaikeda
2
4k
Technical Debt: Understanding it Rightly, Engaging it Rightly #LaravelLiveJP
shogogg
0
210
Spec Driven Development | AI Summit Lisbon
danielsogl
PRO
0
170
Lessons from Spec-Driven Development
simas
PRO
0
150
肥大化するレガシーコードに立ち向かうためのインターフェース分離と依存の逆転 / JJUG CCC 2026 Spring
hirokunimaeta
0
530
Oxcを導入して開発体験が向上した話
yug1224
4
300
Inside Stream API
skrb
1
680
ふつうのFeature Flag実践入門
irof
7
3.7k
AIとASP.NET Coreで雑Webアプリを作った話
mayuki
0
480
例外の正しい扱い方 そのエラー try-catchして大丈夫?
jinwatanabe
0
180
The ROI of Quarkus for Spring Boot Applications
hollycummins
0
100
The NotImplementedError Problem in Ruby
koic
1
670
Featured
See All Featured
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
240
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
160
Build your cross-platform service in a week with App Engine
jlugia
234
18k
The browser strikes back
jonoalderson
0
1.2k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Skip the Path - Find Your Career Trail
mkilby
1
140
Leo the Paperboy
mayatellez
7
1.8k
Done Done
chrislema
186
16k
Facilitating Awesome Meetings
lara
57
7k
WCS-LA-2024
lcolladotor
0
620
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Transcript
DPR ベースラインによる オープンドメイン質問応答の取り組み https://github.com/cl-tohoku/AIO2_DPR_baseline 加藤拓真 / 宮脇峻平(東北大) 2022.03.11 第2回AI王最終報告会
第2回 AI 王:オープンドメイン質問応答 2022.03.11 第2回AI王最終報告会 雷門 雷門は浅草寺の山門。 東京都台東区浅草一丁 目2-3番地に位置する。
正式名称は風雷神門で あり … 質問応答システム 関連文書 文書集合 東京都内で最も古 い寺院は何? 質問 浅草寺 解答 検索 1000 問中いくつ 正解したかを評価 2 • ファクトイド型の質問に対して解答する際に参照する文書を指定しないタスク( ⇄ 機械読解タスク) • 本コンペティションでは質問に対する 解答の正解率 で競う(最終的に人が正解を判定する) • 参加者は システム+ 文書集合 + 実行環境を含む docker イメージを提出(30GB 以下 + 実行時間 6h 以内)
ベースライン:Retriever-Reader 型の質問応答システム 検索モジュール 解答モジュール 2022.03.11 第2回AI王最終報告会 東京都内で最も 古い寺院は何? Retriever 雷門は浅草寺
の山門 … 東 京都内で最も 古い寺院と… 文書集合 関連文書 検索 解答モデル 質問 関連文書 東京都内で最も古 い寺院は何? Reader 質問 雷門は浅草寺 の山門 … 関連度 計算 質問エンコーダ 文書エンコーダ 浅草寺 解答 3 • ベースラインシステムでは、以下の二段階で質問に対する解答を行う 1. 質問に関連する文書を文書集合から 検索 する(Retriever) 2. 検索した関連文書から質問の解答位置を 推定 する(Reader) 正例文書抽出 スパン推定
Retriever による検索:Dense Passage Retrieval [Karpukhin+’20] 2022.03.11 第2回AI王最終報告会 • 二つのエンコーダがエンコードした質問と文書のベクトル表現( CLS
表現)を用いて検索を行う • ベクトル表現を予め計算し保持することで、オフラインによる高速な検索を実現する • 検索時は FAISS の IndexFlatIP(最大内積探索) を使用する 4 Retriever (デュアルエンコーダ ) 質問エンコーダ (BERT) 文書エンコーダ (BERT) = [0.9 0.2 0.3] 質問に対する 各文書の関連度 (内積値) 東京都内で最も古 い寺院は何? 質問 雷門 雷門は浅草寺の山門。 東京都台東区浅草一丁 目2-3番地に位置する。 正式名称は風雷神門で あり … 関連文書 文書集合 質問ベクトル 文書ベクトル集合 検索モジュール
Retriever の学習 • 質問の解答が含まれている文書 を正例文書として関連度(内積値)が高くなるように学習 • ミニバッチ内の他の正例文書 を負例文書として関連度が低くなるように学習 • さらに
語のマッチング に基づいたハード負例( 質問に関連するが解答を含まない )文書も使用する 質問エンコーダ (BERT) 文書エンコーダ (BERT) Retriever (デュアルエンコーダ ) 1 n 負例文書 正例文書 質問 = 正例との関連度 が 高い 負例との関連度 が 低い ほどロスの値が低くなる … 2022.03.11 第2回AI王最終報告会 検索モジュール 5
抽出型 Reader 解答モデル 2022.03.11 第2回AI王最終報告会 6 • Retriever が検索した関連文書の中から、質問に対する解答のスパンを推定する •
その際、各文書に対して解答が含まれるかどうかも推定する 雷門は浅草寺の山門。東京都 台東区浅草一丁目2-3番地に 位置する。正式名称は風雷神門 であり … 関連文書 東京都内で最も古 い寺院は何? 質問 雷門は浅草寺の山門。東京都 台東区浅草一丁目2-3番地に 位置する。正式名称は風雷神門 であり … 浅草寺 解答 答えが含まれるか? 上位 K 件の関連文書から 答える対象の文書を抽出 質問に対する 答えのスパンを推定 解答モジュール
抽出型 Reader 読解エンコーダ (BERT) 質問 i のトークン 文書 j のトークン
2022.03.11 第2回AI王最終報告会 7 開始位置 予測ヘッド 終了位置 予測ヘッド … … 文書選択 ヘッド … • 文書選択ヘッドを用いて、関連文書から答えを含む正例文書を抽出する • 抽出した正例文書から、質問に対する答えの開始・終了位置(スパン)を推定する 質問に対する 答えのスパンを推定 解答モジュール 上位 K 件の関連文書から 答える対象の文書を抽出
• 負例作成に関する工夫 : [Xiong+’20; Qu+’21; Ren+’21; Zhan+’21; Lu+’21] ◦ ミニバッチ内から負例を作成
→ 推論時における検索対象数との大きな差が検索性能に影響 ◦ クエリと文書間の関係のみモデル化 → 文書間同士の類似関係を考慮しない ◦ ハード負例文書を語のマッチングにより作成 → false negative 文書が負例となる可能性あり • ベクトルのメモリ効率化 : [Izacard+’20; Yamada+’21; Zhan+’21; Santhanam+’21; Ma+’21; Zhan+’22] ◦ 検索対象の文書数が膨大 → メモリコストが大きい • クエリとのマッチング強化 : [Sciavolino+’21; Liu+’21; Khattab+’21; Gao+’21; Wang+’21; Wu+’22] ◦ CLS トークンによるマッチング → トークンレベルなど粒度の高いマッチングが難しい • 汎化性能の向上: [Zhuang+’21; Ni+’21; Liu+’21; Chen+’21; Wang+’21] • データ・クエリ拡張: [Lee+’19; Guu+’20; Qu+’21; Izacard+’21; Mao+’21] • アーキテクチャの工夫 :[Izacard+’20; Cheng+’21; Lee+’21; Tay+’22] DPR の問題点と改善案 2022.03.11 第2回AI王最終報告会 8 BPR
参考 • ACL2020 Tutorial: Open Domain Question Answering [ACL][GitHub] •
Retrieving and Reading : A Comprehensive Survey on Open-domain Question Answering [arXiv] • 山田+’21(Studio Ousia / RIKEN AIP)- オープンドメイン質問応答技術の最新動向 (NLP2021 WS 第1回AI王) [Speaker Deck] • Karpukhin+’20 - Dense Passage Retrieval for Open-Domain Question Answering (EMNLP) [ACL Anthology][arXiv][GitHub] 2022.03.11 第2回AI王最終報告会 9