Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NTCIR-17 Transfer タスク
Search
Hideo Joho
September 28, 2022
Research
0
310
NTCIR-17 Transfer タスク
NTCIR-17にパイロットタスクとして採択されたTransferタスクの紹介
Hideo Joho
September 28, 2022
Tweet
Share
More Decks by Hideo Joho
See All by Hideo Joho
NTCIR-17 Transfer Task
hideojoho
0
130
HCIR輪読会2021 フェアネス 第8章 // HCIR Group Reading 2021 on Fairness: Chapter 8
hideojoho
0
140
HCIR輪読会2021 フェアネス 書籍紹介 // HCIR Group Reading 2021 on Fairness: Book Introduction
hideojoho
1
170
HCIR輪読会2021 フェアネス 第1章 // HCIR Group Reading 2021 on Fairness: Chapter 1
hideojoho
0
78
Other Decks in Research
See All in Research
한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성
inureyes
PRO
0
270
PostgreSQLにおける分散トレーシングの現在 - 第50回PostgreSQLアンカンファレンス
seinoyu
0
290
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
470
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
120
Mathematics in the Age of AI and the 4 Generation University
hachama
0
140
移動ビッグデータに基づく地理情報の埋め込みベクトル化
tam1110
0
270
ラムダ計算の拡張に基づく 音楽プログラミング言語mimium とそのVMの実装
tomoyanonymous
0
440
The Economics of Platforms 輪読会 第1章
tomonatu8
0
160
資産間の相関関係を頑健に評価する指標を用いたファクターアローケーション戦略の構築
nomamist
0
170
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
chemical_tree
1
370
eAI (Engineerable AI) プロジェクトの全体像 / Overview of eAI Project
ishikawafyu
0
420
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
320
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Writing Fast Ruby
sferik
628
61k
Designing Experiences People Love
moore
141
23k
The World Runs on Bad Software
bkeepers
PRO
67
11k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
51
2.4k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Rebuilding a faster, lazier Slack
samanthasiow
80
8.9k
Navigating Team Friction
lara
184
15k
Unsuck your backbone
ammeep
670
57k
How to Ace a Technical Interview
jacobian
276
23k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
How to Think Like a Performance Engineer
csswizardry
22
1.5k
Transcript
NTCIR-17 Transfer タスク 資源リサイクル型密検索技術 上保 秀夫 筑波大学 欅 惇志 一橋大学
大場 勇貴 筑波大学 English Version with audio 日本語版(音声付き)
概要 2
資源転移の例 • タスク横断 ◦ 案内型クエリ (Navigational queries) から情報型クエリ (Informational queries)
への再学習 ◦ 言語モデルからランキングモデルへの再学習 • ドメイン横断 ◦ Web 文書から学術記事へのドメイン適合 • 言語横断 ◦ 英語モデルから日本語モデル • などなど… 3
利用可能データ • 既存データ ◦ 英語版 MS MARCO (ver 1) (eMARCO)
◦ NTCIR-1 Ad-Hoc test collection (日本語) ◦ NTCIR-2 Ad-Hoc test collection (日本語) ◦ BERT モデル (英語/日本語) • オーナイザーから提供予定のデータ ◦ 日本語翻訳版 MS MARCO (ver 1) (jMARCO) ▪ 文書コレクションと Dev トピック (暫定版の翻訳済み) ▪ JParaCrawl version 2 + DeepL API ◦ jMARCO による学習済みの ColBERT モデル ◦ Dev / jMARCO による学習済みの BERT リランカー 4
サブタスク1: Dense First Stage Retrieval • 入力/出力 ◦ 入力: Ad-Hoc
task の トピック記述 ◦ 出力: 順位付けされた検索結果の上位 10,00件文書 ID • Dev/Test ◦ Dev: NTCIR-1 Ad-Hoc/CLIR (日本語) 83 トピック ◦ Test: NTCIR-2 Ad-Hoc/CLIR (日本語) 49 トピック • 評価尺度 ◦ nDCG 5
サブタスク2: Dense Reranking Subtask • 入力/出力 ◦ 入力: 第1段階検索結果の上位 1,000
件 (文書ID、ベクトルデータ、等 ) ▪ オーガナイザーらによって提供 ◦ 出力: 再順位付けされた検索結果の上位 100 件文書 ID • Dev/Test ◦ Dev: NTCIR-1 Ad-Hoc/CLIR (日本語) 83 トピック ◦ Test: NTCIR-2 Ad-Hoc/CLIR (日本語) 49 トピック • 評価指標 ◦ nDCG / MRR 6
暫定版スケジュール • 9/28, 2022: Kick-off event • 1/30, 2023: 最終タスクガイドライン公開,全資源データの公開
• 2/1, 2023: Formal Run: Dev/Test topics 公開 • 5/1, 2023: Formal Run: タスク参加登録期限 • 6/1, 2023: Formal Run: ラン提出期限 • 8/1, 2023: Formal Run: 評価結果返却 • 8/1, 2023: Task overview paper 公開 (ドラフト版) • 9/1, 2023: 参加者の論文投稿期限 (ドラフト版) • 11/1, 2023: Camera-ready 版論文投稿期限 • 12月, 2023: NTCIR-17 Conference 7
タスク設計の検討事項 1. 疎検索モデル (例:BM25のみ) のランは対象外、単純な再学習済みランは OK 2. サブタスク2の入力文書(固定 vs. サブタスク1のランを活用)
3. 現時点ではターゲットタスク言語が日本語のみ 4. 現時点では利用可能なデータやモデルに制約なし 5. Dry Run 時期を設けていない 6. Formal run の提出数は1チーム3-5 を検討中 7. Test sets の正解データを参加者が閲覧しないことを前提( ←重要) 8. 追加の適合性判定作業を実施する可能性あり 9. リーダーボードの導入の可能性あり 10. 資源ガイドや成功事例の構築を予定 8
アドバイザリー・ボード • Noriko Kando (NII, Japan) • Doug Oard (University
of Maryland, US) • 随時追加 9
最新情報・問い合わせ • Webサイト https://hcir.slis.tsukuba.ac.jp/project/ntcir-transfer/ • 連絡先
[email protected]
• Twitter #ntcir_transfer
• Slack (タスク参加登録者限定) 10