(ACL) https://aclanthology.org/2021.acl-long.316 Gao+’23 - Precise Zero-Shot Dense Retrieval without Relevance Labels (ACL) https://aclanthology.org/2023.acl-long.99/ ⼊⼒⽂から seq2seq で以下を⽣成、⼊⼒⽂との 連結⽂を検索クエリとして BM25 等を適⽤ • 解答⽂字列 • 解答⽂字列を含む⽂ • 解答⽂字列を含む Wikipedia タイトル GPT による⽣成⽂書 実⽂書 クエリ 指⽰ WEB 検索タスク (DL19) において、 教師あり学習モデルと同等以上の性能を⽰した write a passage to answer the question write a scientific paper passage to answer the question write a passage in Korean to answer the question in detail 仮⽂書⽣成器 ⽂書検索器 教師なし 教師あり
Azure Cognitive Search: Outperforming vector search with hybrid retrieval and ranking capabilities https://techcommunity.microsoft.com/t5/azure-ai-services-blog/azure-cognitive-search-outperforming-vector-search-with-hybrid/ba-p/3929167 クエリタイプ 解説 クエリ例 Keyword Vector Hybrid Hybrid + Semantic Ranker Concept seeking queries 回答に複数の⽂章を必要とする抽 象的な質問 Why should I use semantic search to rank results? 39.0 45.8 46.3 59.6 Exact snippet search 元の段落の正確な部分⽂字列であ る⻑いクエリ enables you to maximize the quality and value of your LLM investments most efficiently by feeding only relevant information 37.8 49.0 49.1 63.4 Web search-like queries 検索エンジンによく⼊⼒されるよ うな短縮クエリ Best retrieval concept queries 51.1 41.5 51.0 60.8 Low query/doc term overlap 解答が質問とは異なる単語やフ レーズを使っているクエリ greatest technology for sorting” searching for a document that says: “Azure Cognitive Search has the best models for ranking your content 41.8 46.3 50.0 58.9 Fact seeking queries 単⼀の明確な答えを持つクエリ How many documents are semantically ranked 79.2 11.7 61.0 66.9 Keyword queries 重要な識別語のみで構成された短 いクエリ semantic ranker 23.0 36.1 35.9 49.1 Queries with misspellings 誤字、転記、⼀般的なスペルミス を含むクエリ Ho w mny documents are samantically r4nked 28.8 39.1 40.6 54.6 Long queries 20トークンを超えるクエリ This is a very long query that uses a lot of tokens in its composition and structure because it is verbose 42.7 41.6 48.1 59.4 Medium queries 5~20 トークンの⻑さ This is a medium length query 38.1 44.7 46.7 59.9 Short queries 5 トークンより短いクエリ Short query 53.1 38.8 53.0 63.9 ※ 60pt 以上を緑 50pt 以下を⾚でハイライト
かけて通った学校は? 1951年から1955年までイェール⼤学の植物学博⼠課程に在籍。 したがって、エステラ・レオポルドは1954年8⽉から1954年11⽉ の間にイェール⼤学に通っていた可能性が⾼い。 Zheng+’23 - Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models https://arxiv.org/abs/2310.06117
2 1 i 4 3 j クエリ エンジン id 要約⽂ キャプション id クエリエンジンの 参照データ id クエリ エンジン クエリエンジンの 参照データ id id とクエリエンジンの連想配列 弊社の昨年度の売上はいくら︖ ①親階層の検索 ②紐づけられたクエリエンジンによる回答 適切にクエリエンジンを設定すれば PDF 等の半構造化データに対して応答⽣成可能
Vision Through the LENS of Natural Language https://arxiv.org/abs/2306.16410 Gao+ʼ22 - Transform-Retrieve-Generate: Natural Language-Centric Outside- Knowledge Visual Question Answering (CVPR) https://openaccess.thecvf.com/content/CVPR2022/html/Gao_Transform-Retrieve-Generate_Natural_Language- Centric_Outside-Knowledge_Visual_Question_Answering_CVPR_2022_paper.html Himakunthala+’23 - Let's Think Frame by Frame: Evaluating Video Chain of Thought with Video Infilling and Prediction https://arxiv.org/abs/2305.13903 視覚情報の⾔語化︓ • キャプション • 密キャプション • 物体タグ • OCR • など