Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI Search 新時代:從反向索引到語意理解的進化之路
Search
Joe Wu
November 21, 2025
0
52
AI Search 新時代:從反向索引到語意理解的進化之路
2025 Elastic Days Taiwan 分享的投影片
詳細說明請參考喬叔的網站:
https://training.onedoggo.com
Joe Wu
November 21, 2025
Tweet
Share
More Decks by Joe Wu
See All by Joe Wu
Observability 入門班:可觀測性的核心技術架構與 OpenTelemetry 實作指南
unclejoe
0
620
如何在 Elasticsearch 實現敏捷的資料建模與管理 @ DevOpsDays Taipei 2023
unclejoe
0
790
Elastic Observability 體驗工作坊 @ DevOpsDays Taipei 2022
unclejoe
0
1.1k
Featured
See All Featured
My Coaching Mixtape
mlcsv
0
13
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
310
Designing for Timeless Needs
cassininazir
0
93
The SEO identity crisis: Don't let AI make you average
varn
0
36
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
230
Docker and Python
trallard
47
3.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.5k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
190
Writing Fast Ruby
sferik
630
62k
The Curse of the Amulet
leimatthew05
0
4.7k
Paper Plane (Part 1)
katiecoart
PRO
0
1.9k
Transcript
AI Search 新時代:從反向索 引到語意理解的進化之路 Elastic Day Taiwan 2025 喬叔 Joe
Wu
• 2023, 於大型媒體公司,負責 AI 轉型,導入 Elastic Cloud AI Search •
2021 Oct, Elastic Certified Observability Engineer • 2021 Oct, 第13屆 iThome 鐵人賽 DevOps 組冠軍 - Elastic Observability • 2021 Sep, 書籍出版 - 喬叔帶你上手 Elastic Stack: Elasticsearch 的最佳實踐與最佳化技巧 • 2021 Feb, 獲得 2021 Elastic Silver Contributor • 2020 Oct, 第12屆 iThome 鐵人賽 Elastic Stack on Cloud 組冠軍 • 2018 Oct, 台灣第一位 Elastic Certified Engineer • 2015, 開始教授 Elasticsearch 課程、協助企業內訓及提供顧問服務 • 2015 Oct, 創業,大量使用 Elastic Stack 在產品開發、數據分析、運維監控 • 2013 Oct, Core Elasticsearch Training @ SFO • 2013 May, 導入 ES 0.90 版在跨國軟體產品實作多語系搜尋 5M MAU Joe Wu (喬叔) 的 Elastic 之旅 實戰 > 12年 教學 > 10年 https://www.facebook.com/Joe.ElasticStack 喬叔 - Elastic Stack 技術交流
搜尋技術的演進
反向索引時代 網頁內容爆炸,需要高速檢索 • BM25 1994 在 TREC3 中提出並被廣泛採用 • Lucene
1999 開發, 2005 成為 Apache 頂級專案 • 如何把詞 (term) 切出來 → Tokenizer • 如何提升比對率 → Token Filters/Charactor Filters ◦ Normalizer ◦ 取字根 ◦ 同義詞 ◦ …等 1990–2000s 讓搜尋能「找到字」
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 搜尋技術的演進 找 得 到 能 理 解
企業級搜尋與多維 查詢 實際應用需要篩選、排序、地理距離。 • Elasticsearch Release 2010 • 更大量的資料,效能 &
多維查詢的需求 搜尋結合商業邏輯與 個人化、空間感知 2010–2015 花蓮最新的地震災情新聞 花蓮震央 50 km 內的災情通報 我要看最近最熱門的花蓮地震報導 只要看『花蓮地震』的『地方新聞』 ,不要中央氣象局公告。 搜尋的五大真實需求面向
企業級搜尋與多維 查詢 實際應用需要篩選、排序、地理距離。 • 混合各種查詢方法,甚至要配合資料的前處理 - ETL Ingest Pipeline
搜尋結合商業邏輯與 個人化、空間感知 2010–2015
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢
向量檢索與深度學習萌芽 解決關鍵字搜尋無法理解語意的問題 • Word2Vec 2013 → 向量表示語意 • BERT 2018
→ Contextual Embedding • Embedding Model 的開源與逐漸成熟 語意查詢的新突破 2013–2018
向量欄位進入搜尋系統 Embedding Model 與向量搜尋逐漸成熟 • 2019 年,Elasticsearch 7.3 release dense_vector
的支援 • 開啟了語意搜尋的能力。 • 但是… ◦ 效能很差、延遲太高。 ◦ 語意搜尋的查詢方式 - KNN 很複雜,還無法與其他查詢混用。 ◦ Embedding 模型不符合 Domain 需求。 ◦ 回答是ˮ有多接近ˮ,而非ˮ是/否ˮ的標準答案。 從 term-based 轉向 meaning-based 搜尋 2019–2021
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋
效率 & Hybrid Search 需要高效的近似搜尋、但精準度不足 • 效率的提升 ◦ HNSW Hierarchical
Navigable Small Worlds):搜尋時間大幅降低,但 犧牲一些精準度。Latency: KNN 5002,000ms → HNSW 15ms) ◦ Sparse Encoder ELSER:讓語意搜尋能在 CPU 上運行,省 80% 成本 • Hybrid Search ◦ 讓 KNN 能與其他查詢混合使用。 ◦ RRF Reciprocal Rank Fusion) ᐨ 讓關鍵字查詢 & 語意查詢的結果能融合在一起 語意搜尋變得實用、 可擴展。讓「理解」與 「精準」並存。 2022–2023
KNN 可與其他 query & filter 混用。 ( Model設定門檻高 ) RRF
會將 KNN 與 query 的結果融合 過濾較低分結果 這裡應該也要加入和上方一樣的 filter,先暫時省略
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、但精準度 不足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存
Semantic Search 商用化 企業需要更簡化的語意搜尋整合方式。 • ESRE ElasticSearch Relevance Engine) ◦
模型管理、資料儲存、轉換向量、Search、 Inference API ᐨ Rerank:提高 KNN / ANN 粗選的品質。 語意搜尋成為 AI Search 基礎模組, 降低實作門檻 2023–2024
圖片來源:openai Ingest Pipeline 將 LLM 加入 ETL 實作 RAG 實踐技巧
• 分類 • 摘要 • 標籤 • Q&A • …等
Semantic Search 商用化 企業需要更簡化的語意搜尋整合方式。 • ESRE ElasticSearch Relevance Engine) ◦
模型管理、資料儲存、轉換向量、Search、 Inference API ᐨ Rerank:提高 KNN / ANN 粗選的品質。 • semantic_text ◦ 讓語意搜尋, 就像型別的設定一樣簡單。 ◦ 成為ˮ一種查詢ˮ易組合使用。 語意搜尋成為 AI Search 基礎模組, 降低實作門檻 2023–2024
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、精準度不 足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存 Semantic Search 商用化 ESRE, Rerank Elastic 8.15 `semantic_text` 企業需要更簡化的語 意搜尋整合方式。 語意搜尋成為 AI Search 基礎模組,降低實作門檻
Context Engineering / Agentic Search 時代 單純搜尋不足,LLM 需搭配動態資料檢索。 • Data
都已在 Elasticsearch 中,該 怎麼檢索,如何能提供 高品質的 Context? • 搜尋越強, Agent 越可靠。 • Elastic Search AI 搜尋不再只是回 傳結果,而是讓 AI 主動「拿工具」、 「做推理」、「完成任務」 。 搜尋進入 理解 + 生成 + 行動 時代 2024–2025
向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋
無法理解語意的問題 語意查詢的新突破 2013-2018 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 2019–2021 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 企業級搜尋與 多維查詢 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、精準度不 足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存 Lucene 誕生 BM25 成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 Semantic Search 商用化 ESRE, Rerank Elastic 8.15 `semantic_text` 企業需要更簡化的語 意搜尋整合方式。 語意搜尋成為 AI Search 基礎模組,降低實作門檻 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 Context Engineering Agentic Search 時代 Elastic 9.2 AI Agent Builder 搜尋進入 理解 + 生成 + 行動 時代 單純搜尋不足,LLM 需 搭配動態資料檢索。 找 得 到 能 理 解 搜尋技術的演進
AI Search ≠ Semantic Search 我們從反向索引開始,讓機器能「找到字」。 我們用向量與 KNN,讓它能「理解意思」。 我們用 Hybrid
與 RRF,讓它能「找到最對的答案」。 未來的 AI,不是用搜尋找資料,而是用搜尋找脈絡。 搜尋的真實需求、資料存取方法的定義 決定了 Context 的品質
https://www.facebook.com/Joe.ElasticStack 喬叔 - Elastic Stack 技術交流 Thanks