Upgrade to Pro — share decks privately, control downloads, hide ads and more …

全文検索+セマンティックランカー+LLMの自然文検索サ−ビスで得られた知見

segavvy
February 17, 2025

 全文検索+セマンティックランカー+LLMの自然文検索サ−ビスで得られた知見

2025年2月17日に #さくらのAI Meetup vol.7「自然言語によるサービス開発」でお話した資料です。

※個人で作成したものであり、内容や意見は所属企業・部門見解を代表するものではありません。

segavvy

February 17, 2025
Tweet

More Decks by segavvy

Other Decks in Technology

Transcript

  1. 全⽂検索+ セマンテ ィ ッ クランカ­+LLMの ⾃然⽂検索サ­ビスで得られた知⾒ 3章に分けてお話します 🄫2025 segavvy 2025/02/17

    さくらのAI Meetup vol.7 @segavvy ※個⼈で作成したものであり、内容や意⾒は所属企業・部⾨⾒解を代表するものではありません。 1
  2. サイト内検索とChatGPTの連携サービス 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 サイト内検索 企業や⾃治体が サイト訪問客へ

    提供する検索機能 ChatGPT 質問を理解して 回答⽂を⽣成 サイトの 掲載情報に基づいて 質問に回答してくれる サービス 2023年4⽉にリリース 4
  3. イメージ 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 ① ② ③

    ①検索条件の⼊⼒欄 ②ChatGPTの回答⽂ ③検索結果の⼀覧 ※公開可能な事例ですが、この資料は営業⽬的ではないのでお客様名を伏せています。 5
  4. ʢୈ̎ষͷલʹʣࣗݾ঺հ 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 ͕͑͠Β ͔ͨ͠ ߐ಄

    و࢙ !TFHBWWZʢηΨϏʣ גࣜձࣾΞΠΞΫτ ਓ޻஌ೳɾίάχςΟϒιϦϡʔγϣϯ෦ ΧελϚʔαΫηε՝ ՝௕ ΋ͷͮ͘Γ΍࢓૊Έͮ͘Γ͕େ޷͖ɻ"*ͷࣾձ࣮૷ʹᬏਐதʂ 6
  5. サイト内検索としての利⽤は⼤好評︕ 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 ⽬論みどおりになってくれて⼀安⼼ ※公開情報ですが、この資料は営業⽬的では ないのでお客様名を伏せています。

    サイト内検索の利⽤率 1.8倍 条件不⾜時の聞き返しで 適切な条件追加を促し 再検索後のページ到達率 2.8倍 例︓”税⾦”で検索→ ”住⺠税や固定 資産税のお問い合わせですか︖” 8
  6. 社内データの利活⽤案件も急増中︕ 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 RAGブームで 社内データの利活⽤に注⽬が集まっている 製品サポート業務において

    マニュアル、FAQ、対応 メール履歴を対象にして 対応窓⼝の⽀援可否をPoC 業務が効率化できると 評価いただき導⼊ ※公開情報ですが、この資料は営業⽬的では ないのでお客様名を伏せています。 9
  7. 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 ೥݄ʹ։࠵͞Εͨ "[VSF0QFO"* %FW%BZͰ͸ 3"(ͷαʔϏεఏڙʹΑΓ

    ಘΒΕͨ஌ݟΛ ΋͏গ͠·ͱΊ͍ͯ·͢ɻ ͝ڵຯ͕͋Γ·ͨ͠Βͥͻʂ ʢୈ̏ষͷલʹʣࠓ೔ͷ͓࿩ͷৄࡉ 10
  8. ࣗવݴޠॲཧͷௐ੔खஈ͕େ੾ ⾼精度な⾃然⾔語のアルゴリズムが お客様のデータや⼊⼒される条件で 必ずしも⾼精度とは限らない 専⾨⽤語、社内⽤語、略語、コード名 前提が省略された質問 ⽂章ではなく単語を列挙した質問 テキスト抽出できないデータ… お客様のデータや使い⽅に合わせて 精度を改善できる必要がある

    🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 弊サービスの調整機能の⼀例︓セマンティックランカー 検索結果に対して「関連あり」や「関連なし」のボタンを押す ことでランカーの教師データを作成し、条件⽂とデータ内容 の関連度合いを機械学習させて結果の並びを改善できる機能 他にも同義語登録、アノテーション付与、条件⽂のサジェスト、特定 ⽂⾔に対して指定データをトップに出す機能などがある。 弊サービスはお客様の⾃⾛を理想としており、お客様⾃⾝が管理画⾯ で各種調整を実施できるようにしている。 12
  9. ॏཁͳͷ͸γεςϜΑΓ΋σʔλ 企業内データの利活⽤は⼤昔からの課題 • データが散在している • ⽂書がメンテされておらず古いまま • 分類されておらず探せない • どれが最新版かわからない

    • 管轄が違うので簡単に修正できない • 基幹システムの⽇本語検索機能が弱い • 実はまだ紙 etc. 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 13
  10. 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 お客様にデータ整備の重要性を理解してもらい システムの導⼊・運⽤と共にデータ整備を進めることが⼤切 • 社内規程や業務要綱などは簡単に修正できないが

    それを補うFAQやガイドラインの追加は⽐較的実施しやすく 回答精度を⼤きく上げられる • データを⼤まかにでも分類できれば 検索時に⽬的ごとに絞り込むことで 回答精度を⼤きく上げられる • LLMが誤読するデータは⼈間にとってもわかりにくいので 先進的なお客様はLLMが理解しやすいデータを指標に取り⼊れている ॏཁͳͷ͸γεςϜΑΓ΋σʔλ 14
  11. 3. AIへの期待値を調整できるUIが必須 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 vs 世の中は

    チャットUIが 当たり前 サイト内検索と 共存するために 検索UIを選択 検索UIでリリースしたところ新たなメリットを確認 ⾃然⾔語の会話UIは チャットボットにすべきか 検索にすべきか 15
  12. 3. AIへの期待値を調整できるUIが必須 🄫2025 segavvy 2025/02/17 さくらのAI Meetup vol.7 観点 チャットボットのUI

    検索のUI ①UIの狙い 対話で要件を引き出して答える 条件に合致する情報を提⽰する ②利⽤者の期待 対話による回答を期待 検索結果の⼀覧がすぐ得られることを期待 ③誤答の影響 期待に反するので体験を損ないがち 検索結果にノイズが混ざるのは許容範囲 ④情報の 適合率 吹き出しで端的な回答をするために 検索段階での⾼い適合率が必要 検索結果にノイズの混ざることがある程度 許容されており適合率の要求が低め ⑤情報の 再現率 吹き出しでは⼤量の候補は列挙 できないので再現率が上げにくい 検索結果として情報を列挙するのは 当たり前なので再現率が上げやすい ⑥⼊⼒条件の 傾向 解決したいこと(Q)を⼊⼒する傾向 QでAを探すには⼯夫が必要 回答(A)を探す⼿掛かりを⼊⼒する傾向 そのまま検索クエリーに活⽤できる 検索UIの⽅が 利⽤者の期待値を調整しやすい※ ※あくまでも情報検索を主⽬的とする場合の現時点の話 ⽬的や今後のAIの精度向上・マルチモーダル化などによってどんどん変わっていくはず 16