RAGの基本と最新技術動向

1 intro セミナー終了後に3個の特典をお渡しします！ 1時間構築する  「RAG超入門」のソースコード    生成AIオープンソース厳選50選     生成AIが返答するLINE
Bot  サンプルコード（GCP） 

RAGの基本と最新技術動向前編

3 皆さんに質問です「RAGについてもっと知りたい！」という方はどのくらいいらっしゃいますか？当てはまる方はチャットでコメントかリアクションボタンを押してくださいリアクションボタンの操作手順
① ②

4 皆さんに質問です「RAG作ってみたいです！」という方はどのくらいいらっしゃいますか？リアクションボタンの操作手順 ① ② 当てはまる方はチャットでコメントか
リアクションボタンを押してください

ご協力お願いします学びに直結する最高のセミナーにする為に積極的な参加

リアクションボタンの操作手順画面に OKマークのポーズまたはリアクションボタンを押してください ① ② ここまでOKな方

皆さんありがとうございます！

RAGの基本と最新技術動向本編

9 最初にこのセミナーで手に入ること ❏ なぜRAGが必要なのか、その理由がわかります。 ❏ RAGの基本的な仕組みやがわかります。 ❏ RAGとファインチューニングの違いがわかります。 ❏
RAGが生成する間違えを低減する最新研究がわかります。 ❏ RAGを1時間で構築するための「方針」がわかります。

10 質問改めて質問です 30% 50% 100% 1 2 3 生成AIは人間の仕事をどのくらい奪うと思いますか？

11 質問 OpenAI創設者イーロン・マスク氏曰く

12 生成AI「弱肉強食」時代 AI you

13 でも、安心してください生成AIによって生まれる仕事もあります生成AIエンジニア＝

14 講師講師自己紹介丸岡和人  エンジニア育成を12年以上やってます ❏ 未踏OB ❏
大学時代にシステム開発会社を起業 ❏ 育成に関わったエンジニア/データサイエンティストは1000人以上 ❏ Kaggle Master、Kaggle Expertなどを排出 ❏ ITエンジニアになった教え子も多数 ❏ 某大手商社の生成AIプロジェクトを推進し全社導入 ❏ 詳しくはconnpassの参考URLを参照してください参考URL① https://prtimes.jp/main/html/rd/p/000000028.000013257.html 参考URL② https://prtimes.jp/main/html/rd/p/000000025.000013257.html

15 自己紹介 ConnpassでもKaggle勉強会を多数開催 Kaggle Master、Kaggle Expertを排出

そもそもRAGって何？

17 最初に ChatGPTについてのおさらい ChatGPTの正式名称は「Chat Generative Pre-trained Transformer」直訳するとチャット生成
事前学習済みトランスフォーマーつまり「チャットを生成する、事前にデータで訓練してあるトランスフォーマー」の意味

18 最初にトランスフォーマーって何？ 2017年にGoogleの研究チームが作った技術。かなり大まかに答えると、与えた文字の続きを予想するAIのこと。「日本で一番高い山は、」を与えると、「富士山」と続きの文章を予測します。

19 こんなケース多くないですか？ chatGPTに独自データを回答させたい！新しいデータで再学習させる（ファインチューニングなど）プロンプトに回答データを入れて、それを元に答えさせる 1 2 方法は2つあります

20 こんなケース多くないですか？ chatGPTに独自データを回答させたい！新しいデータで再学習させる（ファインチューニングなど）プロンプトに回答データを入れて、それを元に答えさせる 1 2 方法は2つあります学習時間と学習コスト（マシンパワー）が必要学習時間不要、学習コスト不要！ただし、工夫は必要

21 全体像「プロンプトに回答データを入れて、それを元に答えさせる」具体的には？貴社社内検索エンジンこの部分をさらに説明すると

22 RAGについて赤枠のプロンプトは下記のようなイメージこれが「RAG」検索拡張生成 (Retrieval Augmented Generation) 以下の#検索結果を元に#ユーザーインプットに対しての適切な回答を生成してください。 #ユーザーインプット
有給申請の方法を教えて #検索結果社内ポータルの https://~~~~ から申請してください（社内DBより検索した結果）

23 RAGについてちなみに... RAGは、2020年5月に発表された論文「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks」で初めて登場しました。
この論文のファーストオーサーであるパトリック・ルイス博士はMeta社に在籍中にこの論文を執筆しました。 https://arxiv.org/abs/2005.11401?ref=blog-ja.allganize.ai

RAGの課題と最新研究による解決案

25 課題の整理 RAGの課題適切な回答が得られない誤情報を生成してしまう（ハルシネーション） 1 2

26 課題の整理 RAGの課題適切な回答が得られない誤情報を生成してしまう（ハルシネーション） 1 2 データの質や、検索インデックスの作り方、検索の精度によって大きく影響を受ける間違った検索結果を与えると間違って答える（当然）

27 RAGの課題まずは各処理のどこにボトルネックがあるのか特定するのが重要【検索前】・データ前処理　・無関係な文章を取り除く（LLMを使ってもよし）　・可能ならデータを構造化する（LLMを使ってもよし）　・データのチャンクの長さを最適化する（文章単位？ページ単位？章単位？）　・メタ情報を入れる（ファイル名、ファイルパス、日付、など）　・PDFなどのデータの場合にはOCRで文字起こしするがこの文字起こしの精度もかなり重要
・クエリ変換　・クエリを適切な回答が得られるように変換する（Hyde）　・クエリに複数内容が含まれている場合はクエリを分割して結果を足し合わせる・クエリによる分類　・クエリから質問の難易度を想定して、処理を変更する（CRAG）【検索時】・ベクトル検索以外の手法も含めて比較検討（キーワード検索・SQLなど）・再帰的、階層的に検索・複数クエリに基づき検索して結果を足し合わせて再評価（Re-Ranking）・検索結果が質問に対して適切か評価する（Self-RAG）【検索後】・プロンプトチューニング・複数結果がある場合は別手法でスコアづけして再評価（Re-Ranking）・生成した回答が与えた文章と異なることを言っていないか評価（Self-RAG）・生成した回答が、質問に対して有効か評価（Self-RAG）・検索結果の評価指標を入れてPDCAを回す（RAGAS，ROUGE、BLEU、METEOR）

28 RAGの課題まずは各処理のどこにボトルネックがあるのか特定するのが重要【検索前】・データ前処理　・無関係な文章を取り除く（生成AI / 予測AI / ルールベース）
　・可能ならデータを構造化する（生成AI / 予測AI / ルールベース）　・データのチャンクの長さを最適化する（文章単位？ページ単位？章単位？）　・メタ情報を入れる（ファイル名、ファイルパス、日付、など）　・PDFなどのデータの場合にはOCRで文字起こしするがこの文字起こしの精度もかなり重要・クエリ変換　・クエリを適切な回答が得られるように変換する（Hyde）　・クエリに複数内容が含まれている場合はクエリを分割して結果を足し合わせる・クエリによる分類　・クエリから質問の難易度を想定して、処理を変更する（CRAG）【検索時】・ベクトル検索以外の手法も含めて比較検討（キーワード検索・SQLなど）・再帰的、階層的に検索・複数クエリに基づき検索して結果を足し合わせて再評価（Re-Ranking）・検索結果が質問に対して適切か評価する（Self-RAG）【検索後】・プロンプトチューニング・複数結果がある場合は別手法でスコアづけして再評価（Re-Ranking）・生成した回答が与えた文章と異なることを言っていないか評価（Self-RAG）・生成した回答が、質問に対して有効か評価（Self-RAG）・検索結果の評価指標を入れてPDCAを回す（RAGAS，ROUGE、BLEU、METEOR）

29 RAGの新たな潮流新たな潮流① Dify （数時間もかからずデプロイできる）中小企業はDifyを選択する所も増えそう

30 RAGの新たな潮流なぜdifyが急に流行ったのか？（仮説） Difyが Langchainをやめる

31 RAGの新たな潮流エンタープライズ向けならこちらがお手軽（MS公式） https://github.com/Azure-Samples/jp-azureopenai-samples

32 RAGの新たな潮流新たな潮流② ChatGPT-4o

33 RAGの新たな潮流 Dify + 4oの大きな可能性簡単になったとはいえ、大多数の人にはそれでも難しい = 生成AIエンジニアが必須

質疑応答 Chapter 02.

35 intro 受講後特典をお渡しします！本講座のソースコード    生成AIオープンソース厳選50選     生成AIが返答するLINE Bot 
サンプルコード（GCP） 

36 プレゼント受け取りかた 1. スマホを手にとって    2. LINEを開いて    3.
QRコード読み取って    4. 友達登録    5. 「RAG」と送信    6. 運営の励みになりますので  アンケートをお願いします    7. 明日の朝までに届けます   

37 プレゼントもし、もっと詳しく知りたい時は LINEで「相談」と入力してください。    個別メッセージで手動返答します。 

RAGの基本と最新技術動向

RAGの基本と最新技術動向

Fumina Chihama

More Decks by Fumina Chihama

Featured

Transcript