Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Classmethod Odyssey 登壇資料

Classmethod Odyssey 登壇資料

Hiroki YAMAMOTO

July 19, 2024
Tweet

More Decks by Hiroki YAMAMOTO

Other Decks in Technology

Transcript

  1. classmethod 自己紹介:山本紘暉 クラスメソッド株式会社 新規事業部 生成AIチーム 研究開発エンジニア 2020年 5月~ ・コンピュータビジョン 骨格検出や人物追跡

    2023年 3月~ ・生成AIやLLM 最近はRAGに注力 「クラスメソッド 山本 ブログ」で検索 https://dev.classmethod.jp/author/yamamoto-hiroki/ 研究開発 ・最新研究と実適用の間の橋渡し ・妥当な期間・コスト・品質 ・着実に進めるために ・有り物だけでなく自作も 3
  2. classmethod LLMの問題点・RAGの目的 ユーザ 質問 誤った回答 LLM プログラム 質問 誤った回答 ユーザ

    質問 正しい回答 LLM プログラム 質問 + 関連テキスト 正しい回答 参考 ドキュメント 検索 関連テキスト 通常 RAG 9
  3. classmethod RAGの構成要素(ベーシックな構成) ユーザ 質問 回答 LLM プログラム 質問 + 関連テキスト

    回答 参考 ドキュメント インポート 検索 システム 質問 関連テキスト 10
  4. classmethod RAGのシステム構成(例:AWSの場合) AWS ユーザ Slack App Slack Notion アップロード ドキュメント

    (PDF・ワードなど) Python プログラム (in コンテナ) App Runner Kendra インデックス S3 バケット Bedrock Anthropic Claude インポート 11
  5. classmethod 回答改善の例2:タグ付け・フィルタリングをする 19 起動手順 ・アプリを起動 ・リストをタップ ... 製品A マニュアル 起動手順

    ・アプリを起動 ・ファイルを確認 ... 製品B マニュアル 製品型番:A 製品型番:B 検索 サービス (フィルタリング)
  6. classmethod 回答改善の例3:マルチモーダルモデルを使って文字起こし 20 詳細はこちらのブログをご覧ください https://dev.classmethod.jp/articles/read-powerpoint-document-with-claude-3/ # 経済産業省のMission ## 日本経済・国民の暮らしを豊 かにする

    ### 産業政策 - 人工知能、IoT、ヘルスケア - データ活用、中小企業 - 産業構造・・・ ### 通商・貿易 - EPA、TPP、インフラ輸出 - 新興国戦略、ルール形成 - 戦略・・・ ### 資源・エネルギー - 電力自由化、新エネ・省エネ - 原発、資源外交・・・ ### 手段 - 経済成長 - 産業競争力の強化 - イノベーション - 世界の富の取り込み - エネルギー安定供給 ### 目的 - 社会課題の解決 Ex.少子高齢化、貧困問題、 世界の不安定化 - 豊かな社会の実現
  7. classmethod 実用で躓く点2 (検索):抽出単位が細かく情報が落ちる 27 資格取得に関する規則 ..... 申請方法 ・ワークフローから申請してください 対象資格と補助額 ・別表を記載のある資格のみ申請可能

    です。対応する額を入力してください ..... 別表 応用情報技術者の資格を取っ たのですが、補助金の申請方 法を教えてください ヒット しやすい ヒット しにくい 資格名 補助額 基本情報技術者 全額 応用情報技術者 半額
  8. classmethod 補足:ファイル単位で抽出する コストが気になる場合、以下のような方式もあり ・小さいモデルで、ファイルを読み込み、関連情報を抽出する ・大きいモデルで、要約して回答を生成する 29 GPT-4o mini GPT-4o 資格取得に関する規則

    ..... 申請方法 ・ワークフローから申請してください 対象資格と補助額 ・別表を記載のある資格のみ申請可能で す。対応する額を入力してください ..... 別表 ..... 資格取得に関する規則 ..... 申請方法 ・ワークフローから申請してください 対象資格と補助額 ・別表を記載のある資格のみ申請可能で す。対応する額を入力してください ..... 別表 ..... 資格取得に関する規則 ..... 申請方法 ・ワークフローから申請してください 対象資格と補助額 ・別表を記載のある資格のみ申請可能で す。対応する額を入力してください ..... 別表 .....
  9. classmethod 補足:検索エンジンを使わなくても良いかも 31 以下は会社のドキュメントファイルです。 ユーザの質問に回答するのに必要な情報が書かれてい るファイルを選択し、番号を教えてください <ドキュメント> ・規則集/ ・第1章/ ・第1節/

    ・社員就業規則.pdf [0] ・制度運用規程.pdf [1] ・従業員職種名称規程.pdf [2] ・特別休暇付与基準.pdf [3] ... ・健康診断/ ・検診機関一覧.pdf [281] ・提携医療機関一覧(首都圏).pdf [282] ・健康診断申込書.pdf [283] ・検診項目一覧.pdf [284] ・実施案内.pdf [285] <ユーザの質問> 11月に入社しました。有給はいつ付与されますか? ファイルを選択させる場合の プロンプト(1回で選択させる) → そこそこ上手く選択してくれた フォルダを選択させて、 ファイルを選択させる方法もあり (複数回で選択させる) ファイルの要約を追加しても良い
  10. classmethod 補足:暗黙的な情報 回答に関係する情報(社内情報に関するQAの場合) 質問本文 メタデータ コンテキスト 暗黙知 明文化 (ドキュメント) 暗黙知

    明文化 (ドキュメント) 業務知識 社内知識 暗黙知 業界の常識 ドキュメント 本文 メタデータ コンテキスト 通常のQAシステムの 対象範囲 通常のQAシステムの 対象範囲 エンタープライズ検索で 検索できる(しやすい)範囲 システムが使用している情報は、人間に比べてごく一部 35
  11. classmethod こういう構成が良さそう(例) 自社データ サービス 41 AWS データ 基盤 検索 エンジン

    検索 プログラム チャット アプリ App Runner RDS S3 ※ 検討中の内容です。実現できるとは限りません
  12. classmethod こういう機能・観点が必要そう 自社データ サービス 42 クラウド 権限情報 の取得 データ分析 データ

    基盤 検索 エンジン 検索 プログラム クエリ変換 再検索 認証 コネクタ 抽出処理 クエリレート コスト データ退避・復帰 アクセス 権限設定 チャット アプリ 前処理 チャンキング 検索手法 フィードバック ユーザ応対 ドキュメント 整理 アクセス制御 フィルタリング メタデータ の取得
  13. classmethod Tips:データ取り込み Kendraのコネクタ ・メリット:対応サービスが多い ・オススメの使い方:コネクタを使ったデータ吸い出し ・Custom Document Enrichment の PreExtraction

    ・データサービスから吸い出したデータをS3に出力できる ・別の検索サービス(OpenSearch Seavice・RDS)で使う ・要確認な点:データ形式・対象・範囲 46 https://aws.amazon.com/jp/blogs/machine- learning/enrich-your-content-and-metadata-to- enhance-your-search-experience-with-custom- document-enrichment-in-amazon-kendra/