Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon Bedrock Knowledge Basesに Data Autometion...
Search
そのだ
March 17, 2025
Technology
1
140
Amazon Bedrock Knowledge Basesに Data Autometionを導入してみた
【connpass】
https://fusic.connpass.com/event/344729/
【AsiaQuest×Fusic】AWSから表彰されたエンジニアが語る!2社コラボLT会
そのだ
March 17, 2025
Tweet
Share
More Decks by そのだ
See All by そのだ
仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った
sonoda_mj
1
64
ハッカソンから社内プロダクトへ AIエージェント「ko☆shi」開発で学んだ4つの重要要素
sonoda_mj
6
1.9k
RAGの基礎から実践運用まで:AWS BedrockとLangfuseで実現する構築・監視・評価
sonoda_mj
0
1.3k
Amazon Bedrock Knowledge basesにLangfuse導入してみた
sonoda_mj
2
1k
AIエージェントに脈アリかどうかを分析させてみた
sonoda_mj
2
360
Amazon Bedrock Knowledge Basesのアップデート紹介
sonoda_mj
2
640
Snowflake未経験の人がSnowflakeに挑戦してみた
sonoda_mj
1
230
生成AIアプリのアップデートと配布の課題をCDK Pipelinesで解決してみた
sonoda_mj
0
480
AWSでRAGを作る方法
sonoda_mj
1
620
Other Decks in Technology
See All in Technology
MySQLとPostgreSQLのコレーション / Collation of MySQL and PostgreSQL
tmtms
1
1.4k
Building Serverless AI Memory with Mastra × AWS
vvatanabe
1
760
さくらのクラウド開発ふりかえり2025
kazeburo
2
1.2k
まだ間に合う! Agentic AI on AWSの現在地をやさしく一挙おさらい
minorun365
19
3.2k
オープンソースKeycloakのMCP認可サーバの仕様の対応状況 / 20251219 OpenID BizDay #18 LT Keycloak
oidfj
0
250
SQLだけでマイグレーションしたい!
makki_d
0
1.2k
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
2
460
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
1
780
AI with TiDD
shiraji
1
320
Microsoft Agent Frameworkの可観測性
tomokusaba
1
120
Strands Agents × インタリーブ思考 で変わるAIエージェント設計 / Strands Agents x Interleaved Thinking AI Agents
takanorig
6
2.3k
AIエージェントを5分で一気におさらい!AIエージェント「構築」元年に備えよう
yakumo
1
120
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
200
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
98
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
61
46k
Visualization
eitanlees
150
16k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
720
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.3k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
2
260
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
32
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
97
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
0
300
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
0
200
Transcript
©Fusic Co., Ltd. 1 CONFIDENTIAL Amazon Bedrock Knowledge Basesに Data
Autometionを導入してみた! 2025.3.13 苑田 朝彰 @sonoda_mj AsiaQuest × Fusic
©Fusic Co., Ltd. 2 苑田 朝彰 Sonoda Tomotada - X:
sonoda_mj - 2023 AWS Jr.Champions - 2024 AWS Community Builders (ML & GenAI) - 2024 Japan AWS Top Engineers (Services) - 甲賀流忍者検定(初級)/ スパルタン コメント 最近後輩が捌いたぶりを食べました。 自己紹介 はじめに 株式会社Fusic
©Fusic Co., Ltd. 3 CONTENTS 目次 1. re:invent 2024のアップデートでKBは何が変わったのか 2.
Amazon Bedrock Data Automation導入してみた! 3. まとめ
©Fusic Co., Ltd. 4 re:invent 2024のアップデートでKBは 何が変わったのか 1
©Fusic Co., Ltd. 5 Amazon Bedrock 内から基盤モデルをデータソースに接続して、検索拡張生成 (RAG) を行うことができる。 Amazon
Bedrock Knowledge Basesとは Bedrock LLM Bedrock Embedding Model Vector DB Data Source or or or S3 様々なデータを入れる .txt, .md, .html, .doc/docx .csv, .xls/.xlsx, .pdf OpenSearch Serverless Aurora
©Fusic Co., Ltd. 6 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理
©Fusic Co., Ltd. 7 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理 解析戦略 • default • foundation models チャンキング戦略 • default • 固定サイズ • Hierarchical • セマンティック • カスタム(Lambda) 埋め込みモデル • Amazon Titan • Cohere ストアの種類 • OpenSearch Serverless • Aurora Serverless • MongoDB Atlas • Pinecone • Redis Enterprise Cloud 検索タイプ • ハイブリット検索 • セマンティック検索 高度なデータ操作 • メタデータフィルタリング(手動) • クエリ拡張 • クエリ分解 生成モデル • Amazon Titan • Anthropic Claude • その他 その他 • ガードレール • 評価 - new データソースの種類 • S3 • Web Crawler • Confluence • Salesforce • SharePoint データ取り込み • IngestionJob API
©Fusic Co., Ltd. 8 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理 解析戦略 • default • foundation models • Data Automation -new チャンキング戦略 • default • 固定サイズ • Hierarchical • セマンティック • カスタム(Lambda) 埋め込みモデル • Amazon Titan • Cohere ストアの種類 • OpenSearch Serverless • Aurora Serverless • MongoDB Atlas • Pinecone • Redis Enterprise Cloud • Amazon Neptune Analytics - new • Amazon Redshift - new • Amazon Kendra GenAI Index - new 検索タイプ • ハイブリット検索 • セマンティック検索 高度なデータ操作 • メタデータフィルタリング(手動) • メタデータフィルタリング(自動) - new • クエリ拡張 • クエリ分解 • Reranking - new 生成モデル • Amazon Titan • Anthropic Claude • その他 • Amazon Nova - new その他 • ガードレール • 評価 - new • ストリーミング応答 - new データソースの種類 • S3 • Web Crawler • Confluence • Salesforce • SharePoint • Custom - new データ取り込み • IngestionJob API • IngestKnowledgeBaseDocumentsor - new
©Fusic Co., Ltd. 9 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理 解析戦略 • default • foundation models • Data Automation -new チャンキング戦略 • default • 固定サイズ • Hierarchical • セマンティック • カスタム(Lambda) 埋め込みモデル • Amazon Titan • Cohere ストアの種類 • OpenSearch Serverless • Aurora Serverless • MongoDB Atlas • Pinecone • Redis Enterprise Cloud • Amazon Neptune Analytics - new • Amazon Redshift - new • Amazon Kendra GenAI Index - new 検索タイプ • ハイブリット検索 • セマンティック検索 高度なデータ操作 • メタデータフィルタリング(手動) • メタデータフィルタリング(自動) - new • クエリ拡張 • クエリ分解 • Reranking - new 生成モデル • Amazon Titan • Anthropic Claude • その他 • Amazon Nova - new その他 • ガードレール • 評価 - new • ストリーミング応答 - new データソースの種類 • S3 • Web Crawler • Confluence • Salesforce • SharePoint • Custom - new データ取り込み • IngestionJob API • IngestKnowledgeBaseDocumentsor - new
©Fusic Co., Ltd. 10 Amazon Bedrock Data Automation (以下BDA)は、ドキュメント、画像、音声、動画などの非構造化マルチモーダルコンテ ンツからデータを抽出することができる。
Amazon Bedrock Data Automation Amazon Bedrock Data Automation 免許証 output.md 名前:田中太郎 免許番号:123456789 住所:hogehoge テキスト抽出 動画
©Fusic Co., Ltd. 11 標準出力(画像) テキストで表示される 運転免許証 運転免許証から情報を抽出する。
©Fusic Co., Ltd. 12 標準出力(画像) 要素レベルで確認できる 運転免許証 運転免許証から情報を抽出する。
©Fusic Co., Ltd. 13 標準出力(動画) 動画から情報を抽出する。 動画の要約 完全な文字起こしも可能 動画
©Fusic Co., Ltd. 14 ブループリント(設計書)を使用し、どのようなデータをどう抽出するか柔軟に定義することができる。 画像とドキュメントの2つがサポートされている。 カスタム出力
©Fusic Co., Ltd. 15 Amazon Bedrock Data Automation 導入してみた! 2
©Fusic Co., Ltd. 16 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理 解析戦略 • default • foundation models • Data Automation -new チャンキング戦略 • default • 固定サイズ • Hierarchical • セマンティック • カスタム(Lambda) 埋め込みモデル • Amazon Titan • Cohere ストアの種類 • OpenSearch Serverless • Aurora Serverless • MongoDB Atlas • Pinecone • Redis Enterprise Cloud • Amazon Neptune Analytics - new • Amazon Redshift - new • Amazon Kendra GenAI Index - new 検索タイプ • ハイブリット検索 • セマンティック検索 高度なデータ操作 • メタデータフィルタリング(手動) • メタデータフィルタリング(自動) - new • クエリ拡張 • クエリ分解 • Reranking - new 生成モデル • Amazon Titan • Anthropic Claude • その他 • Amazon Nova - new その他 • ガードレール • 評価 - new • ストリーミング応答 - new データソースの種類 • S3 • Web Crawler • Confluence • Salesforce • SharePoint • Custom - new データ取り込み • IngestionJob API • IngestKnowledgeBaseDocumentsor - new
©Fusic Co., Ltd. 17 前処理をする理由 前処理をしないとLLMがデータを解釈できない可能性がある 不具合報告書(サンプル) テキスト抽出した後のデータ LLMなしの前処理 製品不具合報告書
文書番号DFT-2025-0142 社外秘 1.基本情報 項目 内容 製品名 産業用制御盤MCB5000 製造ロット LOT20250213A4 発生日 2025/2/20 報告者品質管理部山田 不具合検出工程 最終検査 2不具合内容 電源投入後制御基盤のTR24周辺が異常発熱(85度超)。 5台中2台で発生。樹脂部分変形の兆候あり。 システム診断でエラーE405表示。 <span style="color: green;">3.調査結果</span> 初期調査 ・TR24周辺の目視検査で異常なし ・C-E間電圧が規定値(3.3V±0.1V)超え4.2V ・X線検査で基盤内部に異常なし 根本原因分析 材料要因70% TR24のロット検査実施。5%の確率で特性値が仕様外 設計要因20% 回路シミュレーションで、特定条件下でTR24に過大電流 製造要因10% 2/13のはんだ付工程で使用の新ロットFXが原因でハンダ接合部の信頼性低下 4.対策 緊急対応 該当ロットの出荷停止 完了(2/20) どのテーブル情報か わからない 不要なタグが存在
©Fusic Co., Ltd. 18 前処理をする理由 前処理をしないとLLMがデータを解釈できない可能性がある 不具合報告書(サンプル) # 製品不具合報告書 **文書番号:
DFT-2025-0142** **社外秘** ## 1. 基本情報 | 項目 | 内容 | |------|------| | 製品名 | 産業用制御盤 MCB-5000 | | 製造ロット | LOT-20250213-A4 | | 発生日 | 2025年2月20日 | | 報告者 | 品質管理部 山田太郎 | | 不具合検出工程 | 最終検査工程 | ## 2. 不具合内容 電源投入後に制御基板のトランジスタT24周辺が異常発熱(85℃超)。 5台中2台で発生。樹脂部品変形の兆候あり。システム診断で「温度センサーエラー(E-405)」表示。 ## 3. 調査結果 ### 初期調査 - トランジスタT24周辺の目視検査で異常なし - コレクタ-エミッタ間電圧が規定値(3.3V±0.1V)を超え4.2V - X線検査で基板内部に異常なし ### 根本原因分析 **材料要因 (70%)** トランジスタT24のロット検査を実施。5%の確率で特性値が仕様外(許容範囲: 0.4A〜0.6A、検出値: 最大0.8A) **設計要因 (20%)** 回路シミュレーションの結果、特定条件下でトランジスタT24に過大電流が流れる可能性を確認 **製造要因 (10%)** 2月13日のはんだ付け工程で使用された新ロットのフラックスが原因で、はんだ接合部の信頼性低下 ## 4. 対策 ### 緊急対応 | 対応項目 | 状況 | |---------|------| | 該当ロットの出荷停止 | 完了 (2/20) | テキスト抽出した後のデータ LLMによる 前処理 整理されたテーブル構造 わかりやすい階層構造
©Fusic Co., Ltd. 19 KBのParsing strategyで設定可能なData Automationを使用する。現状、.txt, .md, .html, .doc,
.csv, .xls, .pdf, .jpeg/.pngしか 対応していない(はず) 1. KBに搭載されているData Automationを使用する Parsing strategyから 選択するだけ
©Fusic Co., Ltd. 20 KBのParsing strategyで設定可能なData Automationを使用する。現状、.txt, .md, .html, .doc,
.csv, .xls, .pdf, .jpeg/.pngしか 対応していない(はず) 1. KBに搭載されているData Automationを使用する KBの結果 サンプルデータ
©Fusic Co., Ltd. 21 Data Automationを使用し、動画からテキストを抽出する。その後、抽出したデータをKBに取り込む。 2. Data Automationを使って、前処理したデータをKBで使用する S3
AWS Lambda S3 AWS Lambda S3 OpenSearch Serverless Knowledge Bases 動画 Data Automation Json Markdown Data Automationで テキスト抽出 Jsonを整形してRAGが 使いやすい形に変更
©Fusic Co., Ltd. 22 Data Automationを使用し、動画からテキストを抽出する。その後、抽出したデータをKBに取り込む。 2. Data Automationを使って、前処理したデータをKBで使用する KBの結果
テキスト抽出した mdから回答生成
©Fusic Co., Ltd. 23 まとめ Data AutomationでKBの前処理を簡単に行うことができた。 Point 01 日本語対応が少々怪しい気がするので、注意が必要。
Point 02
©Fusic Co., Ltd. 24 Thank You We are Hiring! https://recruit.fusic.co.jp/
ご清聴ありがとうございました!