Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
生成AI時代のデータ基盤
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
shibuiwilliam
September 02, 2025
Technology
5.6k
7
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
生成AI時代のデータ基盤
【事業にディープダイブするデータエンジニアリングミートアップ】登壇資料
https://layerx.connpass.com/event/363618/
shibuiwilliam
September 02, 2025
More Decks by shibuiwilliam
See All by shibuiwilliam
Rule repository
shibuiwilliam
3
50
LLM時代の検索アーキテクチャと技術的意思決定
shibuiwilliam
4
2.4k
Why Open Dataspacesのまとめ
shibuiwilliam
2
59
マルチモーダル非構造データとの闘い
shibuiwilliam
2
600
飽くなき自動生成への挑戦
shibuiwilliam
1
85
AIエージェントのメモリについて
shibuiwilliam
1
730
画像生成AIについて
shibuiwilliam
1
68
2026年はチャンキングを極める!
shibuiwilliam
9
2.3k
R&Dチームを起ち上げる
shibuiwilliam
1
270
Other Decks in Technology
See All in Technology
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
600
20260619 私の日常業務での生成 AI 活用
masaruogura
1
220
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
2.4k
AAIFに入ってみた ~内から見えるコミュニティ動向~
sato4
0
240
プロダクト開発から業務改善コンサルまで。事業全体へ「染み出す」ことで広がるエンジニアの可能性
ham0215
0
130
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
190
MCP Appsを作ってみよう
iwamot
PRO
4
670
iAEONの段階的リアーキテクト戦略 / iAEON's_Gradual_Re-architecture_Strategy
aeonpeople
0
210
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
150
【2026年版】 ベクトル検索䛸 Embedding最前線
mocobeta
2
470
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
200
Featured
See All Featured
Visualization
eitanlees
152
17k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
780
The Spectacular Lies of Maps
axbom
PRO
1
810
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
540
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
170
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
180
KATA
mclloyd
PRO
35
15k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Building Applications with DynamoDB
mza
96
7.1k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Transcript
© LayerX Inc. ⽣成AI時代のデータ基盤 2025/09/02 LayerX AI‧LLM事業部 Yusuke Shibui
⾃⼰紹介 shibui yusuke • いろいろ → Stability AI → LayerX(いまここ)
• LLM, 検索データ, R&Dチームのマネージャー • MLOpsコミュニティ運営 • 最近やりたいこと ⽣成AIの⽣成AI以外のエンジニアリング • Github: @shibuiwilliam • FB: yusuke.shibui • エモカレ :https://note.layerx.co.jp/n/nfaa5013d5fed 飼い猫のWilliam 11歳の誕⽣⽇!
機械学習を本番システムに組み込む方法を デザインパターンとして整理! 機械学習を組み込んだ本番システムを 実際にハンズオンで作る! 【共著】大企業からスタートアップまで、 MLOpsの実践例を集約! 乞うご期待! Under development
© LayerX Inc. 4 LLM/VLMで解けるようになった課題 多様なモダリティのドキュメント理解、整理、⽣成
© LayerX Inc. 5 Ai Workforceとは 「知的単純作業」 ドキュメントワークの多くは、思考⼒‧集中⼒が必要であり、その業界‧業務の専⾨性が必要である。 ⼀⽅、正解が決まっていてクリエイティビティがなく、「早く終わらせる」以外に差別化が乏しい。 毎回同じことの繰り返しで
やりがいがない 必要なファイルを探すのに 時間がかかる 自分以外に 引き継げる人がいない
© LayerX Inc. 6 AIワークフロー機能を使って、さまざまな処理をブロックのように組み合わせることで幅広い業務をAIが代⾏。 処理結果に対して根拠の箇所に直接スクロールしてハイライトしてくれるレビュー機能などを備える。 「知的単純作業」 をLLMとAI Agentで解くAi Workforce
AIワークフローの構築 業務実行&レビュー Ai Workforceとは
© LayerX Inc. 7 業務には常にマルチモーダルなドキュメントが含まれている 業務の⾃動運転にはドキュメントデータ理解が必須
© LayerX Inc. 8 LLM/VLMで解けるようになった課題と、新たな課題 グラフ ダイアグラム テーブル テキスト 構造
フロー 多様なモダリティのドキュメント理解、整理、⽣成
© LayerX Inc. 9 ⽣成AI時代のデータ管理と活⽤をテーマに、課題や取り組み、やりたいことを話します! • 多様なドキュメントデータを⽣成AIで理解し拡張する • マルチモーダルなデータを活⽤するために適切なデータ基盤を作る この登壇を聞いて、⽣成AI時代のデータ基盤を⼀緒に作りたい⽅がいらしたら幸いです!
jobs.layerx.co.jp にアクセス! 今⽇話すこと
ドキュメントのデータ処理
© LayerX Inc. 11 LLM/VLMで増えるデータ 分析と⽣成 ⾼い精度での情報抽出 各種コンテンツの⽣成
© LayerX Inc. 12 LLM/VLMによるマルチモーダルなドキュメント理解 LLM/VLMで増えるデータ { "テキスト抽出": { "セクションタイトル":
"01 なぜスタートアップなのか", "メインタイトル": "スタートアップは、雇⽤創出にも⼤きな役割を果たして いる。", "グラフ左": { "タイトル": "⽇本企業の設⽴後年数別従業者数の純増減*", "データ": { "0〜9年": "255万⼈", "10〜19年": "▲12万⼈", "20〜29年": "▲6万⼈", "30年以上": "▲258万⼈" } }, "グラフ右": { "タイトル": "ユニコーン企業の売上⾼と従業員数の推移例", "データ": { "2015": {"売上⾼": "123億円", "従業員数": "329⼈"}, "2016": {"売上⾼": "221億円", "従業員数": "596⼈"}, "2017": {"売上⾼": "358億円", "従業員数": "1,140⼈"}, "2018": {"売上⾼": "517億円", "従業員数": "1,826⼈"} } }, "出典": { "左グラフ": "中⼩企業庁『2018年版 中⼩企業⽩書』", "右グラフ": "SPEEDA(株式会社メルカリ)" } }, "グラフの意味": { "左グラフ": "設⽴からの年数別に従業員数の純増減を⽰したもの。0〜9年の 新興企業では255万⼈の雇⽤が増加している⼀⽅で、設⽴から30年以上経つ企 業では258万⼈の雇⽤が減少している。", "右グラフ": "ユニコーン企業(例:メルカリ)の売上⾼と従業員数の推移を ⽰している。2015年から2018年の4年間で、売上⾼が約4倍、従業員数が5.6倍 に増加しており、急速な成⻑と雇⽤拡⼤を実証している。" } }
© LayerX Inc. 13 LLM/VLMで増えるデータ 従来のコンテンツデータ管理 マーケット分析.pptx メタデータ ファイル OCR→テキスト理解
© LayerX Inc. 14 LLM/VLMで増えるデータ 新たな情報抽出と⽣成が可能になる マーケット分析.pptx メタデータ ファイル OCR→テキスト理解
グラフ抽出‧理解 ダイアグラム抽出‧理解
© LayerX Inc. 15 LLM/VLMで増えるデータ 新たな情報抽出と⽣成が可能になる マーケット分析.pptx グラフ抽出‧理解 OCR→テキスト理解 分析と傾向
グラフの意味
© LayerX Inc. 16 LLM/VLMで増えるデータ 新たな情報抽出と⽣成が可能になる マーケット分析.pptx グラフ抽出‧理解 詳細情報テキスト OCR
傾向→数値
© LayerX Inc. 17 LLM/VLMで増えるデータ 新たな情報抽出と⽣成が可能になる マーケット分析.pptx 複数スライドVQA Q:グローバルビジネスの成⻑に よるシリコンバレー地域の⾃然へ
の影響を説明してください。 A:スライド1.のグラフが⽰すとお り、テック企業の拡⼤によって急 速な都市化と住宅需要の⾼まりが 発⽣しています。その結果とし て、スライド2.記載のように、⽔ 資源への圧⼒が⾼まりを⾒せてお り、農業と都市⽣活で⽔資源の競 合が発⽣しています。
© LayerX Inc. 18 VisDoMRAG:Text RAGとVisual RAGを統合した多様なモーダルのドキュメント情報抽出 マルチモーダルなドキュメントから情報抽出する研究 VisDoM: Multi-Document
QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation. https://arxiv.org/pdf/2412.10704
© LayerX Inc. 19 Vision Guided Chunking Pipeline:複数ページをページ跨ぎを考慮してチャンクとして処理するRAG マルチモーダルなドキュメントから情報抽出する研究 Vision-Guided
Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding https://arxiv.org/pdf/2506.16035
© LayerX Inc. 20 ドキュメントデータはLLM/VLM、プロンプトエンジニアリング、ML/AI、RAGを活⽤して抽出される データパイプラインの⼀部にLLM/VLM、プロンプトエンジニアリング、ML/AI、RAGを導⼊ 汎⽤的な情報抽出: LLM/VLMのAPI利⽤ 品質改善: プロンプトエンジニアリング
特定要件に特化: 独⾃にML/AIを学習、推論 さらに複雑な要件特化: RAG マルチモーダルなドキュメントから情報抽出する
© LayerX Inc. 21 LLM/VLMを⽤いたワークフローを作り、各社各ユースケースの⽂書処理に対応 Ai Workforceによるドキュメント理解と整理 Ai Workforceとは {会社名:
株式会社LLM} xxx契約書 第6条(責任の免除) 甲は、本契約に基づくサービスの提供において、故 意または重⼤な過失がない限り、いかなる間接的損 害に対しても責任を負わない。 ⼄による本サービスの利⽤に関連して発⽣したデー タの損失または損害について、甲は責任を負わな い。 会社名 株式会社LLM {責任制限条項: 間接的損害, データの損失ま たは損害} ⽂書の意味を汲み取り、 デジタル化を阻んできた⽂書 のフォーマットの違いを吸収 LLM/VLM ‧‧‧
© LayerX Inc. 22 抽出したデータをAI Agentで活⽤するためにマルチモーダル‧⽣成データを管理する Ai Workforceによるドキュメント理解と整理、そして活⽤ Ai Workforceとは
xxx契約書 第6条(責任の免除) 甲は、本契約に基づくサービスの提供において、故 意または重⼤な過失がない限り、いかなる間接的損 害に対しても責任を負わない。 ⼄による本サービスの利⽤に関連して発⽣したデー タの損失または損害について、甲は責任を負わな い。 会社名 株式会社LLM 検索 エージェント ⽣成 LLM/VLM
マルチモーダルなデータ活⽤
© LayerX Inc. 24 多様な形式のデータを管理、提供する マルチモーダルなドキュメントをデータ化し、データを検索やAI Agentで活⽤する データ基盤 検索 エージェント
⽣成 管理 提供 各種ドキュメント LLM/VLM/RAG
© LayerX Inc. 25 多様な形式のデータを管理、提供する データ形式に応じた適切な管理‧保存形態がある 管理 Content analysis -
Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] Prompt & feedback {“communication”: [ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz LLM/VLM/RAG
© LayerX Inc. 26 多様な形式のデータを管理、提供する データ形式に応じた適切な管理‧保存形態がある Prompt & feedback {“communication”:
[ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] VectorDB
© LayerX Inc. 27 多様な形式のデータを管理、提供する 親⼦関係を整理し、データに⼀貫性のあるIDを振る Prompt & feedback {“communication”:
[ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] ID: xxxxxxxx ID: xxxxxxxx ID: xxxxxxxx Text ID: yyyyyyyy ID: xxxxxxxx Content ID: yyyyyyyy ID: xxxxxxxx Content ID: yyyyyyyy Analysis ID: zzzzzzzz
© LayerX Inc. 28 多様な形式のデータを管理、提供する 親⼦関係を整理し、アクセス制御は元データから継承 Prompt & feedback {“communication”:
[ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] ID: xxxxxxxx ID: xxxxxxxx ID: xxxxxxxx Text ID: yyyyyyyy ID: xxxxxxxx Content ID: yyyyyyyy ID: xxxxxxxx Content ID: yyyyyyyy Analysis ID: zzzzzzzz 全⽂検索 VectorDB VectorDB 全⽂検索
© LayerX Inc. 29 多様な形式のデータを管理、提供する AI Agentを有効活⽤するためには適切なコンテキストを提供するデータ基盤が必要 Prompt & feedback
{“communication”: [ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ]
© LayerX Inc. 30 多様な形式のデータを管理、提供する ⽤途によって異なるデータ検索、取得⽅法 Prompt & feedback {“communication”:
[ {“role”: “user”, “content”: “マーケット成長率を分析してください”}, {“role”: “ai”, “content”: “これまで安定的に成⻑していますが、プレ イヤーの変化により鈍化する傾向です”} ], “feedback”: [{“role”: “user”, “content”: “素晴らしいです!”}] } Text Content Metadata - filename: マーケット.pptx - registered_at: 2025/09/02 00:00:00 - registered_by: William - language: English … Attribute - Label: market, analysis, global - Contains: graph, text, diagram - Target: analyst, economist, biz Content analysis - Title: Global market growth - Category: bar graph - Description: yearly market trend - Data: [ {“x-axis”: 2020, “y-axis”” 34%}, {“x-axis”: 2021, “y-axis”” 35%}, … ] VectorDB エージェント データ集計 全⽂検索 ベクトル検索 SQLクエリ
© LayerX Inc. 31 多様な形式のデータを管理、提供する エージェントのワークフローや思考プロセス、レスポンス、フィードバック、コンテキストもデータ VectorDB エージェント 全⽂検索 ベクトル検索
⽣成AI時代のデータ基盤 ありがとうございました!
© LayerX Inc. 33 We are hiring! AI検索エンジニア AIシニアデータエンジニア https://open.talentio.com/r/1/c/layerx/pages/109629
https://open.talentio.com/r/1/c/layerx/pages/107758 MLOps / 機械学習基盤エンジニア https://open.talentio.com/r/1/c/layerx/pages/112898