Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
Search
R-Miura
October 21, 2025
Technology
940
1
Share
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
2025年10月20日に開催された「JEDAI Meetup! AI Readyへの道のり」の登壇資料です。
R-Miura
October 21, 2025
More Decks by R-Miura
See All by R-Miura
AI-Readyなデータ基盤を構築するメダリオンアーキテクチャ
r_miura
0
33
Databricks Appsで実現する社内向けAIアプリ開発の効率化
r_miura
0
410
【Findy Tools2周年記念】2026年はAgentic DevOpsにチャレンジしよう!
r_miura
0
33
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
56
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
r_miura
0
29
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
120
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
260
Other Decks in Technology
See All in Technology
シンデレラなんかになりたくない!ガラスの靴が割れた時代にどう歩く?
nomizone
0
140
その英語学習、AWSで代替できませんか?
suzutatsu
1
210
TSKaigi 2026 - 10秒のビルドを1秒へ:tsdownが切り拓く2026年のTypeScriptライブラリ開発
teamlab
PRO
1
130
個人最適から組織最適へ — 仕組みで進めるAI推進
rfdnxbro
0
110
TypeScriptとAngular Signal で実現する保守性の高いアプリケーション設計 - 3層アーキテクチャによる責務分離の実践(たつかわ) https://2026.tskaigi.org/talks/10
nealle
1
210
Slack MCPでインシデント対応とFAQ生成を加速する:社内ワークショップの実践
lycorptech_jp
PRO
0
270
LT準備のToilを削減 〜決定論×確率論のスライド生成CLI〜
shukob
0
120
エムスリーテクノロジーズ株式会社 エンジニア向け紹介資料 / M3 Technologies Company Deck
m3_engineering
0
220
ジュニアエンジニアはSREとどう向き合うべきか
nrinetcom
PRO
0
110
Agentic AI時代における メルカリのAIガバナンスとガードレール実装
naoichihara
9
7.4k
ANDPAD Ruby sponsor session in RubyKaigi 2026
andpad
0
120
checker.tsにチキンレースを仕掛けてみた:型エラー(TS2589)が発生する境界線を求めて
hal_spidernight
1
130
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
150
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
510
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
250
The Curious Case for Waylosing
cassininazir
1
360
Leo the Paperboy
mayatellez
7
1.8k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
340
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.4k
Mind Mapping
helmedeiros
PRO
1
200
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
280
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 1 JEDAI Meetup! AI Readyへの道のり AI-Readyを目指した非構造化データの メダリオンアーキテクチャ manabian & 三浦 諒一 ( CCCMKホールディングス株式会社 )
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 2 はじめに ◼ AI エンジニアである三浦とデータエンジニアである manabian にて共同で検討した 非構造化データにおけるメダリオンアーキテクチャについて説明します。 ◼ 社内での発表スライドに基づいた生成 AI のナレッジ活用システムのデモを提示したうえで、 データの管理方法案を共有します。サンプルコードを GitHub にて配置してあります。 GitHub へのリンク 詳細は後述
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v 3 @manabian v 主業務 自己紹介 BI・DWH構築に関するSIベンダーにて テクニカルスペシャリスト職として、次の業務を実施。 • データエンジニアリングの実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援 • データ分析基盤に関する技術検証 v v 趣味 趣味がデータ分析基盤に関する調査や検証であり、 主に Qiita を中心に データ分析基盤プラットフォーム に関する記事を投稿。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 4 v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 テックラボ チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 5 v v 社内発表スライドによる ナレッジ活用システム実装例
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 6 デモ ◼ powerpointで作成した資料から 最適なページを検索することが出来る システムをdatabricksで開発。 ◼ 検索にヒットしたページの 要約、リンク、ページの画像を表示可能。 ページの要約 リンク 画像
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 7 デモ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 8 アーキテクチャ pptx→Markdown (MarkItDown) pptx→pdf (unoconv) pdf→png (pdf2image) create embedding volume Databricks apps vector search index delta table ◼ pptxファイルの各ページを個別のPNG形式の画像ファイルに出力し、volumeに格納(上のフロー) ◼ pptxファイルの各ページの内容をMarkdownで出力し、ページごとに行を分けてtableに格納(下のフロー) ◼ TableのMarkdownテキスト情報からembedding modelでembedding vectorを出力し、vector search index化
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 9 MarkItDown ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 (ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 10 MarkItDown ◼ デフォルトでは英語のキャプションが生成される。 もし日本語で生成したければカスタムプロンプトを指定することで実現可能。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 11 v v 非構造化データの メダリオンアーキテクチャ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 12 AI-Readyを目指した非構造化データの管理方法の検討が必要 引用元:What is a Medallion Architecture? ◼ AI アプリのソースとなる非構造化データの管理もデータエンジニアが積極的に関与する必要がある。 ◼ ただし、非構造化データの管理方法が体系されておらず情報源も少ないため、 どのように管理すべきかの詳細な検討が求められている。 データエンジニアの担当 AI エンジニアの担当 引用元:Unstructured Data Management at Scale | by Piethein Strengholt | Medium
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 13 非構造化データのメダリオンアーキテクチャ ◼ 具体的な議論を促進するため、非構造化データの管理フローと実装コードのレポジトリを公開。 実装コードのレポジトリ 非構造化データの管理フロー 詳細は次ページで説明
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 14 非構造化データの管理の実践 ◼ 公開されているリポジトリのコードを実行することで、生成AIアプリケーション構築に向けた Bronze からSilver、さらに、Gold までの AI-Ready なデータエンジニアリングを体験可能。 Gold レイヤー ソースレイヤー データ分析基盤におけるデータアーキテクチャ Web クローラー / Web スクレイ パー Web サイト ナレッジ サイト ・・・ エンタープライズ 検索エンジン … Vector DB Bronze レイヤー(構造化) Silver レイヤー ・・・ RDB グラフ DB ナレッジストア File Context landing Raw Files 1.データの配置 1 File Context 2 2.メタデータの取込 File Info 3 3.非構造部ファイル の基本的な処理 File Context Output File Context Error 品質 NG データ品質 チェック 品質 OK 4 4.データ品質 チェック Enriched Enriched Files 5. データの公開 5 5 Curated Curated Files 6.AIアプリでの利用 6 6 6
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 15 まとめ 具体的なAIアプリにおけるデータ管理方法を検討した結果、 実際の実装に落とし込むことができました。生成AI技術の進化は続きますが、 本発表にてAIエンジニアとデータエンジニアをつなぐ架橋を検討できました。 pptxファイルの内容がmarkdownで格納されたsilver層に該当する tableがあることで、その先のvector searchのチューニングが容易になり、 いつもよりスムーズにAIアプリケーションの開発を行うことが出来ました。 GitHub へのリンク サンプルコードは こちらから!