$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
Search
R-Miura
October 21, 2025
Technology
1
590
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
2025年10月20日に開催された「JEDAI Meetup! AI Readyへの道のり」の登壇資料です。
R-Miura
October 21, 2025
Tweet
Share
More Decks by R-Miura
See All by R-Miura
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
4
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
r_miura
0
2
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
88
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
210
Other Decks in Technology
See All in Technology
Agent Skillsがハーネスの垣根を超える日
gotalab555
6
4.3k
子育てで想像してなかった「見えないダメージ」 / Unforeseen "hidden burdens" of raising children.
pauli
2
330
Bedrock AgentCore Evaluationsで学ぶLLM as a judge入門
shichijoyuhi
2
250
日本Rubyの会: これまでとこれから
snoozer05
PRO
6
240
Claude Codeを使った情報整理術
knishioka
10
6k
アプリにAIを正しく組み込むための アーキテクチャ── 国産LLMの現実と実践
kohju
0
220
Lookerで実現するセキュアな外部データ提供
zozotech
PRO
0
200
事業の財務責任に向き合うリクルートデータプラットフォームのFinOps
recruitengineers
PRO
2
210
なぜ あなたはそんなに re:Invent に行くのか?
miu_crescent
PRO
0
210
オープンソースKeycloakのMCP認可サーバの仕様の対応状況 / 20251219 OpenID BizDay #18 LT Keycloak
oidfj
0
170
Amazon Connect アップデート! AIエージェントにMCPツールを設定してみた!
ysuzuki
0
140
TED_modeki_共創ラボ_20251203.pdf
iotcomjpadmin
0
150
Featured
See All Featured
A Soul's Torment
seathinner
1
2k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
110
Heart Work Chapter 1 - Part 1
lfama
PRO
3
35k
The Invisible Side of Design
smashingmag
302
51k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
190
Skip the Path - Find Your Career Trail
mkilby
0
27
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
sira's awesome portfolio website redesign presentation
elsirapls
0
89
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.9k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
100
How Software Deployment tools have changed in the past 20 years
geshan
0
30k
The Limits of Empathy - UXLibs8
cassininazir
1
190
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 1 JEDAI Meetup! AI Readyへの道のり AI-Readyを目指した非構造化データの メダリオンアーキテクチャ manabian & 三浦 諒一 ( CCCMKホールディングス株式会社 )
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 2 はじめに ◼ AI エンジニアである三浦とデータエンジニアである manabian にて共同で検討した 非構造化データにおけるメダリオンアーキテクチャについて説明します。 ◼ 社内での発表スライドに基づいた生成 AI のナレッジ活用システムのデモを提示したうえで、 データの管理方法案を共有します。サンプルコードを GitHub にて配置してあります。 GitHub へのリンク 詳細は後述
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v 3 @manabian v 主業務 自己紹介 BI・DWH構築に関するSIベンダーにて テクニカルスペシャリスト職として、次の業務を実施。 • データエンジニアリングの実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援 • データ分析基盤に関する技術検証 v v 趣味 趣味がデータ分析基盤に関する調査や検証であり、 主に Qiita を中心に データ分析基盤プラットフォーム に関する記事を投稿。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 4 v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 テックラボ チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 5 v v 社内発表スライドによる ナレッジ活用システム実装例
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 6 デモ ◼ powerpointで作成した資料から 最適なページを検索することが出来る システムをdatabricksで開発。 ◼ 検索にヒットしたページの 要約、リンク、ページの画像を表示可能。 ページの要約 リンク 画像
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 7 デモ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 8 アーキテクチャ pptx→Markdown (MarkItDown) pptx→pdf (unoconv) pdf→png (pdf2image) create embedding volume Databricks apps vector search index delta table ◼ pptxファイルの各ページを個別のPNG形式の画像ファイルに出力し、volumeに格納(上のフロー) ◼ pptxファイルの各ページの内容をMarkdownで出力し、ページごとに行を分けてtableに格納(下のフロー) ◼ TableのMarkdownテキスト情報からembedding modelでembedding vectorを出力し、vector search index化
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 9 MarkItDown ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 (ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 10 MarkItDown ◼ デフォルトでは英語のキャプションが生成される。 もし日本語で生成したければカスタムプロンプトを指定することで実現可能。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 11 v v 非構造化データの メダリオンアーキテクチャ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 12 AI-Readyを目指した非構造化データの管理方法の検討が必要 引用元:What is a Medallion Architecture? ◼ AI アプリのソースとなる非構造化データの管理もデータエンジニアが積極的に関与する必要がある。 ◼ ただし、非構造化データの管理方法が体系されておらず情報源も少ないため、 どのように管理すべきかの詳細な検討が求められている。 データエンジニアの担当 AI エンジニアの担当 引用元:Unstructured Data Management at Scale | by Piethein Strengholt | Medium
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 13 非構造化データのメダリオンアーキテクチャ ◼ 具体的な議論を促進するため、非構造化データの管理フローと実装コードのレポジトリを公開。 実装コードのレポジトリ 非構造化データの管理フロー 詳細は次ページで説明
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 14 非構造化データの管理の実践 ◼ 公開されているリポジトリのコードを実行することで、生成AIアプリケーション構築に向けた Bronze からSilver、さらに、Gold までの AI-Ready なデータエンジニアリングを体験可能。 Gold レイヤー ソースレイヤー データ分析基盤におけるデータアーキテクチャ Web クローラー / Web スクレイ パー Web サイト ナレッジ サイト ・・・ エンタープライズ 検索エンジン … Vector DB Bronze レイヤー(構造化) Silver レイヤー ・・・ RDB グラフ DB ナレッジストア File Context landing Raw Files 1.データの配置 1 File Context 2 2.メタデータの取込 File Info 3 3.非構造部ファイル の基本的な処理 File Context Output File Context Error 品質 NG データ品質 チェック 品質 OK 4 4.データ品質 チェック Enriched Enriched Files 5. データの公開 5 5 Curated Curated Files 6.AIアプリでの利用 6 6 6
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 15 まとめ 具体的なAIアプリにおけるデータ管理方法を検討した結果、 実際の実装に落とし込むことができました。生成AI技術の進化は続きますが、 本発表にてAIエンジニアとデータエンジニアをつなぐ架橋を検討できました。 pptxファイルの内容がmarkdownで格納されたsilver層に該当する tableがあることで、その先のvector searchのチューニングが容易になり、 いつもよりスムーズにAIアプリケーションの開発を行うことが出来ました。 GitHub へのリンク サンプルコードは こちらから!