Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
R-Miura
October 21, 2025
Technology
840
1
Share
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
2025年10月20日に開催された「JEDAI Meetup! AI Readyへの道のり」の登壇資料です。
R-Miura
October 21, 2025
More Decks by R-Miura
See All by R-Miura
Databricks Appsで実現する社内向けAIアプリ開発の効率化
r_miura
0
330
【Findy Tools2周年記念】2026年はAgentic DevOpsにチャレンジしよう!
r_miura
0
26
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
48
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
r_miura
0
19
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
110
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
250
Other Decks in Technology
See All in Technology
解剖"React Native"
hacusk
0
110
AIがコードを書く時代の ジェネレーティブプログラミング
polidog
PRO
3
500
パワポ作るマンをMCP Apps化してみた
iwamot
PRO
0
310
推し活エージェント
yuntan_t
1
850
マルチモーダル非構造データとの闘い
shibuiwilliam
1
180
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.4k
2026-04-02 IBM Bobオンボーディング入門
yutanonaka
0
240
ブラックボックス化したMLシステムのVertex AI移行 / mlops_community_62
visional_engineering_and_design
1
290
すごいぞManaged Kubernetes
harukasakihara
1
340
【関西電力KOI×VOLTMIND 生成AIハッカソン】空間AIブレイン ~⼤阪おばちゃんフィジカルAIに続く道~
tanakaseiya
0
170
サイボウズ 開発本部採用ピッチ / Cybozu Engineer Recruit
cybozuinsideout
PRO
10
77k
Cortex Code君、今日から内製化支援担当ね。
coco_se
0
280
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
72
12k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
340
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
190
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
510
Paper Plane
katiecoart
PRO
1
49k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Code Review Best Practice
trishagee
74
20k
How STYLIGHT went responsive
nonsquared
100
6k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
4 Signs Your Business is Dying
shpigford
187
22k
Faster Mobile Websites
deanohume
310
31k
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 1 JEDAI Meetup! AI Readyへの道のり AI-Readyを目指した非構造化データの メダリオンアーキテクチャ manabian & 三浦 諒一 ( CCCMKホールディングス株式会社 )
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 2 はじめに ◼ AI エンジニアである三浦とデータエンジニアである manabian にて共同で検討した 非構造化データにおけるメダリオンアーキテクチャについて説明します。 ◼ 社内での発表スライドに基づいた生成 AI のナレッジ活用システムのデモを提示したうえで、 データの管理方法案を共有します。サンプルコードを GitHub にて配置してあります。 GitHub へのリンク 詳細は後述
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v 3 @manabian v 主業務 自己紹介 BI・DWH構築に関するSIベンダーにて テクニカルスペシャリスト職として、次の業務を実施。 • データエンジニアリングの実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援 • データ分析基盤に関する技術検証 v v 趣味 趣味がデータ分析基盤に関する調査や検証であり、 主に Qiita を中心に データ分析基盤プラットフォーム に関する記事を投稿。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 4 v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 テックラボ チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 5 v v 社内発表スライドによる ナレッジ活用システム実装例
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 6 デモ ◼ powerpointで作成した資料から 最適なページを検索することが出来る システムをdatabricksで開発。 ◼ 検索にヒットしたページの 要約、リンク、ページの画像を表示可能。 ページの要約 リンク 画像
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 7 デモ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 8 アーキテクチャ pptx→Markdown (MarkItDown) pptx→pdf (unoconv) pdf→png (pdf2image) create embedding volume Databricks apps vector search index delta table ◼ pptxファイルの各ページを個別のPNG形式の画像ファイルに出力し、volumeに格納(上のフロー) ◼ pptxファイルの各ページの内容をMarkdownで出力し、ページごとに行を分けてtableに格納(下のフロー) ◼ TableのMarkdownテキスト情報からembedding modelでembedding vectorを出力し、vector search index化
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 9 MarkItDown ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 (ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 10 MarkItDown ◼ デフォルトでは英語のキャプションが生成される。 もし日本語で生成したければカスタムプロンプトを指定することで実現可能。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 11 v v 非構造化データの メダリオンアーキテクチャ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 12 AI-Readyを目指した非構造化データの管理方法の検討が必要 引用元:What is a Medallion Architecture? ◼ AI アプリのソースとなる非構造化データの管理もデータエンジニアが積極的に関与する必要がある。 ◼ ただし、非構造化データの管理方法が体系されておらず情報源も少ないため、 どのように管理すべきかの詳細な検討が求められている。 データエンジニアの担当 AI エンジニアの担当 引用元:Unstructured Data Management at Scale | by Piethein Strengholt | Medium
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 13 非構造化データのメダリオンアーキテクチャ ◼ 具体的な議論を促進するため、非構造化データの管理フローと実装コードのレポジトリを公開。 実装コードのレポジトリ 非構造化データの管理フロー 詳細は次ページで説明
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 14 非構造化データの管理の実践 ◼ 公開されているリポジトリのコードを実行することで、生成AIアプリケーション構築に向けた Bronze からSilver、さらに、Gold までの AI-Ready なデータエンジニアリングを体験可能。 Gold レイヤー ソースレイヤー データ分析基盤におけるデータアーキテクチャ Web クローラー / Web スクレイ パー Web サイト ナレッジ サイト ・・・ エンタープライズ 検索エンジン … Vector DB Bronze レイヤー(構造化) Silver レイヤー ・・・ RDB グラフ DB ナレッジストア File Context landing Raw Files 1.データの配置 1 File Context 2 2.メタデータの取込 File Info 3 3.非構造部ファイル の基本的な処理 File Context Output File Context Error 品質 NG データ品質 チェック 品質 OK 4 4.データ品質 チェック Enriched Enriched Files 5. データの公開 5 5 Curated Curated Files 6.AIアプリでの利用 6 6 6
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 15 まとめ 具体的なAIアプリにおけるデータ管理方法を検討した結果、 実際の実装に落とし込むことができました。生成AI技術の進化は続きますが、 本発表にてAIエンジニアとデータエンジニアをつなぐ架橋を検討できました。 pptxファイルの内容がmarkdownで格納されたsilver層に該当する tableがあることで、その先のvector searchのチューニングが容易になり、 いつもよりスムーズにAIアプリケーションの開発を行うことが出来ました。 GitHub へのリンク サンプルコードは こちらから!