Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
Search
R-Miura
October 21, 2025
Technology
1
750
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
2025年10月20日に開催された「JEDAI Meetup! AI Readyへの道のり」の登壇資料です。
R-Miura
October 21, 2025
Tweet
Share
More Decks by R-Miura
See All by R-Miura
【Findy Tools2周年記念】2026年はAgentic DevOpsにチャレンジしよう!
r_miura
0
18
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
12
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
r_miura
0
9
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
100
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
230
Other Decks in Technology
See All in Technology
器用貧乏が強みになるまで ~「なんでもやる」が導いたエンジニアとしての現在地~
kakehashi
PRO
5
630
What's new in Go 1.26?
ciarana
2
250
Snowflakeデータ基盤で挑むAI活用 〜4年間のDataOpsの基礎をもとに〜
kaz3284
1
270
作るべきものと向き合う - ecspresso 8年間の開発史から学ぶ技術選定 / 技術選定con findy 2026
fujiwara3
6
1.5k
AWS CDK の目玉新機能「Mixins」とは / cdk-mixins
gotok365
2
290
【2026年版】生成AIによる情報システムへのインパクト
taka_aki
0
190
もう怖くないバックグラウンド処理 Background Tasks のすべて - Hakodate.swift #1
kantacky
0
200
競争優位を生み出す戦略的内製開発の実践技法
masuda220
PRO
2
500
インシデント対応入門
grimoh
7
5.3k
ローカルでLLMを使ってみよう
kosmosebi
0
200
Windows ネットワークを再確認する
murachiakira
PRO
0
160
Webアクセシビリティ技術と実装の実際
tomokusaba
0
140
Featured
See All Featured
Deep Space Network (abreviated)
tonyrice
0
81
[SF Ruby Conf 2025] Rails X
palkan
2
800
Designing for Performance
lara
611
70k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
300
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.4k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
300
4 Signs Your Business is Dying
shpigford
187
22k
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 1 JEDAI Meetup! AI Readyへの道のり AI-Readyを目指した非構造化データの メダリオンアーキテクチャ manabian & 三浦 諒一 ( CCCMKホールディングス株式会社 )
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 2 はじめに ◼ AI エンジニアである三浦とデータエンジニアである manabian にて共同で検討した 非構造化データにおけるメダリオンアーキテクチャについて説明します。 ◼ 社内での発表スライドに基づいた生成 AI のナレッジ活用システムのデモを提示したうえで、 データの管理方法案を共有します。サンプルコードを GitHub にて配置してあります。 GitHub へのリンク 詳細は後述
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v 3 @manabian v 主業務 自己紹介 BI・DWH構築に関するSIベンダーにて テクニカルスペシャリスト職として、次の業務を実施。 • データエンジニアリングの実装論の整理とライブラリ開発 • データ分析基盤とアプリケーションの設計・構築に関する支援 • データ分析基盤に関する技術検証 v v 趣味 趣味がデータ分析基盤に関する調査や検証であり、 主に Qiita を中心に データ分析基盤プラットフォーム に関する記事を投稿。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 4 v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 テックラボ チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 5 v v 社内発表スライドによる ナレッジ活用システム実装例
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 6 デモ ◼ powerpointで作成した資料から 最適なページを検索することが出来る システムをdatabricksで開発。 ◼ 検索にヒットしたページの 要約、リンク、ページの画像を表示可能。 ページの要約 リンク 画像
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 7 デモ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 8 アーキテクチャ pptx→Markdown (MarkItDown) pptx→pdf (unoconv) pdf→png (pdf2image) create embedding volume Databricks apps vector search index delta table ◼ pptxファイルの各ページを個別のPNG形式の画像ファイルに出力し、volumeに格納(上のフロー) ◼ pptxファイルの各ページの内容をMarkdownで出力し、ページごとに行を分けてtableに格納(下のフロー) ◼ TableのMarkdownテキスト情報からembedding modelでembedding vectorを出力し、vector search index化
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 9 MarkItDown ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 (ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 10 MarkItDown ◼ デフォルトでは英語のキャプションが生成される。 もし日本語で生成したければカスタムプロンプトを指定することで実現可能。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. CHAPTER 11 v v 非構造化データの メダリオンアーキテクチャ
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 12 AI-Readyを目指した非構造化データの管理方法の検討が必要 引用元:What is a Medallion Architecture? ◼ AI アプリのソースとなる非構造化データの管理もデータエンジニアが積極的に関与する必要がある。 ◼ ただし、非構造化データの管理方法が体系されておらず情報源も少ないため、 どのように管理すべきかの詳細な検討が求められている。 データエンジニアの担当 AI エンジニアの担当 引用元:Unstructured Data Management at Scale | by Piethein Strengholt | Medium
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 13 非構造化データのメダリオンアーキテクチャ ◼ 具体的な議論を促進するため、非構造化データの管理フローと実装コードのレポジトリを公開。 実装コードのレポジトリ 非構造化データの管理フロー 詳細は次ページで説明
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 14 非構造化データの管理の実践 ◼ 公開されているリポジトリのコードを実行することで、生成AIアプリケーション構築に向けた Bronze からSilver、さらに、Gold までの AI-Ready なデータエンジニアリングを体験可能。 Gold レイヤー ソースレイヤー データ分析基盤におけるデータアーキテクチャ Web クローラー / Web スクレイ パー Web サイト ナレッジ サイト ・・・ エンタープライズ 検索エンジン … Vector DB Bronze レイヤー(構造化) Silver レイヤー ・・・ RDB グラフ DB ナレッジストア File Context landing Raw Files 1.データの配置 1 File Context 2 2.メタデータの取込 File Info 3 3.非構造部ファイル の基本的な処理 File Context Output File Context Error 品質 NG データ品質 チェック 品質 OK 4 4.データ品質 チェック Enriched Enriched Files 5. データの公開 5 5 Curated Curated Files 6.AIアプリでの利用 6 6 6
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 15 まとめ 具体的なAIアプリにおけるデータ管理方法を検討した結果、 実際の実装に落とし込むことができました。生成AI技術の進化は続きますが、 本発表にてAIエンジニアとデータエンジニアをつなぐ架橋を検討できました。 pptxファイルの内容がmarkdownで格納されたsilver層に該当する tableがあることで、その先のvector searchのチューニングが容易になり、 いつもよりスムーズにAIアプリケーションの開発を行うことが出来ました。 GitHub へのリンク サンプルコードは こちらから!