Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【Findy Tools Data Engineering Summit登壇資料】非構造化デー...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
R-Miura
December 26, 2025
19
0
Share
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
2025年11月6日に開催されたFindy Tools様主催のData Engineering SummitのLT枠での登壇資料です。
R-Miura
December 26, 2025
More Decks by R-Miura
See All by R-Miura
Databricks Appsで実現する社内向けAIアプリ開発の効率化
r_miura
0
330
【Findy Tools2周年記念】2026年はAgentic DevOpsにチャレンジしよう!
r_miura
0
26
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
48
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
r_miura
1
840
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
110
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
250
Featured
See All Featured
エンジニアに許された特別な時間の終わり
watany
106
240k
The Language of Interfaces
destraynor
162
26k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
310
Six Lessons from altMBA
skipperchong
29
4.2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Believing is Seeing
oripsolob
1
110
Mind Mapping
helmedeiros
PRO
1
140
Ethics towards AI in product and experience design
skipperchong
2
250
The Cost Of JavaScript in 2023
addyosmani
55
9.8k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
170
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
270
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで最大限活用するためのデータフロー CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア 三浦 諒一
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. AIエンジニアが感じている課題 ビジネスで発生するデータの大部分が非構造化データと言われているが、 構造化データと比較して扱いが難しい。 データやAIを利用したアプリやシステムを開発する場合、 データをどうやって加工するかで精度が左右されるため、 トライ&エラーを繰り返す必要がある。 非構造化データを効率的に扱うために非構造化データにおける データフローが必要。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ フォーマットが統一されていない非構造化データを以下のようなフローでAIで活用できる形に変換 Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ AIアプリケーション開発はAIに与えるデータの表現の仕方で試行錯誤することが多い。 ▪ あまり変化が発生しない静的な処理と変化が発生しやすい動的な処理を分割し、試行錯誤の負荷を軽減 常に固定化(静的) 精度向上のために試行錯誤が必要(動的) Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Markdown化のアプローチ 6 ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 ( ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Vector DB 7 ◼ 構築のハードルは低いが、精度向上のためにChunkingの戦略や使用するEmbedding Modelなどパラメータ調整が必要。 ◼ DocumentをChunk化する際に前後のつながりが切れてしまうため局所的な情報しか利用できなくなり、全体を要約するよ うなタスクには工夫が必要。また登場人物間の関係性を表現するのが難しい。(A社の競合は?のような質問) Embedding Document Chunk Chunk Chunk + Chunk Emb Vector + Chunk Emb Vector + Chunk Emb Vector Index
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Knowldege Graphによるデータ表現 ◼ Knowledge Graphはドキュメントの中に含まれる登場人物(Entity)とEntity同士の関係性(Relationship)を ネットワークグラフで表すデータの表現方法。ドキュメント内の情報の関係性等を保持できる。 ◼ Knowledge Graphは経験やルールに基づいて構築する方法もあるが、MicrosoftのGraphRAGのようにLLMを活 用して構築するテクニックもある。 ◼ 一方Vector DBよりも構築の負荷が大きく、かつ新しい情報を追加しにくいといった点は課題。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. まとめ 非構造化データをMarkdown化した状態を保持することで、 元のデータが持つ情報を極力維持しつつ扱いやすい状態に。 AIに参照させるデータは RAGで一般的に使われているVector DBだけでなく Graphで表現するKnowledge Graphという選択も。 Markdown化したデータを起点に、開発するアプリケーションに応じて 最適なデータ形式は何かを探索していきたい。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. ブログも公開しています!