Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【Findy Tools Data Engineering Summit登壇資料】非構造化デー...
Search
R-Miura
December 26, 2025
0
2
【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー
2025年11月6日に開催されたFindy Tools様主催のData Engineering SummitのLT枠での登壇資料です。
R-Miura
December 26, 2025
Tweet
Share
More Decks by R-Miura
See All by R-Miura
【Findy Tools AI Engineering Summit Tokyo 2025登壇資料】LLM-as-a-judgeによるAI自動監視システム
r_miura
0
6
AI-Readyを目指した非構造化データのメダリオンアーキテクチャ
r_miura
1
640
DSPyとMLflowでLLMアプリケーションを開発_.pdf
r_miura
0
92
DATA+AI Summitで感じたこれからのAIとの向き合い方
r_miura
0
220
Featured
See All Featured
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.5k
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.2k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
210
How to build a perfect <img>
jonoalderson
1
4.8k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Side Projects
sachag
455
43k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
0
470
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
Testing 201, or: Great Expectations
jmmastey
46
7.9k
Un-Boring Meetings
codingconduct
0
180
How to Think Like a Performance Engineer
csswizardry
28
2.4k
Transcript
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで最大限活用するためのデータフロー CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア 三浦 諒一
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. AIエンジニアが感じている課題 ビジネスで発生するデータの大部分が非構造化データと言われているが、 構造化データと比較して扱いが難しい。 データやAIを利用したアプリやシステムを開発する場合、 データをどうやって加工するかで精度が左右されるため、 トライ&エラーを繰り返す必要がある。 非構造化データを効率的に扱うために非構造化データにおける データフローが必要。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ フォーマットが統一されていない非構造化データを以下のようなフローでAIで活用できる形に変換 Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ AIアプリケーション開発はAIに与えるデータの表現の仕方で試行錯誤することが多い。 ▪ あまり変化が発生しない静的な処理と変化が発生しやすい動的な処理を分割し、試行錯誤の負荷を軽減 常に固定化(静的) 精度向上のために試行錯誤が必要(動的) Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Markdown化のアプローチ 6 ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 ( ただし処理時間は大幅に増加する) w/o LLM w/ LLM
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Vector DB 7 ◼ 構築のハードルは低いが、精度向上のためにChunkingの戦略や使用するEmbedding Modelなどパラメータ調整が必要。 ◼ DocumentをChunk化する際に前後のつながりが切れてしまうため局所的な情報しか利用できなくなり、全体を要約するよ うなタスクには工夫が必要。また登場人物間の関係性を表現するのが難しい。(A社の競合は?のような質問) Embedding Document Chunk Chunk Chunk + Chunk Emb Vector + Chunk Emb Vector + Chunk Emb Vector Index
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Knowldege Graphによるデータ表現 ◼ Knowledge Graphはドキュメントの中に含まれる登場人物(Entity)とEntity同士の関係性(Relationship)を ネットワークグラフで表すデータの表現方法。ドキュメント内の情報の関係性等を保持できる。 ◼ Knowledge Graphは経験やルールに基づいて構築する方法もあるが、MicrosoftのGraphRAGのようにLLMを活 用して構築するテクニックもある。 ◼ 一方Vector DBよりも構築の負荷が大きく、かつ新しい情報を追加しにくいといった点は課題。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. まとめ 非構造化データをMarkdown化した状態を保持することで、 元のデータが持つ情報を極力維持しつつ扱いやすい状態に。 AIに参照させるデータは RAGで一般的に使われているVector DBだけでなく Graphで表現するKnowledge Graphという選択も。 Markdown化したデータを起点に、開発するアプリケーションに応じて 最適なデータ形式は何かを探索していきたい。
Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright
© CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. ブログも公開しています!