$30 off During Our Annual Pro Sale. View Details »

【Findy Tools Data Engineering Summit登壇資料】非構造化デー...

Avatar for R-Miura R-Miura
December 26, 2025
2

【Findy Tools Data Engineering Summit登壇資料】非構造化データをAIで最大限活用するためのデータフロー

2025年11月6日に開催されたFindy Tools様主催のData Engineering SummitのLT枠での登壇資料です。

Avatar for R-Miura

R-Miura

December 26, 2025
Tweet

Transcript

  1. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで最大限活用するためのデータフロー CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア 三浦 諒一
  2. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. v v v v v v 自己紹介 三浦 諒一 CCCMKホールディングス株式会社 テクノロジー戦略本部 チーフAIエンジニア タスク AIを活用したサービスの企画・実装 趣味 ・ゲーム(ジャンルはRPG) ・ブログを書くこと
  3. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. AIエンジニアが感じている課題 ビジネスで発生するデータの大部分が非構造化データと言われているが、 構造化データと比較して扱いが難しい。 データやAIを利用したアプリやシステムを開発する場合、 データをどうやって加工するかで精度が左右されるため、 トライ&エラーを繰り返す必要がある。 非構造化データを効率的に扱うために非構造化データにおける データフローが必要。
  4. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ フォーマットが統一されていない非構造化データを以下のようなフローでAIで活用できる形に変換 Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
  5. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. 非構造化データをAIで活用するまでのフロー ▪ AIアプリケーション開発はAIに与えるデータの表現の仕方で試行錯誤することが多い。 ▪ あまり変化が発生しない静的な処理と変化が発生しやすい動的な処理を分割し、試行錯誤の負荷を軽減 常に固定化(静的) 精度向上のために試行錯誤が必要(動的) Vector DB Index Markdown化 PDF PPTX Markdown Markdown Vector DB Index その他のデータ表現 (Knowledge Graph など) Azure OpenAI etc
  6. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Markdown化のアプローチ 6 ◼ MarkItDownはMicrosoft社製のあらゆる形式のファイルをMarkdownに変換し、 LLMが利用できるようにする軽量なPythonユーティリティ。 ◼ オプションでLLMを利用することが可能で、ファイルに含まれる画像のキャプションを Markdown変換時に同時に生成することが可能。 ( ただし処理時間は大幅に増加する) w/o LLM w/ LLM
  7. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Vector DB 7 ◼ 構築のハードルは低いが、精度向上のためにChunkingの戦略や使用するEmbedding Modelなどパラメータ調整が必要。 ◼ DocumentをChunk化する際に前後のつながりが切れてしまうため局所的な情報しか利用できなくなり、全体を要約するよ うなタスクには工夫が必要。また登場人物間の関係性を表現するのが難しい。(A社の競合は?のような質問) Embedding Document Chunk Chunk Chunk + Chunk Emb Vector + Chunk Emb Vector + Chunk Emb Vector Index
  8. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Knowldege Graphによるデータ表現 ◼ Knowledge Graphはドキュメントの中に含まれる登場人物(Entity)とEntity同士の関係性(Relationship)を ネットワークグラフで表すデータの表現方法。ドキュメント内の情報の関係性等を保持できる。 ◼ Knowledge Graphは経験やルールに基づいて構築する方法もあるが、MicrosoftのGraphRAGのようにLLMを活 用して構築するテクニックもある。 ◼ 一方Vector DBよりも構築の負荷が大きく、かつ新しい情報を追加しにくいといった点は課題。
  9. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. まとめ 非構造化データをMarkdown化した状態を保持することで、 元のデータが持つ情報を極力維持しつつ扱いやすい状態に。 AIに参照させるデータは RAGで一般的に使われているVector DBだけでなく Graphで表現するKnowledge Graphという選択も。 Markdown化したデータを起点に、開発するアプリケーションに応じて 最適なデータ形式は何かを探索していきたい。
  10. Copyright © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. Copyright

    © CCC MK HOLDINGS Co.,Ltd. All Rights Reserved. ブログも公開しています!