Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2026年はチャンキングを極める!

 2026年はチャンキングを極める!

2026/01/28 Search Engineering Tech Talk 2026 Winter登壇資料
https://search-tech.connpass.com/event/378445/

Avatar for shibuiwilliam

shibuiwilliam

January 28, 2026
Tweet

More Decks by shibuiwilliam

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 shibui yusuke • いろいろ → Stability AI → LayerX(いまここ)

    • データ検索とR&Dのマネージャー • MLOps & データ検索 & バックエンド & インフラ & その他諸々エンジニア • MLOpsコミュニティ運営 • 最近やりたいこと ⽣成AIの⽣成AI以外のエンジニアリング • Github: @shibuiwilliam • FB: yusuke.shibui 猫のようで サイズは犬 猫耳メガネ LLMに聞いてみた
  2. © LayerX Inc. 5 MUFG様‧三井物産様‧三菱HCキャピタル様‧他⾦融機関‧製造業など 営業 事業投資 コーポ レート 調達

    ストファイ (Structured Finance) ファンド 管理 M&A 開発 提案書 ⽣成‧ マスキング 部署 会社 製品 業務 ビジネス ナレッジ 内部監査 ⾒積書 ヘルプ デスク 契約管理 ‧レビュー 台帳作成 提案書 シェア 法規⽂書 与信 リスク管理 稟議書 貿易 データ 活⽤ 稟議書 Ai Workforceとは 共通基盤上でAIエージェントを迅速かつ柔軟に構築できるAIエージェントプラットフォーム
  3. © LayerX Inc. 13 なぜチャンキング チャンキングとは: ⼤規模データストリームを意味的に⼀貫した単位に分割 情報密度管理 全情報が同等に重要ではない 計算効率

    戦略的分割で冗⻑な計算を削減 注意の希釈防⽌ ⻑⽂で重要情報が埋もれる問題 (Needle-in-a-Haystack) LLMのコンテキストウィンドウ(128kトークン)が拡⼤ してもチャンキングは必要。 構造の保持と認知的観点 構造の保持 段落‧セクション等の組織構造を活⽤ メモリの組織化 ⼈間の認知と同様に情報をグループ化 • 不適切なチャンキングの影響: ◦ 情報の断⽚化 ◦ 意味の喪失 ◦ 検索や⽣成品質の低下
  4. © LayerX Inc. 14 チャンキングの分類体系 1. モダリティ: 単⼀ vs クロスモーダル

    2. 粒度: 固定 vs セマンティック vs 適応的 3. 境界の決定⽅法: ルール vs 統計/ML vs ニューラル 4. アライメント: ⾮依存 vs アライメント認識 5. ⽬的: 検索 vs ⽣成 vs ハイブリッド
  5. © LayerX Inc. 15 チャンクサイズの決定⽅法 チャンキングの分類体系 粒度 境界の決定⽅法 チャンクの境界決定⽅法 タイプ

    特徴 適⽤シナリオ 固定サイズ シンプル、⾼速、境界無視 ASR、特徴抽 出 セマン ティック 意味保持、精度向上 RAG、QA 適応的 クエリ/コンテンツで動的調整 検索最適化 構造ベース ⽂書の組織構造を活⽤ ⻑⽂書処理 ⼿法 説明 例 ルールベース 決定論的ヒューリスティッ ク 句読点、無⾳、視 覚境界 統計/ML トピックモデリング、クラ スタリング LDA、K-means ニューラル 深層学習モデル BERT, YOLO, Detectron2 エージェン ティック LLMによる⾃律的決定 GPT, Claude
  6. © LayerX Inc. 16 モダリティ間の同期 チャンキングの分類体系 アライメント認識 ⽬的 検索、⽣成、ハイブリッド タイプ

    説明 モダリティ⾮依存 各モダリティを独⽴して処理 アライメント認識 モダリティ間のセマンティック/時間的ア ライメントを維持 マルチモーダル埋 め込み CLIP等の共有埋め込みに基づきセグメント 化 スライディング ウィンドウ 重複セグメンテーションでコンテキスト保 持 戦略 ⽬的 特徴 ⼿法例 課題‧トレードオフ 検索 ⾼速検索‧保 存効率の最⼤ 化 軽量化‧速度 優先(次元削 減‧解像度低 下) 圧縮チャンキン グ、低解像度 パッチ処理 検索は早いが⽂脈‧ 意味の豊かさが失わ れる恐れ ⽣成 ⽣成品質(回 答の質)の最 ⼤化 ⽂脈保持‧⼀ 貫性(情報断 ⽚化を防ぐ) 重複を考慮した 再帰的チャンキ ング ⽂脈保持のためデー タ量‧計算コストが 増加 ハイブ リッド 効率と品質の バランス‧最 適化 柔軟性‧いい とこ取り (ルール+AI の融合) ルールベース分 割+AI微調整、 再帰的分割+埋 め込みベース 堅牢だが実装が複 雑。将来の主要研究 ⽅向
  7. © LayerX Inc. 23 動画にもテキスト同様に「切れ⽬」がある (参考)動画チャンキング CAT MOVIE! CAT MOVIE!

    CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! CAT MOVIE! シーン検知、シーン分割
  8. © LayerX Inc. 24 構造ベース (参考)動画チャンキング 手法 説明 ツール 固定長時間

    均一な秒数/フレーム数 OpenCV, FFmpeg ショットベース カメラカットで分割 PySceneDetect, TransNet V2 • ショット: 単一カメラテイクの連続フレームシーケンス • 適用: 映画分析、動画要約 • 限界: ショット検出アルゴリズムの精度に依存
  9. © LayerX Inc. 25 意味ベース (参考)動画チャンキング ⼿法 説明 ツール アクションベース

    活動の境界で分割 I3D, SlowFast (Kinetics学習 済み) セマンティック マルチモーダル⼿がか りで分割 CLIP, VideoCLIP • 視覚+⾳声+トランスクリプトを統合 • 適⽤: ナラティブ単位での検索、動画要約
  10. © LayerX Inc. 28 We are hiring! AI検索エンジニア https://open.talentio.com/r/1/c/layerx/pages/107758 Applied

    R&Dリサーチエンジニア https://open.talentio.com/r/1/c/layerx/pages/110834 AIシニアデータエンジニア https://open.talentio.com/r/1/c/layerx/pages/109629 カジュアル⾯談はこちら!!!