Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CData Sync で実現する AI Ready なデータレイヤー - 最新アップデート徹...

CData Sync で実現する AI Ready なデータレイヤー - 最新アップデート徹底解説【v26.2】

AI が本当に機能するかどうかは、モデルではなくデータの質と信頼性で決まります。

CData はこの確信のもと「確信できる AI を支えるデータレイヤー」をキーメッセージに掲げ、v26.2 で製品 UI を全面刷新しました。本動画では、AI Ready なデータ基盤に必要な4つの条件(自動化・接続性・鮮度・ガバナンス)それぞれを強化した新機能を、ライブデモを交えて一挙ご紹介します。

▼ 本動画で紹介する主な新機能
✅ パイプライン機能 — 複数ジョブの依存関係を GUI で定義・自動実行
✅ Python スクリプト対応 — データ品質チェックや Webhook 連携をカスタムコードで実現
✅ ClickHouse デスティネーション — 列志向 OLAP DB への正式レプリケーション対応
✅ CDC Engine 強化 — Oracle ROWID / Db2 i RRN 対応・並列パーティション読み取りで初回ロード最大41%高速化
✅ Git Version Control — ワークスペース設定をバージョン管理・ワンクリックロールバック

Avatar for CData Software Japan

CData Software Japan

June 04, 2026

More Decks by CData Software Japan

Other Decks in Technology

Transcript

  1. アジェンダ 01 自動化 パイプライン機能 / Python イベントス クリプト 02 接続性

    ClickHouse 同期先対応 / 400+ ソースか ら OLAP へ 03 鮮度 CDC エンジン強化 / 並列読み取りパーテ ィショニング 04 ガバナンス Git バージョン管理 / コミット履歴 / ワ ンクリック復元 © 2026 CData Software Japan, LLC 2
  2. 自動化の強化ポイント パイプライン機能 複数ジョブの依存関係を GUI で定義。スケジ ュール・エラー制御・メール通知を一元管理 Python 公式対応 Pre-Job /

    Post-Job のイベントスクリプト に Python が追加。データ品質チェックや Webhook 連携を自由に実装 © 2026 CData Software Japan, LLC 4
  3. パイプラインユースケース ユースケース パイプライン構成 基幹 + SaaS + DWH 統合 例:

    SQL Server ジョブ → kintone ジョブ → Snowflake 変換(データマー ト生成) ジョブ実行後の Webhook 連携 ジョブ完了後に Webhook で外部システム(Slack / Teams / Datadog 等) へ通知。後続のワークフロー起動や監視連携が可能。 リバース ETL DWH に蓄積した分析結果を、SaaS (Salesforce / kintone 等)の業務シス テムへ書き戻し、現場のオペレーションに活用する。 © 2026 CData Software Japan, LLC 6
  4. Python 対応 V26.2 で追加された新機能 Pre-Job / Post-Job イベントスクリプトに Python を公式サポート

    Jep (Java Embedded Python )ブリッジ経由で Java 環境と連携 ユースケース — データ品質チェック・Webhook 連携・後続処理キック 要件 — Python 3.10 以上 + Jep 4.2.2 以上のインストール © 2026 CData Software Japan, LLC 7
  5. 01 環境セットアップ Sync サーバー上に一度だけセットアップが必要 要件 内容 Python 3.10 以上 Jep

    4.2.2 以上( pip install "jep==4.2.2" ) 環境変数 PythonHome に Python インストールパスを設定 Tip PythonHome は OS 環境変数か sync.properties の cdata.initParameters に設定。他システムへ の影響を避けたい場合は sync.properties 方式を推奨。 © 2026 CData Software Japan, LLC 8
  6. 02 ユースケース Pre-Job データ品質チェック レプリケーション前にソースの件数・品質を検 証し、閾値を下回ればジョブを中断 if row_count < threshold:

    raise Exception(" 件数不足") Post-Job Webhook 連携 ジョブ完了後にメトリクス(件数・時間・成否) を JSON で外部サービスへ送信 Slack への通知 Datadog / Splunk への可観測性連携 Demo © 2026 CData Software Japan, LLC 9
  7. 第1 部 まとめ — 自動化 自動化 = ワークフロー × カスタムロジック

    パイプライン — GUI で多段階フローを構築、依存関係・エラー制御・通知を一 元管理 Python イベント — Pre-Job データ品質チェック / Post-Job Webhook 連携を Python で実装 © 2026 CData Software Japan, LLC 10
  8. 接続性の強化ポイント ClickHouse 同期先対応 列指向 OLAP DB として高速集計・高圧縮・リアルタイム取り込みに最適化された ClickHouse を同期 先として新たにサポート。400+

    データソースから ClickHouse へレプリケーションできます。 初回フルロード後は CDC 差分連携 で変更データのみを取り込み、リアルタイムに近い鮮度を維持。 OLTP 負荷を分析基盤へ分離し、業務処理を保護します。 © 2026 CData Software Japan, LLC 12
  9. ClickHouse 同期先対応 V26.2 で追加された新機能 ClickHouse (列指向 OLAP DB )をデスティネーションとして公式サポート 対応バージョン

    — CData Sync 26.2 以降、ClickHouse Cloud / セルフホスト 両対応 CDC 差分連携対応 — 初回フルロード後は変更データのみを効率的に同期 AI / BI / ML 分析基盤へ 400+ ソースからダイレクトに連携 © 2026 CData Software Japan, LLC 13
  10. ClickHouse とは 列指向 OLAP データベース 大量データの高速集計クエリを得意とするオー プンソース DB 列指向ストレージによる高い圧縮率 リアルタイムでの大量データ取り込みと分析を

    両立 標準 SQL 互換 BI ダッシュボード / AI 分析 / ML フィーチャー ストアとの親和性が高い OLTP との使い分け OLTP OLAP (ClickHouse ) 得意 行単位の書き込み/ 更新 列指向の集計クエリ 用途 基幹業務処理 AI/BI/ML 分析 圧縮 率 低 高 © 2026 CData Software Japan, LLC 14
  11. ClickHouse 対応 — 連携イメージ 400+ ソースから CData Sync 経由で ClickHouse

    へ。初回フル、2 回目以降は CDC 差分連携。 データソース — Oracle Database Oracle Database OLTP / 基幹システム 業務トランザクション ソーステーブル orders 受注データ customers 顧客マスタ V26.2 データソース接続 Oracle 同期先接続 ClickHouse (NEW) 連携モード 同期先 — ClickHouse ClickHouse 列指向 OLAP / 分析基盤 ⾼速集計クエリ 列指向ストレージ id date amount user 列単位で圧縮‧⾛査して⼤量データを⾼速集計 読取 書込 ⾏指向 OLTP のデータを ClickHouse にレプリケーションし、列指向 OLAP の⾼速分析で活かす Demo © 2026 CData Software Japan, LLC 15
  12. 第2 部 まとめ — 接続性 AI/BI/ML 時代に向けた次世代分析基盤への直結 ClickHouse 同期先対応 —

    V26.2 で新たに追加。400+ ソースから ClickHouse へ直接連携 OLTP 負荷を分離 — 基幹システムの分析クエリを ClickHouse に切り離し、業 務処理を保護 CDC 差分連携 — 2 回目以降は変更データのみを効率的に同期し、リアルタイム 分析基盤を構築 © 2026 CData Software Japan, LLC 16
  13. 鮮度の強化ポイント CDC エンジンの強化 ROWID / RRN 対応で主キーなしテーブルの 行の重複を防ぎ、NUMBER 型精度制御で型不 一致を解消

    並列読み取りパーティショニング 初回スナップショットのソース読み取りを高 速化。大規模テーブルの初回ロードが劇的に 短縮 © 2026 CData Software Japan, LLC 18
  14. CDC エンジン強化 V26.2 で4 つの改善 1. ROWID / RRN 対応(Oracle

    / DB2 for i ) 2. Oracle NUMBER 型精度制御(DefaultPrecision / DefaultScale ) 3. Oracle 整数型ダウンキャスト(DowncastNumbers ) 4. Oracle MERGE 処理の一時テーブル活用 © 2026 CData Software Japan, LLC 19
  15. 01 ROWID / RRN 対応 主キーが設定されていないテーブルでも、Oracle の ROWID や DB2

    for i の RRN を主キー代替に使えるよ うになりました。従来のハッシュ方式で起きていた行の重複を防ぎ、UPDATE を正確に追従できます。 新規ジョブはデフォルトで有効。既存ジョブは従来どおりハッシュベースで動作(後方互換) 。スキーマ変更(疑似主キー列の追加)も不要。 © 2026 CData Software Japan, LLC 20
  16. 02 Oracle NUMBER 型精度制御 精度未指定の NUMBER 列を、VARCHAR ではなく数値型として連携できるようになりました。 接続プロパティ DefaultPrecision

    / DefaultScale / DowncastNumbers で精度・スケール・整数ダウンキャストを制御。 © 2026 CData Software Japan, LLC 21
  17. 02 設定 タスク詳細の「概要」タブ → 「データソース」セクションで以下の4 項目を設定 設定項目 説明 設定例 並列読み取りパーティショニン

    グ 並列読み取りパーティショニングの有効化 有効化 パーティションキー パーティション分割の基準カラム(Date / DateTime / Integer ) order_date パーティションサイズ 1 パーティションの範囲。日付型なら日数、整数型なら数値範囲 180 (日) 最大並列パーティション数 同時実行する最大パーティション数 4 Demo © 2026 CData Software Japan, LLC 25
  18. 03 効果 orders テーブル(500 万件)を対象に、並列無効と最大並列パーティション数 = 4 で初回スナップショ ットの所要時間を計測 処理フェーズ

    並列無効(従来) 最大並列パーティション数 = 4 短縮時間 改善率 ソース読み取り 約 64 秒 約 38 秒 約 26 秒 約 41% 全体処理時間 2 分 38 秒 1 分 55 秒 約 43 秒 約 27% 本機能が直接効くソース読み取りフェーズで 約 41% の短縮 を確認。ジョブ全体では約 27% 短縮。書き 込み側に並列化されない処理が含まれるため、ソース読み取り部分で最も効果が出る。 ※ PostgreSQL → Snowflake の当社検証環境での測定値。環境(CPU ・メモリ・ネットワーク・ソースDB 負荷)によって結果は異 なります © 2026 CData Software Japan, LLC 26
  19. 注意点:アプリケーションDB の要件 並列読み取りパーティショニングは Derby 以外 のアプリケーションDB が必要 環境 アプリケーションDB 利用可否

    V26.2 新規インストール H2 (新デフォルト) 追加作業なしで利用可能 V26.1 以前から運用・Derby のま ま Derby 利用不可 → H2 または外部DB へ移行 が必要 V26.1 以前から運用・外部DB 切替 済み MySQL / PostgreSQL / SQL Server など そのまま利用可能 Demo Tip V26.2 ではアプリケーションDB 移行機能も追加。画面操作だけで 外部DB へ移行できます。 © 2026 CData Software Japan, LLC 27
  20. 第3 部 まとめ — 鮮度 CDC エンジン強化 — ROWID /

    RRN 対応でスキーマ変更なしにレガシーテーブ ルも CDC 可能に NUMBER 型精度制御 — DefaultPrecision / DefaultScale / DowncastNumbers で型不一致を解消 並列読み取りパーティショニング — 初回スナップショットをソース読み取りを 短縮 © 2026 CData Software Japan, LLC 28
  21. Git バージョン管理 V26.2 で追加された新機能 ワークスペース単位で Git リポジトリと連携し、構成変更を履歴として 追跡 コミット単位の差分確認・過去状態へのワンクリックロールバック 3

    つの操作 — コミット&プッシュ / プル / 復元 対応プロバイダー — GitHub / GitLab / Bitbucket / Azure DevOps / オ ンプレミス Git © 2026 CData Software Japan, LLC 31
  22. 03 3つの操作 操作 内容 主な用途 コミット&プッシュ Sync 上の変更を Git に記録・反映

    変更履歴の蓄積・チーム共有 プル Git 側の変更を Sync に取り込む IDE 編集内容の反映・環境間共有 復元 過去のコミットへワンクリックで戻す ロールバック・事故対応 内部では pull (rebase )→ commit → push が自動処理されるため、リモートに差分があっても 自動マージされます Demo © 2026 CData Software Japan, LLC 33
  23. 注意事項 Note ワークスペース単位 — 1 ワークスペース = 1 Git リポジトリ(インスタンス全体の一括管理は不可)

    git CLI 必須 — Sync サーバーに git コマンドがインストールされ、PATH に通っている必要あり 復元後は手動でコミット — 復元した状態は自動コミットされないため、履歴に残すにはコミット&プ ッシュが必要 © 2026 CData Software Japan, LLC 35
  24. 第4 部 まとめ — ガバナンス 変更履歴 × 復元 × 監査の3

    軸でガバナンス強化 Git バージョン管理 — ワークスペース構成を Git で管理し、差分・履歴・ロー ルバックを標準化 コミット履歴 — 誰がいつ何を変更したかを JSON 差分で可視化 ワンクリック復元 — 誤設定・障害時に過去の構成へ即時ロールバック © 2026 CData Software Japan, LLC 36
  25. v26.2 アップデート総括 01 自動化 パイプライン GUI フロー Python イベントスクリプト 02

    接続性 ClickHouse 同期先対応 400+ ソース → 高速 OLAP 03 鮮度 CDC エンジン改善 並列読み取りパーティショニング 04 ガバナンス Git バージョン管理 コミット履歴・差分確認 ワンクリック復元 © 2026 CData Software Japan, LLC 37