ペタバイト級の時系列データを低レイテンシー＆高スループットで処理する GridDB

© 2023 Toshiba Digital Solutions Corporation © 2023 Toshiba Digital
Solutions Corporation ペタバイト級の時系列データを低レイテンシー＆高スループットで処理する GridDB 東芝デジタルソリューションズ株式会社ソフトウェアシステム技術開発センター

© 2023 Toshiba Digital Solutions Corporation 2 アジェンダ GridDBとは? GridDBの時系列分析機能
時系列DBの比較 01 02 03

© 2023 Toshiba Digital Solutions Corporation 3 自己紹介浜口泰平（HAMAGUCHI
Taihei）・入社後、DBMSの研究開発に従事・自社製DBMSであるGridDBのSQL処理モジュールを開発

© 2023 Toshiba Digital Solutions Corporation 5 GridDBについて GridDBは、東芝デジタルソリューションズが開発・販売する NoSQL型のDBMSです。
ビッグデータやIoTシステム向けに特化して作られたDBMSです。

© 2023 Toshiba Digital Solutions Corporation 6 GridDBの特徴時系列データ指向
高頻度で大規模な時系列データを効率よくリアルタイム処理する時系列データ指向高い信頼性と柔軟な拡張性障害の発生時やサーバ増設においてもノンストップ運用を実現する高い信頼性と柔軟な拡張性ペタバイト級の高い処理能力ペタバイト規模のデータを扱うためにさまざまな工夫を組み込み、高い処理能力を実現開発の容易性 NoSQLインターフェースだけではなく、SQLインターフェースを用意し、開発の俊敏性と使いやすさを実現

© 2023 Toshiba Digital Solutions Corporation 7 時系列データ指向モデルキーバリュー型（例：Redis）
カラム指向型（例：Cassandra）リレーション型（例：RDBMS）ドキュメント指向型（例：MongoDB）キーコンテナ型 GridDB キー値キー値キー値キー値キー値キー値キー値キー値キー値キー値値値値値値値値値値値値値値値値値キードキュメントキードキュメントキードキュメントキードキュメントキードキュメントキーキーキーテーブルテーブル GridDBはIoTデータ向けに拡張した独自のキーコンテナ型データモデル

© 2023 Toshiba Digital Solutions Corporation 8 時刻センサーA センサーB
00:00:00 1.12 2.13 00:00:01 1.11 3.12 ・・・・・・・・・・・・機器1 時刻センサーC センサーD センサーE 00:00:00 1.12 2.13 1.13 00:00:02 1.01 3.33 2.33 ・・・・・・・・・・・・・・・時刻センサーF センサーG 00:00:00 1.12 2.13 00:00:01 1.11 3.12 ・・・・・・・・・・・・時刻センサーセンサー 00:00:00 ０.12 1.13 00:00:01 1.11 3.12 ・・・・・・・・・・・・機器2 機器3 機器4 時系列データ指向モデル GridDBのキーコンテナ型はIoTデータを管理するのに最適機器 1 機器 2 機器 3 機器 4 データソース時刻センサーA センサーB 00:00:00 1.12 2.13 00:00:01 1.11 3.12 ・・・・・・・・・・・・時刻センサーC センサーD センサーE 00:00:00 1.12 2.13 1.13 00:00:02 1.01 3.33 2.33 ・・・・・・・・・・・・・・・時刻センサーF センサーG 00:00:00 1.12 2.13 00:00:01 1.11 3.12 ・・・・・・・・・・・・時刻センサーセンサー 00:00:00 ０.12 1.13 00:00:01 1.11 3.12 ・・・・・・・・・・・・対象データ毎に格納 • コンテナに対してデータ型を定義するスキーマ設定が可能 • ユニークなコンテナ名とロウキーで値を特定 • カラムのインデックス設定が可能 • コンテナ内のロウ単位でトランザクション操作が可能 • コンテナ単位で一貫性保証モデリング

© 2023 Toshiba Digital Solutions Corporation 9 ペタバイト級の高い処理能力 GridDBはCPUをフル回転で使用イベント駆動エンジン
クライアントクライアント他サーバ他サーバ GridDBサーバ CPU メモリディスク１処理タスクを１スレッドに割り当てて、複数スレッド間でのリソース共有を排除し、フルスピードでデータ処理を実行内部的な小さな単位のタスクを組み合わせて処理 ➜ タスク間の処理の受け渡しのオーバヘッドが発生 CPUコア/スレッド毎に専有するメモリ、DBファイルを割当て排他処理、同期待ちを排除ブロックの読み書きサイズを最適化し、I/O待ちを削減 RDBMS クライアントクライアント他サーバ他サーバ１処理タスク１スレッド

© 2023 Toshiba Digital Solutions Corporation 10 ペタバイト級の高い処理能力メモリを最大限有効活用する時系列データ配置技術 TDPA
新しい古いコンテナ設計：センサーごとにコンテナを作成. アプリケーション put/ multiPut Get/ multiGet 【データ検索】センサーと時間を条件として検索すると、検索対象のデータは局所的に配置されているため、高速に検索【データ格納】センサーデータは時刻順に生成され、時刻順に格納される TDPA：Time Series Data Placement Algorithm 複数センサーであっても、同じ時間のデータは近接して配置・格納される。

© 2023 Toshiba Digital Solutions Corporation 11 高い信頼性と柔軟な拡張性サーバ間でデータのコピーを保持しあう自動レプリケーションにより、万一の障害時にも処理を継続可能
サーバ2 バックアップデータオリジナルデータサーバ1 オリジナルデータバックアップデータサーバ3 バックアップデータオリジナルデータサーバ4 バックアップデータオリジナルデータ RDBのようにHAクラスタシステムを組む必要はありません。障害

© 2023 Toshiba Digital Solutions Corporation 12 開発の俊敏性と使いやすさ NoSQLとSQLのデュアルインターフェースを提供 NoSQL
インターフェース ⚫ 高速・高スループットな登録・検索・更新が可能 ⚫ Java / C / Python / Go / Node.js クライアント SQL インターフェース ⚫ 複雑な検索が可能 ⚫ 標準化されたSQLなので、他ソフトウェアとの連携が容易 ⚫ JDBC / ODBCドライバ GridDB クラスタ DB ノード DB ノード DB ノード NoSQL インターフェース SQLインターフェース BI/BA ETL 他のシステム他のDBMS

© 2023 Toshiba Digital Solutions Corporation 13 開発の俊敏性と使いやすさ GridDBならリアルタイム分析が可能にリアルタイム分析が可能に！
GridDBの場合 POS データ店舗データ気象データ人流データ … … 収集データ分析 GridDB 従来のデータ基盤 ※1 ODS (Operational Data Store)：収集データを一時的に保持するデータベース ※2 ETL (Extract/Transform/Load)：データの整形、統合を専門に行うツール ※3 DWH (Data Warehouse)：情報を時系列に整理して保管するデータベース ODS※1 ETL※2 データ蓄積用DB 収集データバッチによるデータ整形データ分析用DB 分析 DWH※3 2つのデータベースを管理するのは面倒だ…。リアルタイムに分析できないじゃないか⁉

© 2023 Toshiba Digital Solutions Corporation 15 時系列データ収集される時系列データ IoTデータ発生源
データ収集時系列データとは、時間情報(タイムスタンプ)を持った一連の値。温度センサー、電圧センサーなど様々なIoTデータは時系列データ。

© 2023 Toshiba Digital Solutions Corporation 16 データ蓄積・管理システムなぜ時系列集計機能が必要か？データ可視化・
分析システム収集、蓄積される現実のIoTデータにはノイズや欠損値が含まれる。そのままではデータの傾向や特徴が掴みづらい。 IoTデータ発生源データ収集データ参照 SQL ノイズデータ欠損時系列集計演算により、大量時系列データの分析が容易になる。データベース

© 2023 Toshiba Digital Solutions Corporation 17 データ蓄積・管理システムなぜ時系列集計機能が必要か？データ可視化・
分析システム収集、蓄積される現実のIoTデータにはノイズや欠損値が含まれる。そのままではデータの傾向や特徴が掴みづらい。 IoTデータ発生源データ収集データ参照【時系列集計】 ①集計演算：指定時間間隔毎に元データの値集計(avg等)を行う ②補間演算：欠損値の補間指定を行うデータベースノイズデータ欠損例えば、元データを時系列集約しノイズの影響を軽減時系列集計 SQL

© 2023 Toshiba Digital Solutions Corporation 18 テーブル例：時系列データ集計演算の説明に用いる例センサーデータを記録する、2カラムの単純なテーブルカラム名
型説明 measurement_date_time TIMESTAMP 値が発生した日時 value DOUBLE 測定値 sensor_value_tableのテーブル定義 measurement_date_time value 2023-01-01T00:00:00 10 2023-01-01T00:00:10 30 2023-01-01T00:00:20 30 2023-01-01T00:00:30 50 2023-01-01T00:00:40 50 2023-01-01T00:00:50 70 … … 2023-01-02T00:00:00 5 2023-01-02T00:00:10 10 2023-01-02T00:00:20 15 2023-01-02T00:00:40 25 2023-01-02T00:00:50 30 sensor_value_tableのデータ例欠損 10秒間隔のデータ sensor_value_tableのグラフ欠損

© 2023 Toshiba Digital Solutions Corporation 19 ①【集計演算】ノイズを軽減する一定の時間間隔毎に時系列データを区切り、値集計(avg,min,max等)を行える生データ（測定・収集時のノイズを含む）
集計演算を行い、ノイズが軽減されたデータ ✓ 数値・日時データを扱う様々な集計関数を指定できる(合計、平均、最大・最小、分散・標準偏差、中央値、…) ✓ 集計区間の範囲・長さに加え、開始時刻のタイムゾーンも指定できる集計演算バラツキが大きく傾向が見づらい区間ごとに集約して全体の傾向を強調元データ集計で求めたデータ一定時間ごとに元データを区切り、含まれる値を集計して結果を求める

© 2023 Toshiba Digital Solutions Corporation 20 ① 【集計演算】 SQL構文
GridDBで拡張した以下の構文により、集計する日時範囲を指定 measurement_date_time value 2023-01-01T00:00:00 10 2023-01-01T00:00:10 30 2023-01-01T00:00:20 30 2023-01-01T00:00:30 50 2023-01-01T00:00:40 50 2023-01-01T00:00:50 70 measurement_date_time value 2023-01-01T00:00:00 20 2023-01-01T00:00:20 40 2023-01-01T00:00:40 60 SELECT measurement_date_time, avg(value) as value FROM sensor_value_table WHERE measurement_date_time BETWEEN TIMESTAMP('2023-01-01T:00:00:00Z') AND TIMESTAMP('2023-01-01T:00:01:00Z') GROUP BY RANGE measurement_date_time EVERY (20, SECOND) 【例】元データ(sensor_value_table)の値を、measurement_date_timeの日時を基準に 20秒間隔で区切り、それぞれの平均値を求めるSQL 20秒ごとの値に集計 GROUP BY RANGE <日時カラム> EVERY (<時区間の長さ(整数)>, <単位>) 集計演算

© 2023 Toshiba Digital Solutions Corporation 21 ② 【補間演算】欠損値を補間するあるべき時刻のデータ欠損時には、その前後周辺の値を用いて補間値を求める。
生データ（測定・収集時のデータ欠損がある）補間演算を行い、周辺の値から欠損値を補間補間演算補間欠損周辺のデータ傾向が見にくい前後と連続するデータになり傾向が見やすい ✓ 補間方法を指定できる(線形補間、前の時刻のデータで補間、NULLで補間) 欠損

© 2023 Toshiba Digital Solutions Corporation 22 ② 【補間演算】 SQL構文
GridDBで拡張した以下の構文により、集計する日時範囲を指定 GROUP BY RANGE 日時カラム EVERY (整数,時刻単位) FILL (補間方法) measurement_date_time value 2023-01-02T00:00:00 5 2023-01-02T00:00:10 10 2023-01-02T00:00:20 15 (欠損) 2023-01-02T00:00:40 25 2023-01-02T00:00:50 30 measurement_date_time value 2023-01-02T00:00:00 5 2023-01-02T00:00:10 10 2023-01-02T00:00:20 15 2023-01-02T00:00:30 20 2023-01-02T00:00:40 25 2023-01-02T00:00:50 30 SELECT * FROM sensor_value_table WHERE measurement_data_time BETWEEN TIMESTAMP('2023-01-02T:00:00:00Z') AND TIMESTAMP('2023-01-02T:00:01:00Z') GROUP BY RANGE measurement_date_time EVERY (10, SECOND) FILL (LINEAR) 【例】元データ(sensor_value_table)の値を、measurement_date_timeの日時を基準にして、 10秒間隔の値を求め、欠損している場合は前後の値から線形補間した値を求めるSQL 補間補間演算

© 2023 Toshiba Digital Solutions Corporation 23 GridDB以外で同じ分析を行おうとすると? GridDBに比べて作業の手間、処理時間に課題あり一般的な
RDBMS 時系列DB DBMS 以外 SELECT * FROM sensor_value_table WHERE measurement_data_time BETWEEN TIMESTAMP('2023-01-02T:00:00:00Z') AND TIMESTAMP('2023-01-02T:00:01:00Z') GROUP BY RANGE measurement_date_time EVERY (10, SECOND) FILL (LINEAR) ✓ 1つのシンプルなSQL文で実行できる! ✓ インメモリで処理しきれない長期間のデータも一度に扱える! ウインドウ関数で前後データを参照する? 欠損値は OUTER JOINで埋め合わせる? さらに他のテーブルとジョインして一文で加工できる? 長期間のデータも一括で処理できる? 必要なデータを DBから取り出す処理時間は? 時系列処理後に他のテーブルとジョインする場合もDB外で?

© 2023 Toshiba Digital Solutions Corporation 24 GridDBの時系列分析アーキテクチャ時刻範囲での絞り込み &
並列パイプライン処理 SELECT * FROM sensor_value_table WHERE measurement_data_time BETWEEN TIMESTAMP('2023-01-02T:00:00:00Z') AND TIMESTAMP('2023-01-04T:00:01:00Z') GROUP BY RANGE measurement_date_time EVERY (10, SECOND) FILL (LINEAR) 1. 分散プラン生成データアクセス 2023- 01-02 データアクセス 2023- 01-03 データアクセス 2023- 01-04 データ加工データ加工 ✓ 時刻範囲でデータアクセス対象を大まかに絞り込み ✓ リソースを最大限活用できるよう、分散化されたプランを生成 SQL実行結果 2023-01-01 2023-01-02 2023-01-03 2023-01-04 2023-01-05 2023-01-06 2023-01-07 2023-01-08 2023-01-09 2023-01-10 2. データアクセスイベント駆動エンジン(データアクセス用) ✓ データアクセス専用のイベント駆動エンジンにより、データ加工の負荷に左右されずに処理。読み出しだけではなく、データ登録も妨げない ✓ 過去の時系列データが長期間に渡り蓄積されていても、加工に必要な時刻範囲のテーブルデータ・索引データのみの読み出しで完結する (テーブル分割設定時) FROM sensor_value_table WHERE ～ 3. データ加工一時領域一時領域一時領域イベント駆動エンジン(データ加工用) パイプライン型データ転送 ✓ 分散プランで指示されたデータフローに従い、前工程よりデータが小分けに届く。届き次第、処理を進める ✓ 演算の内容・データ規模によっては一時領域を使用。メモリ容量を超える規模のデータも一括加工できる GROUP BY RANGE ～ GridDBサーバ

© 2023 Toshiba Digital Solutions Corporation 25 【デメリット】 • 都度SQLで加工するため演算時間がかかる。
まとめ: 時系列集計でできること IoTの生データには、測定・収集過程でノイズや欠損値が含まれる。利用時には加工が必要。時系列集計はノイズや欠損値を除く加工が可能。→生データから直接可視化や分析可能。【メリット】 • 単純なSQLで記述でき、事前の加工データ作成が不要 • 加工データの保存が不要でデータ量増大を避けられる • 常に最新のデータを参照できる

© 2023 Toshiba Digital Solutions Corporation 27 時系列DBの比較(1/3) ― 基本情報
GridDB InfluxDB TimescaleDB 初版リリース時期 2013年 2013年 2017年最新版 5.4 3.0 2.7 実装言語 C++ Go C データ型 numerics, string, blob, geometry, bool, timestamp Numeric data and Strings numerics, strings, booleans, arrays, JSON blobs, geospatial dimensions, currencies, binary data, other complex data types API JDBC, ODBC, native Java/C/Python/Node.js/G o library, HTTP API HTTP API, JSON over UDP ADO.NET, JDBC, native C library, ODBC, streaming API for large objects 検索言語 SQL,TQL SQLライクのFluxQL(v1,v3) 独自言語のFlux(v2) SQL トランザクション有り（コンテナ単位）無し有り

© 2023 Toshiba Digital Solutions Corporation 28 時系列DBの比較(2/3) ― 全体・クラスタ構成・可用性
GridDB InfluxDB TimescaleDB 全体 NoSQLエンジン上に分散SQL を実現(1プロセス内にクラスタ /SQL/NoSQL処理スレッド)。 SQLとNoSQLのデュアルインターフェースを提供。クラスタ管理のための各種運用監視ツール・Zabbix用テンプレートを備える。基本はHTTP API。その上に多種のAPIを提供。シンプルで使いやすい。 TICKスタックでデータ収集から可視化まで周辺ツールが充実。バックエンドはPostgreSQL。 SQLエンジン上に分散SQLを実現。 PostgreSQLの資産(SQL、周辺ツール等)が豊富。クラスタ構成・可用性 P2Pとリーダ・フォロアのハイブリッド方式。データノードとその他のノードとの区別は無い。少ないノード数で組める。データ再配置技術によりスケールアウト性を備える。メタノード、データノードによるリーダ・フォロア方式。メタノードは３個以上必要。アクセスノード、データノードによるリーダ・フォロア方式。アクセスノードは単一障害点にならないようにHA構成にする必要あり。

© 2023 Toshiba Digital Solutions Corporation 29 時系列DBの比較 (3/3) ―
登録・検索 GridDB InfluxDB TimescaleDB 登録 SQLとNoSQLのデュアルインターフェース。特にNoSQL I/FのMultiPutで高速バッチ処理。インターバル（ハッシュ）パーティショニングで分割配置。 (InfluxDB)Lineプロトコル。データ型の自動判別により measurementというテーブルの作成は不要だが、データ型が限られる。 Retention Policyにて分割配置。テーブル生成後にハイパーテーブルなるものに変換して使う。ハイパーテーブルに対しInsert。ハイパーテーブルへの変換に従い分割配置（デフォルト7日間隔)。検索 SQLとNoSQL用のクエリ。 GROUP BY RANGE句にて一定時間間隔ごとの集計に対応。ジョイン演算をサポート。データ/タスク/パイプラインの3レベルの並列メカニズムで高速処理。 SQLライクのFluxQL(v1,v3) と独自言語のFlux(v2)。 GroupBy time()にて一定時間間隔毎の集計に対応。４つのカテゴリ（集計演算関数、選択関数、予測関数、テクニカル分析関数）で多くの時系列関数を提供。ジョイン演算なし。 SQL。 time_bucket()関数にて一定時間間隔毎の集計に対応。 Hyperfunctionタイプやグループ別に多くの時系列関数を提供。

© 2023 Toshiba Digital Solutions Corporation 30 検索の例 (SQL拡張) SELECT
time, avg(val) FROM table1 WHERE time >= TIMESTAMP('2023-01-01T00:00:00Z') AND time < TIMESTAMP('2023-01-01T01:00:00Z') GROUP BY RANGE (time) EVERY (1, MINUTE) (SQL拡張) SELECT time_bucket('1 minute', time) AS bucket, avg(val) row_avg FROM table1 WHERE time >= TIMESTAMPTZ '2023-01-01 00:00:00' AND time < TIMESTAMPTZ '2023-01-01 01:00:00' GROUP BY bucket • GridDB • TimescaleDB (FluxQL) SELECT mean(val) FROM table1 WHERE time >= '2023-01-01T00:00:00Z' AND time < '2023-01-01T01:00:00Z' GROUP BY TIME(1m) • InfluxDB (v1/v3) (Flux) from(bucket: "table1") |> range(start:2023-01-01T00:00:00Z, stop:2023-01-01T01:00:00Z) |> aggregateWindow(every: 1m, fn: mean) • InfluxDB (v2)

© 2023 Toshiba Digital Solutions Corporation 31 GridDB製品版サイト • トップ
– GridDBとは – 特長 – ユースケース、導入事例 • ラインアップ • リソース – ホワイトペーパ – マニュアル • ニュース＆イベント http://griddb.com

© 2023 Toshiba Digital Solutions Corporation 32 GridDB OSS版サイト •
GridDBをGitHub上にソース公開(2016/2) • 目的 – ビッグデータ技術の普及促進 • 多くの人に知ってもらいたい、使ってみてもらいたい • いろんなニーズをつかみたい – 他のオープンソースソフトウェア、システムとの連携強化 • ライセンス – サーバはAGPL-3.0 – 各種開発言語のクライアント、OSSとのコネクタは Apache-2.0 https://github.com/griddb/ griddb github 検索

© 2023 Toshiba Digital Solutions Corporation 33 デベロッパーズサイト • アプリケーション開発者向けのサイト
• 様々なコンテンツを公開 – ホワイトペーパ – ブログ https://griddb.net/ griddb net 検索

© 2023 Toshiba Digital Solutions Corporation 35 • GridDB 製品版サイト
http://griddb.com • GridDB Cloud サイト http://cloud.griddb.com • GridDB デベロッパーズサイト https://griddb.net • GridDB GitHubサイト https://github.com/griddb • GridDB Twitter（日本語 / 英語） https://twitter.com/griddb_jp / https://twitter.com/GridDBCommunity • GridDB Facebook （日本語 / 英語） https://www.facebook.com/griddbjp / https://www.facebook.com/griddbcommunity/ • GridDB お問い合わせ製品版：https://www.global.toshiba/jp/products-solutions/ai-iot/griddb/contact.html プログラミング関連: Stackoverflow (https://ja.stackoverflow.com/search?q=griddb) もしくはGitHubサイトの各リポジトリのIssueをご利用くださいプログラミング関連以外: [email protected]をご利用ください各種情報サイト

ペタバイト級の時系列データを低レイテンシー＆高スループットで処理する GridDB

ペタバイト級の時系列データを低レイテンシー＆高スループットで処理する GridDB

More Decks by GridDB

Other Decks in Technology

Featured

Transcript