Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
show catalogs; - Trino Japan community meetup 2...
Search
mikiT
July 18, 2024
Technology
0
300
show catalogs; - Trino Japan community meetup 2024 -
2024/7/10 に行われた Trino Japan community meetup 2024 で発表した資料です
https://techplay.jp/event/944074
mikiT
July 18, 2024
Tweet
Share
More Decks by mikiT
See All by mikiT
ドメイン名の終活について - JPAAWG 7th -
mikit
34
22k
dnsops.jp - CNDT2023 コミュニティLT
mikit
0
160
20181107-gitlab-women-mikit.pdf
mikit
0
350
Other Decks in Technology
See All in Technology
AWS re:Invent 2024で発表された コードを書く開発者向け機能について
maruto
0
190
re:Invent 2024 Innovation Talks(NET201)で語られた大切なこと
shotashiratori
0
310
大幅アップデートされたRagas v0.2をキャッチアップ
os1ma
2
520
非機能品質を作り込むための実践アーキテクチャ
knih
3
1k
Oracle Cloud Infrastructure:2024年12月度サービス・アップデート
oracle4engineer
PRO
0
170
あの日俺達が夢見たサーバレスアーキテクチャ/the-serverless-architecture-we-dreamed-of
tomoki10
0
430
Fanstaの1年を大解剖! 一人SREはどこまでできるのか!?
syossan27
2
160
社外コミュニティで学び社内に活かす共に学ぶプロジェクトの実践/backlogworld2024
nishiuma
0
260
TSKaigi 2024 の登壇から広がったコミュニティ活動について
tsukuha
0
160
Postman と API セキュリティ / Postman and API Security
yokawasa
0
200
alecthomas/kong はいいぞ / kamakura.go#7
fujiwara3
1
300
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
120
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
365
19k
Unsuck your backbone
ammeep
669
57k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Agile that works and the tools we love
rasmusluckow
328
21k
How to Ace a Technical Interview
jacobian
276
23k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
How STYLIGHT went responsive
nonsquared
95
5.2k
The Cost Of JavaScript in 2023
addyosmani
45
7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Into the Great Unknown - MozCon
thekraken
33
1.5k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Transcript
© NTT Communications Corporation All Rights Reserved. NTTコミュニケーションズ株式会社 デジタル改⾰推進部 データドリブンマネジメント推進部⾨
髙⽥美紀 (@mikiT_T) 2024年7⽉10⽇ show catalogs; Trino Japan community meetup 2024
© NTT Communications Corporation All Rights Reserved. 2 おしながき •
わたしは誰? • 弊社のデータ分析基盤 DLX の紹介 • 本編 • 少⼈数のオフラインイベントだし、楽しくワイワイやりたいです!!
© NTT Communications Corporation All Rights Reserved. 3 ⾃⼰紹介 •
略歴 • 〜2013/3 NTTPCコミュニケーションズにて WebARENA ホスティング開発・運⽤ • 2013/4〜 NTTコミュニケーションズに復帰、SAMURAI フローコレクタ開発 • 2020/4〜 現職にてデータ分析基盤 DLX の開発に着⼿ • コミュニティ活動 • dnsops.jp 幹事 • JANOG53, 54 NOC サーバチームリーダー • CNDF2023, CNDT2023, CNDS2024 実⾏委員 • InternetWeek プログラム委員 • 好きなもの、趣味 • 🍺 🥟 🍖 • ゲーム (ソシャゲ) • モータースポーツ (F1) 観戦
© NTT Communications Corporation All Rights Reserved. 4 DLXの紹介
© NTT Communications Corporation All Rights Reserved. 5 DLX とは
• NTTコミュニケーションズの社内向けデータ分析基盤 • データ取得〜蓄積〜加⼯〜分析の環境を⼀元的に運⽤・提供している • Data Lake for X (Everything) の略 • 2020年度、デジタル改⾰推進部の発⾜時に開発を開始 • コンセプト • OSS中⼼の構成 • 内製開発 • ⾃動化の推進 • 監視やコード管理、⽣活⽤のさまざまなツールも⾃作 • 分析環境 • 社員誰でも申請なしに使える • 直感的な操作かつ、セキュアに利⽤できる • 分析以外の利⽤禁⽌ → 平⽇⽇勤帯のみ、DRや24/365運⽤はしない • オンプレ (サーバ150台程度) とクラウドサービスを適材適所で利⽤中 • 体制: 基盤チーム11⼈ • trino チームは 3⼈
© NTT Communications Corporation All Rights Reserved. 6 DLX overview
(〜2023)
© NTT Communications Corporation All Rights Reserved. 7 利⽤状況
© NTT Communications Corporation All Rights Reserved. 8 データレイク層 数年後のDLXCデータ分析基盤構想案
各種データ A情報 データレイク層 データウェアハウス層 データマート層 データ レイク DM 中間 DWH 個別⽤途に活⽤される データ DM=ユーザ向け SYSDM=システム向け ⼀次加⼯ ユーザ層 ユーザDB DWH 中間 DM 公開DB ⾼度データ活⽤組織⽤ (払出審査あり) DDM DB 個別案件 DB SYS DM 複数⽤途に活⽤される データ ユーザ参照(取扱注意データ) 通信の秘密 S情報 B情報 C/D情報 個⼈情報 従業員データ 勤務情報 A処理 データ レイクA AWS S3 管理会計 (速報値) 取扱注意情報 営業活動データ 契約情報 コードマスター セキュリティ情報 ⼊室情報 決裁情報 調達情報 その他 B処理 Publish Publish 申請 権限処理 承認処理 Notebook in SnowflakeのPublish コム社員 PowerBI Online
© NTT Communications Corporation All Rights Reserved. 9 show catalogs;
© NTT Communications Corporation All Rights Reserved. 10 今回の趣旨 •
お集まりの皆さんも trino を利⽤して、さまざまな活動をなさってますよね • コミュニティとしての情報交換ができたらいいな〜と思いました • どんなものを、どんな⾵に使っているか • その上で、困っていることなど互助できたら。。
© NTT Communications Corporation All Rights Reserved. 11 アイスブレイク •
trino 使ってますか!? • はい: ほとんど • いいえ: お⼀⼈ • 「はい」の⼈、クラスタの数はどれくらい? • 1: 1 • 2: • 3よりたくさん: ほとんど • 「いいえ」の⼈は、以降の質問については皆さんの様⼦を⾒ててくださいね〜
© NTT Communications Corporation All Rights Reserved. 12 • カタログは何個くらいありますか?
• 1~3個: 1 • 4〜10個:3,4 • 11〜20個: ? • 21個以上: 3 show catalogs; trino> show catalogs; Catalog ------------------------------- boar bsystem_nboss bsystem_pap dev_kafka dlxc_linkage_datamart_db dlxc_test_ingest_user_ddm_db dlxc_test_linkage_datamart_db dlxc_test_user_ddm_db isystem_kd insights_db_catalog_dev insights_db_catalog_secure jmx netezza_isystemdb00_lab osystem_psql prd_kafka ptarmigan_azuresql ptarmigan_dev_azuresql system tpcds tpch xsystem_bs_bplan xsystem_bs_bplan_bst_2g xsystem_bs_datacamp (23 rows)
© NTT Communications Corporation All Rights Reserved. 13 • コネクタの種類は何種類くらいあ
りますか? • 1〜2種類: 4 • 3〜5種類: 3 • 6種類以上: 2 • 差し⽀えない範囲で、どんなコネ クタを使っていますか? • hive: 7,8 • iceberg: 4 • postgres: 7 • mysql: 4 • その他: sqlserver, bq, ⾃作, oracle, mariadb, deltalake • 弊社の状況 • (iceberg は検証中..) コネクタについて trino> SELECT distinct connector_name FROM system.metadata."catalogs" order by connector_name; connector_name -------------------- hive jmx netezza oracle postgresql snowflake_parallel sqlserver system tpcds tpch (10 rows)
© NTT Communications Corporation All Rights Reserved. 14 • コネクタを⾃作してますか?
• はい: 2 • いいえ: • やってみたい: • 「はい」の⽅、差し⽀えない範囲 でどんなコネクタを作りましたか? • storageに対して直接クエリを発⾏ できる table 関数で csv ファイル を読み込む • 弊社の状況 • (iceberg は検証中..) コネクタについて (cont) trino> SELECT count(*) cnt, connector_name FROM system.metadata."catalogs" group by connector_name order by connector_name; cnt | connector_name -----+-------------------- 1 | hive 1 | jmx 2 | netezza ← ⾃作 2 | oracle 4 | postgresql 5 | sqlserver 1 | snowflake_parallel 1 | system 1 | tpcds 1 | tpch (10 rows)
© NTT Communications Corporation All Rights Reserved. 15 • カタログ周りで困ってることとか
• ⾃作コネクタのメンテナンス問題 • パフォーマンス問題 • その他、カタログに限らず、なんでも • コミュニティ版 Trino のビルドが⾟い問題 • worker が落ちる問題 • etc • 次に聞いてみたいこと • クラスタ分割してる? • UDF 作ってます? • 監視メトリクスどんなのをみてる? • We are Hiring! • https://www.bizreach.jp/ job/view/1376977 その他、ディスカッション、Q&A
© NTT Communications Corporation All Rights Reserved. 16 QA •
クラスタサイズ、どうやって決めてますか? • 利⽤者のログを集めて決める • 2,3台のクラスタ、ログを集めて分析する • DELLさんがコンサルしてくれるよ • postgres の場合は trino 側にはあまり負荷はかからない • explain をして、クエリがどちらで動いているか (postgres or trino engine) • クエリの複雑性、同時実⾏の状況 • ほとんどが postgres 側で動いていそう • ⼩さいマシンを並べるくらいなら1台の⽅がおすすめ • cordinator, worker 1台ずつとか • postgres のコネクタはシングルスレッドなので、aggregation をしないと複数台⽤意しても性能の向上は⾒込めない • slack (community) • version up のアナウンスを⽇本語チャンネルにもしてはどうか • ebyhrさんがやってみる • trino に関わることなら書いて良いのでは • trino fes とかの状況を⽇本語で書く
© NTT Communications Corporation All Rights Reserved. 17