Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
show catalogs; - Trino Japan community meetup 2...
Search
mikiT
July 18, 2024
Technology
0
400
show catalogs; - Trino Japan community meetup 2024 -
2024/7/10 に行われた Trino Japan community meetup 2024 で発表した資料です
https://techplay.jp/event/944074
mikiT
July 18, 2024
Tweet
Share
More Decks by mikiT
See All by mikiT
APRICOT-APAN 2015とNOCチーム
mikit
0
64
ドメイン名の終活について - JPAAWG 7th -
mikit
38
30k
dnsops.jp - CNDT2023 コミュニティLT
mikit
0
210
20181107-gitlab-women-mikit.pdf
mikit
0
400
Other Decks in Technology
See All in Technology
【初心者向け】ローカルLLMの色々な動かし方まとめ
aratako
4
2.4k
新規案件の立ち上げ専門チームから見たAI駆動開発の始め方
shuyakinjo
0
640
ガチな登山用デバイスからこんにちは
halka
1
200
AWS環境のリソース調査を Claude Code で効率化 / aws investigate with cc devio2025
masahirokawahara
2
1k
Jaws-ug名古屋_LT資料_20250829
azoo2024
3
210
ソフトウェア エンジニアとしての 姿勢と心構え
recruitengineers
PRO
26
12k
Kubernetes における cgroup driver のしくみ: runwasi の bugfix より
z63d
2
110
RSCの時代にReactとフレームワークの境界を探る
uhyo
8
1.4k
Snowflakeの生成AI機能を活用したデータ分析アプリの作成 〜Cortex AnalystとCortex Searchの活用とStreamlitアプリでの利用〜
nayuts
0
140
おやつは300円まで!の最適化を模索してみた
techtekt
PRO
0
250
「魔法少女まどか☆マギカ Magia Exedra」の必殺技演出を徹底解剖! -キャラクターの魅力を最大限にファンに届けるためのこだわり-
gree_tech
PRO
0
430
Nstockの一人目エンジニアが 3年間かけて向き合ってきた セキュリティのこととこれから〜あれから半年〜
yo41sawada
0
180
Featured
See All Featured
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.6k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
RailsConf 2023
tenderlove
30
1.2k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
11
1.1k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
31
2.2k
Why Our Code Smells
bkeepers
PRO
339
57k
Music & Morning Musume
bryan
46
6.8k
Transcript
© NTT Communications Corporation All Rights Reserved. NTTコミュニケーションズ株式会社 デジタル改⾰推進部 データドリブンマネジメント推進部⾨
髙⽥美紀 (@mikiT_T) 2024年7⽉10⽇ show catalogs; Trino Japan community meetup 2024
© NTT Communications Corporation All Rights Reserved. 2 おしながき •
わたしは誰? • 弊社のデータ分析基盤 DLX の紹介 • 本編 • 少⼈数のオフラインイベントだし、楽しくワイワイやりたいです!!
© NTT Communications Corporation All Rights Reserved. 3 ⾃⼰紹介 •
略歴 • 〜2013/3 NTTPCコミュニケーションズにて WebARENA ホスティング開発・運⽤ • 2013/4〜 NTTコミュニケーションズに復帰、SAMURAI フローコレクタ開発 • 2020/4〜 現職にてデータ分析基盤 DLX の開発に着⼿ • コミュニティ活動 • dnsops.jp 幹事 • JANOG53, 54 NOC サーバチームリーダー • CNDF2023, CNDT2023, CNDS2024 実⾏委員 • InternetWeek プログラム委員 • 好きなもの、趣味 • 🍺 🥟 🍖 • ゲーム (ソシャゲ) • モータースポーツ (F1) 観戦
© NTT Communications Corporation All Rights Reserved. 4 DLXの紹介
© NTT Communications Corporation All Rights Reserved. 5 DLX とは
• NTTコミュニケーションズの社内向けデータ分析基盤 • データ取得〜蓄積〜加⼯〜分析の環境を⼀元的に運⽤・提供している • Data Lake for X (Everything) の略 • 2020年度、デジタル改⾰推進部の発⾜時に開発を開始 • コンセプト • OSS中⼼の構成 • 内製開発 • ⾃動化の推進 • 監視やコード管理、⽣活⽤のさまざまなツールも⾃作 • 分析環境 • 社員誰でも申請なしに使える • 直感的な操作かつ、セキュアに利⽤できる • 分析以外の利⽤禁⽌ → 平⽇⽇勤帯のみ、DRや24/365運⽤はしない • オンプレ (サーバ150台程度) とクラウドサービスを適材適所で利⽤中 • 体制: 基盤チーム11⼈ • trino チームは 3⼈
© NTT Communications Corporation All Rights Reserved. 6 DLX overview
(〜2023)
© NTT Communications Corporation All Rights Reserved. 7 利⽤状況
© NTT Communications Corporation All Rights Reserved. 8 データレイク層 数年後のDLXCデータ分析基盤構想案
各種データ A情報 データレイク層 データウェアハウス層 データマート層 データ レイク DM 中間 DWH 個別⽤途に活⽤される データ DM=ユーザ向け SYSDM=システム向け ⼀次加⼯ ユーザ層 ユーザDB DWH 中間 DM 公開DB ⾼度データ活⽤組織⽤ (払出審査あり) DDM DB 個別案件 DB SYS DM 複数⽤途に活⽤される データ ユーザ参照(取扱注意データ) 通信の秘密 S情報 B情報 C/D情報 個⼈情報 従業員データ 勤務情報 A処理 データ レイクA AWS S3 管理会計 (速報値) 取扱注意情報 営業活動データ 契約情報 コードマスター セキュリティ情報 ⼊室情報 決裁情報 調達情報 その他 B処理 Publish Publish 申請 権限処理 承認処理 Notebook in SnowflakeのPublish コム社員 PowerBI Online
© NTT Communications Corporation All Rights Reserved. 9 show catalogs;
© NTT Communications Corporation All Rights Reserved. 10 今回の趣旨 •
お集まりの皆さんも trino を利⽤して、さまざまな活動をなさってますよね • コミュニティとしての情報交換ができたらいいな〜と思いました • どんなものを、どんな⾵に使っているか • その上で、困っていることなど互助できたら。。
© NTT Communications Corporation All Rights Reserved. 11 アイスブレイク •
trino 使ってますか!? • はい: ほとんど • いいえ: お⼀⼈ • 「はい」の⼈、クラスタの数はどれくらい? • 1: 1 • 2: • 3よりたくさん: ほとんど • 「いいえ」の⼈は、以降の質問については皆さんの様⼦を⾒ててくださいね〜
© NTT Communications Corporation All Rights Reserved. 12 • カタログは何個くらいありますか?
• 1~3個: 1 • 4〜10個:3,4 • 11〜20個: ? • 21個以上: 3 show catalogs; trino> show catalogs; Catalog ------------------------------- boar bsystem_nboss bsystem_pap dev_kafka dlxc_linkage_datamart_db dlxc_test_ingest_user_ddm_db dlxc_test_linkage_datamart_db dlxc_test_user_ddm_db isystem_kd insights_db_catalog_dev insights_db_catalog_secure jmx netezza_isystemdb00_lab osystem_psql prd_kafka ptarmigan_azuresql ptarmigan_dev_azuresql system tpcds tpch xsystem_bs_bplan xsystem_bs_bplan_bst_2g xsystem_bs_datacamp (23 rows)
© NTT Communications Corporation All Rights Reserved. 13 • コネクタの種類は何種類くらいあ
りますか? • 1〜2種類: 4 • 3〜5種類: 3 • 6種類以上: 2 • 差し⽀えない範囲で、どんなコネ クタを使っていますか? • hive: 7,8 • iceberg: 4 • postgres: 7 • mysql: 4 • その他: sqlserver, bq, ⾃作, oracle, mariadb, deltalake • 弊社の状況 • (iceberg は検証中..) コネクタについて trino> SELECT distinct connector_name FROM system.metadata."catalogs" order by connector_name; connector_name -------------------- hive jmx netezza oracle postgresql snowflake_parallel sqlserver system tpcds tpch (10 rows)
© NTT Communications Corporation All Rights Reserved. 14 • コネクタを⾃作してますか?
• はい: 2 • いいえ: • やってみたい: • 「はい」の⽅、差し⽀えない範囲 でどんなコネクタを作りましたか? • storageに対して直接クエリを発⾏ できる table 関数で csv ファイル を読み込む • 弊社の状況 • (iceberg は検証中..) コネクタについて (cont) trino> SELECT count(*) cnt, connector_name FROM system.metadata."catalogs" group by connector_name order by connector_name; cnt | connector_name -----+-------------------- 1 | hive 1 | jmx 2 | netezza ← ⾃作 2 | oracle 4 | postgresql 5 | sqlserver 1 | snowflake_parallel 1 | system 1 | tpcds 1 | tpch (10 rows)
© NTT Communications Corporation All Rights Reserved. 15 • カタログ周りで困ってることとか
• ⾃作コネクタのメンテナンス問題 • パフォーマンス問題 • その他、カタログに限らず、なんでも • コミュニティ版 Trino のビルドが⾟い問題 • worker が落ちる問題 • etc • 次に聞いてみたいこと • クラスタ分割してる? • UDF 作ってます? • 監視メトリクスどんなのをみてる? • We are Hiring! • https://www.bizreach.jp/ job/view/1376977 その他、ディスカッション、Q&A
© NTT Communications Corporation All Rights Reserved. 16 QA •
クラスタサイズ、どうやって決めてますか? • 利⽤者のログを集めて決める • 2,3台のクラスタ、ログを集めて分析する • DELLさんがコンサルしてくれるよ • postgres の場合は trino 側にはあまり負荷はかからない • explain をして、クエリがどちらで動いているか (postgres or trino engine) • クエリの複雑性、同時実⾏の状況 • ほとんどが postgres 側で動いていそう • ⼩さいマシンを並べるくらいなら1台の⽅がおすすめ • cordinator, worker 1台ずつとか • postgres のコネクタはシングルスレッドなので、aggregation をしないと複数台⽤意しても性能の向上は⾒込めない • slack (community) • version up のアナウンスを⽇本語チャンネルにもしてはどうか • ebyhrさんがやってみる • trino に関わることなら書いて良いのでは • trino fes とかの状況を⽇本語で書く
© NTT Communications Corporation All Rights Reserved. 17