Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データエンジニアと作るデータ文化
Search
Yuki
June 25, 2022
Technology
5
2.8k
データエンジニアと作るデータ文化
オープンセミナー広島2022での登壇資料です。
当日のライブ配信です。
Youtube
https://www.youtube.com/watch?v=XgVbZZyoFxQ
Yuki
June 25, 2022
Tweet
Share
More Decks by Yuki
See All by Yuki
品質特性から眺める データ分析基盤入門
yuki_saito
4
400
Pythonとsparkで学ぶpyspark 速習講座
yuki_saito
2
210
AWS データレイク事例祭り 登壇資料
yuki_saito
7
3.5k
Data Platform
yuki_saito
1
360
ミライのデータエンジニア
yuki_saito
1
900
Other Decks in Technology
See All in Technology
The Rise of LLMOps
asei
8
1.7k
DynamoDB でスロットリングが発生したとき_大盛りver/when_throttling_occurs_in_dynamodb_long
emiki
1
430
テストコード品質を高めるためにMutation Testingライブラリ・Strykerを実戦導入してみた話
ysknsid25
7
2.7k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
110
rootlessコンテナのすゝめ - 研究室サーバーでもできる安全なコンテナ管理
kitsuya0828
3
390
アプリエンジニアのためのGraphQL入門.pdf
spycwolf
0
100
強いチームと開発生産性
onk
PRO
35
11k
プロダクト活用度で見えた真実 ホリゾンタルSaaSでの顧客解像度の高め方
tadaken3
0
190
Incident Response Practices: Waroom's Features and Future Challenges
rrreeeyyy
0
160
AGIについてChatGPTに聞いてみた
blueb
0
130
アジャイルチームがらしさを発揮するための目標づくり / Making the goal and enabling the team
kakehashi
3
150
EventHub Startup CTO of the year 2024 ピッチ資料
eventhub
0
120
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
430
Bash Introduction
62gerente
608
210k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
Intergalactic Javascript Robots from Outer Space
tanoku
269
27k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Making Projects Easy
brettharned
115
5.9k
Optimizing for Happiness
mojombo
376
70k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
KATA
mclloyd
29
14k
Transcript
データエンジニア”と”作る データ文化 6/25 オープンセミナー2022@広島 YUKI SAITO
@yuki_saito_en 斎藤 友樹(SAITO YUKI) システムでも野菜でもお菓子でも作ることが好きです 2 https://menta.work/plan/2650 https://www.udemy.com/user/yuki-saito-7/ @yuki_saito_en https://service.visasq.com/users/6078548267368448
@yuki_saito_en データプロフェッショナルとしての データエンジニアの活躍場面は多岐に渡る 3 データ活用 ETL データ理解 (ビジネスメタ データ) データパイプラ
イン データマート データ分析 ETL データアクセス の提供 BI NoteBook etc… データ品質 データテスト 育苗 輸送 仕分け 中継 販売 受取り 調理 データモデリング
@yuki_saito_en データエンジニアとエンジニア 組織や文化を戦略的に作るところに視点が置かれているかどうか 4 エンジニア データエンジニア テクニカル (Python、Java、 などなど) テクニカル
(Python、Java、 などなど) データエンジニアリング (秘伝のたれ解消、再現性 を高める活動、文化の構 築)
@yuki_saito_en データドリブン文化の事情 障壁や変化を起こすポイント 1 5
@yuki_saito_en よし! データドリブンだ 6 データ活用で生産性をあげる(ハードスキルな世界) データ活用の生産性をあげる(ソフトスキルな世界) ≒
@yuki_saito_en データドリブン 「データ活用で生産性をあげる」だけで解決しようとする 7 業務アプリ データ分析基盤 ETL 活用/利用
@yuki_saito_en 8
@yuki_saito_en 9 出典:Gartner (2021年6月)
@yuki_saito_en 人とデータ 10 との戦い データドリブン文化は 活用に向かない
@yuki_saito_en エンジニアリング 11 を使って人や組織に働きかけ改善したい そこで データ
@yuki_saito_en SaaS時代 変化を起こすエンジニアリング着眼ポイント 12 育苗 輸送 仕分け 中継 販売 受取り
調理 10 SaaS SaaS SaaS 理解 品質、ETL データ分 析
@yuki_saito_en 宣伝 10を知るためのおすすめの書籍 13 • データ分析基盤の開発に携わっている方 • より良いデータ活用環境を実現したい方 • エンジニアリングを使ってデータ系開発を成 功させたい方
@yuki_saito_en データドリブンな文化を創る 千里の道も一歩から 2 14
@yuki_saito_en データドリブンファネル 15 継続 文化 発見 試行 理解 納得 社内での活動やコミュニティでの活動でより多くの人を巻き込む
テクニカルな面も含め理解や共通認識がある (通 信不確実性の排除) 小さく、素早く試せる環境がある (アジリティ&アジャイル ) 結果に対して納得感がある (成果不確実性の排除 ) 難しいルールがなく、続けられる (取引コスト(コミュニケーションコスト )の最小化) 当たり前になる (データ活用で/の生産性の向上) ()は内エンジニアリングのポイント
@yuki_saito_en メタデータの整備を通した通信不確実性の排除 データ参画者間の共通言語(共通指標)としてメタデータを利用 自分の頭だけにメタデータを残さないように、後に残るシステムを作る 16 メタデータの調査 メタデータの理解 (言語化) データ活用 データの活用はメタデータの理解から始まる
データ活用 の生産性を 高める 理解
@yuki_saito_en 言語化のプロセス データのテスト 17 Primary Key 重複したデータを発見すること。重 複データは算出結果のノイズや データ。操作の複雑化に繋がるの でビッグデータの世界でも
PKを意 識する。 Dictionary 特定の辞書(Pythonのディクショナ リみたいな)で事前に定義した値に データが収まっているか確認す る。やってみるとボロボロ見つか る。 Record Num テーブルや日々 ETLしているデー タの件数が異常な状態になってい ないかを確認する。処理するデー タが多くなってきた際には一々全 部見切れないので必須 Check Null データのNull具合を確認。内外的 な要因でいきなり Nullが急激に増 えたりする。また、レコード内に Nullが多い場合はETLするかそも そも取り込まないなどすることも検 討する。 Zero Control 足し算の結果など、数値の整合性 が取れていることを確認すること。 エラーとなることは少ないものの 数値の計算にはミスがあると大変 なのでダブルチェックの意味でも 確認する。 Format 特定のフォーマットに沿っているか 確認をすること。 男、女、0、1、郵便番号、社内で利 用している業務用のコードなど。大 抵これらが揃っておらず大いに苦 労する。 データのテストはデータの定義を言語化するプロセスに等しい データ活用 の生産性を 高める 理解
@yuki_saito_en データ品質担保を通した成果不確実性の排除 自身の勘と答え合わせすることにより納得感のアップに繋がるが、 データが間違えていると間違った納得感を生み出す 18 50% くらいだろう 65% 15% くらいだろう
くらいだろう データ活用 の生産性を 高める 納得
@yuki_saito_en もう少し考えてみるデータ品質 19 id 性別 1 男 2 1 3
男 4 女 5 0 6 男 id 性別 1 1 2 1 3 1 4 0 5 0 6 1 検索の条件(where 性別=’男’ や’1’)によっては50%にも15% にもなり得る。どんな条件でも それっぽい結果が出る点が 中々にあくどい。 検索の条件(where 性別=’男’ や’1’)によっては0%か65%と なる。変な検索条件の場合は 人間の違和感を発動させる。 データセット1 データセット2 データ活用 の生産性を 高める 納得
@yuki_saito_en データドリブンな文化を醸成する シンプルな方法で継続する 3 20
@yuki_saito_en 周りの社員の教育と実践を通して組織の情報処理能力を上げる 全員がSQL記述して自身でデータ解釈できるレベルを目指す 21 研修や勉強会 外部研修、内部研修、 勉強会など時間、お金 を人材に投資する。 SQLはもはやエンジニア のものではない。
実践 研修しただけでは、なか なか実際に使えないの が現実 小さな変化を起こし続け 芽がで始めることを期 待 成功体験 データ系組織の小さな 変化や泥臭さも含め、 成功体験から実践を後 押しする。 Excelを使ってXXしてみ たのような経験談の方 が響く場合もある データ活用 の生産性を 高める 理解 試行
@yuki_saito_en 取引コストを最小限にすることを意識する シンプルイズベスト 22 民主化 面倒なプロセスの一つに「データのアクセス権限」がある。 データのアクセス権限に勾配をつけずできる限り平坦にすることを 「データの民主化」と呼んでいる。 人間はめんどくさがりの生き物なので、 •
金曜の夕方に申請とかめんどくさいから来週にしよう • アクセス権が適用されている多くは認知されず利用されない ( 探索をするコストが大きい ) データ活用 の生産性を 高める 試行 継続
@yuki_saito_en レギュレーション(ルール)を作り成果不確実性を減らす 少しづつ関係や文化の芽吹きを感じたらデータ活用を前提とす るようなルールを作る 23 業務アプリとのコラボ 社内で新しく作るプロダクトから発 生するデータ(例えばアクセスログ や分析を前提としたログなど)は データ分析基盤へ取り込むことを
前提に構築やプロセスの設計(KPI 設計など)を行う。 入社時オリエンテーション データ利活用を前提としている会 社なのだと認識してもらうために入 社と共にアカウントを発行する。 入社後研修の内容としてデータ分 析のお試しができると良い。 データ活用 で生産性を 高める 継続
@yuki_saito_en データ活用で生産性高くデータ分析基盤開発をしよう データ分析基盤開発の継続的改善をユーザ起点で 24 Google Form 構造化アンケートの代 表格。手軽に情報を集 めるために必須のツー ル。内容はUX調査の基
本でOK ログ解析/SQL解析 人間の意識に出てこな い情報を引き出すため の源泉になる。 アクセスログでもアクセ スだけでなく、どこでス クロールが途切れたか などを細かくみる。 ユーザインタビュー ログ解析やGoogle Form回答の結果から仮 説を立て、より深く聞き たい部分はデプスイン タビューを行う。 インタビューばかりだと 取引コストが増える データ活用 で生産性を 高める 継続
@yuki_saito_en まとめ エンジニアリングを通して人を知りデータを知ろう 4 25
@yuki_saito_en まとめ エンジニアリングを使って文化の成長にドライブをかけよう 26 メタデータで言語化 言語化の先にデータの理解と活 用がある。メタデータは組織の総 合力。不確実性軽減のためにエン ジニア以外も積極的にデータや事 柄を言語化していこう。
データのテスト 間違えた意思決定を防ぐだけでな く、思わぬ発見や理解に繋がる。 プログラムだけでなく、データも積 極的にテストをしていこう。 シンプルイズベスト 無法地帯とならないように、窮屈 になりすぎないように。現状に合 わせすぎるのではなく、現状を変 えてシンプルなルールを作ってい こう。 人の特性を理解する 人はめんどくさがり。「やってくださ い」ではやってくれない。取引コス トは最低限にルールや仕組みは シンプルになるように元の仕組み を変えることを考えよう。 科学的に人との関係を大切に 簡単なアンケートからでも良いの で事業を進めるヒントを得よう。ま たユーザは優しい嘘をつく。プロダ クトを科学的に改善していこう 教育と実践 研修だけでなく、データ系組織の 成功事例や苦労を積極的に発信 しよう。また、いつでも気軽にデー タに扱える環境を用意して実践で きる環境を作ろう。
@yuki_saito_en ご参考のURL ◉ https://www.kdnuggets.com/2021/05/most-demand-skills-d ata-engineers-2021.html ◉ https://www.amazon.co.jp/-/en/%E6%96%8E%E8%97%A 4-%E5%8F%8B%E6%A8%B9/dp/4297127245/ref=tmm_p ap_swatch_0?_encoding=UTF8&qid=&sr= 27
@yuki_saito_en ありがとう ございました! 28