Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データエンジニアと作るデータ文化
Search
Yuki
June 25, 2022
Technology
5
2.8k
データエンジニアと作るデータ文化
オープンセミナー広島2022での登壇資料です。
当日のライブ配信です。
Youtube
https://www.youtube.com/watch?v=XgVbZZyoFxQ
Yuki
June 25, 2022
Tweet
Share
More Decks by Yuki
See All by Yuki
品質特性から眺める データ分析基盤入門
yuki_saito
4
400
Pythonとsparkで学ぶpyspark 速習講座
yuki_saito
2
210
AWS データレイク事例祭り 登壇資料
yuki_saito
7
3.5k
Data Platform
yuki_saito
1
370
ミライのデータエンジニア
yuki_saito
1
910
Other Decks in Technology
See All in Technology
NilAway による静的解析で「10 億ドル」を節約する #kyotogo / Kyoto Go 56th
ytaka23
3
380
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
130
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
290
10個のフィルタをAXI4-Streamでつなげてみた
marsee101
0
170
20241214_WACATE2024冬_テスト設計技法をチョット俯瞰してみよう
kzsuzuki
3
540
AI時代のデータセンターネットワーク
lycorptech_jp
PRO
1
290
UI State設計とテスト方針
rmakiyama
2
620
Amazon VPC Lattice 最新アップデート紹介 - PrivateLink も似たようなアップデートあったけど違いとは
bigmuramura
0
200
DUSt3R, MASt3R, MASt3R-SfM にみる3D基盤モデル
spatial_ai_network
2
180
複雑性の高いオブジェクト編集に向き合う: プラガブルなReactフォーム設計
righttouch
PRO
0
120
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
170
1等無人航空機操縦士一発試験 合格までの道のり ドローンミートアップ@大阪 2024/12/18
excdinc
0
170
Featured
See All Featured
A designer walks into a library…
pauljervisheath
204
24k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Unsuck your backbone
ammeep
669
57k
Navigating Team Friction
lara
183
15k
A Philosophy of Restraint
colly
203
16k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.9k
Building an army of robots
kneath
302
44k
Code Reviewing Like a Champion
maltzj
520
39k
The World Runs on Bad Software
bkeepers
PRO
65
11k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
Transcript
データエンジニア”と”作る データ文化 6/25 オープンセミナー2022@広島 YUKI SAITO
@yuki_saito_en 斎藤 友樹(SAITO YUKI) システムでも野菜でもお菓子でも作ることが好きです 2 https://menta.work/plan/2650 https://www.udemy.com/user/yuki-saito-7/ @yuki_saito_en https://service.visasq.com/users/6078548267368448
@yuki_saito_en データプロフェッショナルとしての データエンジニアの活躍場面は多岐に渡る 3 データ活用 ETL データ理解 (ビジネスメタ データ) データパイプラ
イン データマート データ分析 ETL データアクセス の提供 BI NoteBook etc… データ品質 データテスト 育苗 輸送 仕分け 中継 販売 受取り 調理 データモデリング
@yuki_saito_en データエンジニアとエンジニア 組織や文化を戦略的に作るところに視点が置かれているかどうか 4 エンジニア データエンジニア テクニカル (Python、Java、 などなど) テクニカル
(Python、Java、 などなど) データエンジニアリング (秘伝のたれ解消、再現性 を高める活動、文化の構 築)
@yuki_saito_en データドリブン文化の事情 障壁や変化を起こすポイント 1 5
@yuki_saito_en よし! データドリブンだ 6 データ活用で生産性をあげる(ハードスキルな世界) データ活用の生産性をあげる(ソフトスキルな世界) ≒
@yuki_saito_en データドリブン 「データ活用で生産性をあげる」だけで解決しようとする 7 業務アプリ データ分析基盤 ETL 活用/利用
@yuki_saito_en 8
@yuki_saito_en 9 出典:Gartner (2021年6月)
@yuki_saito_en 人とデータ 10 との戦い データドリブン文化は 活用に向かない
@yuki_saito_en エンジニアリング 11 を使って人や組織に働きかけ改善したい そこで データ
@yuki_saito_en SaaS時代 変化を起こすエンジニアリング着眼ポイント 12 育苗 輸送 仕分け 中継 販売 受取り
調理 10 SaaS SaaS SaaS 理解 品質、ETL データ分 析
@yuki_saito_en 宣伝 10を知るためのおすすめの書籍 13 • データ分析基盤の開発に携わっている方 • より良いデータ活用環境を実現したい方 • エンジニアリングを使ってデータ系開発を成 功させたい方
@yuki_saito_en データドリブンな文化を創る 千里の道も一歩から 2 14
@yuki_saito_en データドリブンファネル 15 継続 文化 発見 試行 理解 納得 社内での活動やコミュニティでの活動でより多くの人を巻き込む
テクニカルな面も含め理解や共通認識がある (通 信不確実性の排除) 小さく、素早く試せる環境がある (アジリティ&アジャイル ) 結果に対して納得感がある (成果不確実性の排除 ) 難しいルールがなく、続けられる (取引コスト(コミュニケーションコスト )の最小化) 当たり前になる (データ活用で/の生産性の向上) ()は内エンジニアリングのポイント
@yuki_saito_en メタデータの整備を通した通信不確実性の排除 データ参画者間の共通言語(共通指標)としてメタデータを利用 自分の頭だけにメタデータを残さないように、後に残るシステムを作る 16 メタデータの調査 メタデータの理解 (言語化) データ活用 データの活用はメタデータの理解から始まる
データ活用 の生産性を 高める 理解
@yuki_saito_en 言語化のプロセス データのテスト 17 Primary Key 重複したデータを発見すること。重 複データは算出結果のノイズや データ。操作の複雑化に繋がるの でビッグデータの世界でも
PKを意 識する。 Dictionary 特定の辞書(Pythonのディクショナ リみたいな)で事前に定義した値に データが収まっているか確認す る。やってみるとボロボロ見つか る。 Record Num テーブルや日々 ETLしているデー タの件数が異常な状態になってい ないかを確認する。処理するデー タが多くなってきた際には一々全 部見切れないので必須 Check Null データのNull具合を確認。内外的 な要因でいきなり Nullが急激に増 えたりする。また、レコード内に Nullが多い場合はETLするかそも そも取り込まないなどすることも検 討する。 Zero Control 足し算の結果など、数値の整合性 が取れていることを確認すること。 エラーとなることは少ないものの 数値の計算にはミスがあると大変 なのでダブルチェックの意味でも 確認する。 Format 特定のフォーマットに沿っているか 確認をすること。 男、女、0、1、郵便番号、社内で利 用している業務用のコードなど。大 抵これらが揃っておらず大いに苦 労する。 データのテストはデータの定義を言語化するプロセスに等しい データ活用 の生産性を 高める 理解
@yuki_saito_en データ品質担保を通した成果不確実性の排除 自身の勘と答え合わせすることにより納得感のアップに繋がるが、 データが間違えていると間違った納得感を生み出す 18 50% くらいだろう 65% 15% くらいだろう
くらいだろう データ活用 の生産性を 高める 納得
@yuki_saito_en もう少し考えてみるデータ品質 19 id 性別 1 男 2 1 3
男 4 女 5 0 6 男 id 性別 1 1 2 1 3 1 4 0 5 0 6 1 検索の条件(where 性別=’男’ や’1’)によっては50%にも15% にもなり得る。どんな条件でも それっぽい結果が出る点が 中々にあくどい。 検索の条件(where 性別=’男’ や’1’)によっては0%か65%と なる。変な検索条件の場合は 人間の違和感を発動させる。 データセット1 データセット2 データ活用 の生産性を 高める 納得
@yuki_saito_en データドリブンな文化を醸成する シンプルな方法で継続する 3 20
@yuki_saito_en 周りの社員の教育と実践を通して組織の情報処理能力を上げる 全員がSQL記述して自身でデータ解釈できるレベルを目指す 21 研修や勉強会 外部研修、内部研修、 勉強会など時間、お金 を人材に投資する。 SQLはもはやエンジニア のものではない。
実践 研修しただけでは、なか なか実際に使えないの が現実 小さな変化を起こし続け 芽がで始めることを期 待 成功体験 データ系組織の小さな 変化や泥臭さも含め、 成功体験から実践を後 押しする。 Excelを使ってXXしてみ たのような経験談の方 が響く場合もある データ活用 の生産性を 高める 理解 試行
@yuki_saito_en 取引コストを最小限にすることを意識する シンプルイズベスト 22 民主化 面倒なプロセスの一つに「データのアクセス権限」がある。 データのアクセス権限に勾配をつけずできる限り平坦にすることを 「データの民主化」と呼んでいる。 人間はめんどくさがりの生き物なので、 •
金曜の夕方に申請とかめんどくさいから来週にしよう • アクセス権が適用されている多くは認知されず利用されない ( 探索をするコストが大きい ) データ活用 の生産性を 高める 試行 継続
@yuki_saito_en レギュレーション(ルール)を作り成果不確実性を減らす 少しづつ関係や文化の芽吹きを感じたらデータ活用を前提とす るようなルールを作る 23 業務アプリとのコラボ 社内で新しく作るプロダクトから発 生するデータ(例えばアクセスログ や分析を前提としたログなど)は データ分析基盤へ取り込むことを
前提に構築やプロセスの設計(KPI 設計など)を行う。 入社時オリエンテーション データ利活用を前提としている会 社なのだと認識してもらうために入 社と共にアカウントを発行する。 入社後研修の内容としてデータ分 析のお試しができると良い。 データ活用 で生産性を 高める 継続
@yuki_saito_en データ活用で生産性高くデータ分析基盤開発をしよう データ分析基盤開発の継続的改善をユーザ起点で 24 Google Form 構造化アンケートの代 表格。手軽に情報を集 めるために必須のツー ル。内容はUX調査の基
本でOK ログ解析/SQL解析 人間の意識に出てこな い情報を引き出すため の源泉になる。 アクセスログでもアクセ スだけでなく、どこでス クロールが途切れたか などを細かくみる。 ユーザインタビュー ログ解析やGoogle Form回答の結果から仮 説を立て、より深く聞き たい部分はデプスイン タビューを行う。 インタビューばかりだと 取引コストが増える データ活用 で生産性を 高める 継続
@yuki_saito_en まとめ エンジニアリングを通して人を知りデータを知ろう 4 25
@yuki_saito_en まとめ エンジニアリングを使って文化の成長にドライブをかけよう 26 メタデータで言語化 言語化の先にデータの理解と活 用がある。メタデータは組織の総 合力。不確実性軽減のためにエン ジニア以外も積極的にデータや事 柄を言語化していこう。
データのテスト 間違えた意思決定を防ぐだけでな く、思わぬ発見や理解に繋がる。 プログラムだけでなく、データも積 極的にテストをしていこう。 シンプルイズベスト 無法地帯とならないように、窮屈 になりすぎないように。現状に合 わせすぎるのではなく、現状を変 えてシンプルなルールを作ってい こう。 人の特性を理解する 人はめんどくさがり。「やってくださ い」ではやってくれない。取引コス トは最低限にルールや仕組みは シンプルになるように元の仕組み を変えることを考えよう。 科学的に人との関係を大切に 簡単なアンケートからでも良いの で事業を進めるヒントを得よう。ま たユーザは優しい嘘をつく。プロダ クトを科学的に改善していこう 教育と実践 研修だけでなく、データ系組織の 成功事例や苦労を積極的に発信 しよう。また、いつでも気軽にデー タに扱える環境を用意して実践で きる環境を作ろう。
@yuki_saito_en ご参考のURL ◉ https://www.kdnuggets.com/2021/05/most-demand-skills-d ata-engineers-2021.html ◉ https://www.amazon.co.jp/-/en/%E6%96%8E%E8%97%A 4-%E5%8F%8B%E6%A8%B9/dp/4297127245/ref=tmm_p ap_swatch_0?_encoding=UTF8&qid=&sr= 27
@yuki_saito_en ありがとう ございました! 28