Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析...
Search
hase-ryo
December 11, 2023
Business
2
260
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
Data Engineering Study #22 5社のデータエンジニアが振り返る2023
https://forkwell.connpass.com/event/299633/
発表資料
hase-ryo
December 11, 2023
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
20230725_データエンジニアに求められるソフトスキル
haseryo
4
5k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
230
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.1k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.7k
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
haseryo
0
270
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
51k
Concept of Data Management
haseryo
1
360
Other Decks in Business
See All in Business
東京都ツキノワグマ目撃等情報マップ
tokyo_metropolitan_gov_digital_hr
0
290
enechain company deck
enechain
PRO
7
90k
Ampersand Company Profile
cuebicventures
PRO
0
250
採用ピッチ資料
beglobal_document
0
340
三井物産グループのデジタル証券〜三井物産グループのデジタル証券〜三重・イオンタウン鈴鹿〜徹底解説セミナースライド(20241023)
c0rp_mdm
0
2.5k
3次元データを用いた差分解析による工事発注への取組
tokyo_metropolitan_gov_digital_hr
0
390
新しい社員の組織適応を 支える3つの要素とプロセス / Three elements and processes of organizational adaptation
tbpgr
0
220
サスメド株式会社 Culture Deck
susmed
0
37k
コーチ・エィ_会社紹介資料
coacha
1
990
採用資料
daichihayashi
0
270
株式会社Rehab for JAPAN会社概要
rehabrecruiting
4
67k
Nstock 採用資料 / We are hiring
nstock
26
250k
Featured
See All Featured
KATA
mclloyd
29
14k
Navigating Team Friction
lara
183
14k
Embracing the Ebb and Flow
colly
84
4.5k
The Invisible Side of Design
smashingmag
298
50k
Typedesign – Prime Four
hannesfritz
40
2.4k
Agile that works and the tools we love
rasmusluckow
327
21k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
How GitHub (no longer) Works
holman
310
140k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
93
16k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Transcript
デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展 〜 Agile&FragileからTrust&Robustへ〜 Data Engineering Study #22 5社のデータエンジニアが振り返る2023 2023-12-12 デジタル庁
Fact & Data Unit Data Engineer ⻑⾕川(hase-ryo)
デジタル庁 Fact & Data Unit ⻑⾕川 亮(hase-ryo) • 経歴 ◦ インテージでデータ整備とデータ基盤
◦ Webメディアやリクルートをフラフラしてデータ分析 ◦ メルカリでデータ分析とデータマネジメント ◦ デジタル庁(週4) + メルカリ(週1) &データ経営コンサル『風音屋』アドバイザー • デジタル庁での業務 ◦ Fact & Data Unitでデータ分析基盤の開発・整備 ◦ 社会の基本データ(ベース・レジストリ)のオープンデータ化 ◦ などなど 2 ⾃⼰紹介
• ターゲット ◦ 社内や庁内でデータ分析組織の⽴ち上げとスケールを狙いたい⼈ ▪ データアナリストなどのデータ⼈材 ▪ 経営層 ◦ 今運⽤しているデータ分析基盤をぶっ壊して作り直したい⼈
▪ 課題感をもつデータエンジニア ◦ ⾏政組織におけるデータ活⽤の現状についてふんわり知りたい⼈ • 持ち帰ってほしい知⾒ ◦ 需要を意識してパイプラインを作ること 3 今⽇の話のターゲット
1. デジタル庁でこんなことやってます 2. 中央省庁のデータはどうなっているのか? 3. Agile & Fragileに作るデータパイプライン 4. 期待の⾼まり
5. Trust & Robustなデータパイプラインへ 6. まとめ 利⽤者の期待に追従すること 4 アジェンダ
5 デジタル庁でデータ分析基盤を作っています デジタル庁のデータ分析基盤「 sukuna」 https://digital-gov.note.jp/n/na227ce427930
6 政策データダッシュボードで情報透明化 政策データダッシュボード一覧( https://www.digital.go.jp/resources/govdashboard)
7 そもそも中央省庁のデータってどうなってるの? データの蓄積 データの綺麗さ データの利用状況
8 省庁にデータは溜まっているのか? YES or NO データの蓄積
9 省庁にデータは溜まっているのか? YES であり NO • データが蓄積されているかどうかはまちまち ◦ 統計データは多いがローデータは少ない ◦
委託事業者が所持している場合が多い ◦ 事業者から提供可能かどうかは別問題 • 分析観点でのデータ蓄積は少ない ◦ 分析利用のためには高いハードルがある • Excelの状態で人が見る前提のデータが多い ◦ アンケート形式で収集されるものなど ◦ 稀にAPIからデータ取得可能なものもある データはあるにはある、けど・・。
10 省庁のデータは使いやすい状態か? YES or NO データの綺麗さ
11 省庁のデータは使いやすい状態か? ほとんどの場合でNO • 人が見る前提のExcelデータ = 機械可読性が低い ◦ いわゆる神Excelなど・・・ ◦ 公開することが目的化したPDF形式もある •
総務省が機械可読性の高いExcel形式を推奨する ガイドラインを公開してはいるが浸透していない ◦ 統計表における機械判読可能なデータ作成に関する表記方法について (https://www.soumu.go.jp/main_content/000723697.pdf) • 委託事業者の持っているデータはサービス提供観点 ◦ 分析観点では一歩足りないことが多い 神Excelを浄化してCSVにするのは まぁ面倒くさい
12 省庁のデータ活⽤は進んでいるか? YES or NO データの利用状況
13 省庁のデータ活⽤は進んでいるか? まだまだNOが多い • データが使いにくいので活用も進まない ◦ さらにKPIの振り返りなど、データを見る制度自体少な い ◦ データは危険なものという慎重な姿勢 ◦
たまに政策の効果検証などで単発的に実施される • 一部の省庁では進んでいるが全体的にはまだまだ データ活用はあっても細々
14 中央省庁のデータ データの蓄積 まちまち データの綺麗さ 使いにくい データの利用状況 進んでない
15 この状態で『EBPM』やるにはどうすれば‧‧‧?
16 とにかく『使える』『活⽤できる』ことを優先! • まずはデータによる便益を人々に届ける! ◦ ターゲットは政策を実施している官僚など ◦ データを使ったことがない、使うシーンがないのに データの上流に気が配られることはない •
データの集めにくさ、汚さには目を瞑る ◦ ・・というか人の手で一旦解決する • とにかくデータ活用が「アタリマエ」になるように 価値を実感することが大事
17 Agileに、Fragileでもパイプラインを敷く→sukuna誕⽣ • GCPでシュッと作りました ◦ 1プロジェクトで完結 • Cloud functionでデータ取り込み&クリーニング ◦
データの機械可読性の低さはここでケアする ◦ 人力でExcel加工している部分もあり • データレイク/データウェアハウス/データマートは BigQuery ◦ じゃんじゃんクエリを回して試行錯誤する • データPMが一時データのアップロード→加工→ダッシュ ボード作成まで行える権限をもつ ◦ データ所持者やデータ利用者との調整と並行業務 ◦ 安定してきたらdbtなどで機械にバトンタッチ まずはデータが流れること優先!
18 データ活⽤がデジタル庁内で徐々に広まり始めた! →冒頭の成果に繋がっていく
19 EBPMへの期待が⾼まりつつある 議長の岸田総理と河野デジタル大臣 • 総理大臣が議長の「デジタル行財政改革会議」で EBPMに言及 ◦ ダッシュボード等で「見える化」を徹底せよ ◦ ROIや効果検証の前にまずモニタリングせよ
• データを行政内で負担なく取得できる仕組み構築 ◦ データ取得方法の刷新! ◦ データ分析の共通基盤化! ◦ データの標準化!
20 やばい! これで耐えれんのか!?
21 今後はTrustかつRobustなデータ分析基盤が求められる がっしり・どっしり、安定と信頼を確保するパイプライン • パイプラインへの期待値の変化 ◦ データ活用に資することは大前提 ◦ 安定して使い続けられる ◦
信頼してデータを預けられる ◦ 取得方法への柔軟な対応 ◦ 人ではなく仕組み・システムで 担保する安全性 ◦ メンテナンス性の高さ • データ分析基盤のリアーキテクチャが 進行中 ◦ 鋭意開発中です
22 まとめ 利⽤者の期待値の変化に追従しよう Agile & Fragile Trust & Robust 素早く柔軟な価値創出が求められる 安定性と信頼性が求められる
事業や組織のPhase
23 まとめ 時には⼤胆にパイプラインを作り替える 東京都水道歴史館にて撮影 御茶ノ水駅から徒歩 5分、入館無料 江戸時代の水道 木製の樋が地中を走っていた 明治時代に入り期待値が変化 「もう少し立派な水道にしなければ」 明治期の鋼鉄製の水道管
手前のものは令和にも現役
デジタル庁で採⽤やってます 24 ついでに宣伝! 「デジタル庁」「採用」で検索!
None