Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析...
Search
hase-ryo
December 11, 2023
Business
2
280
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
Data Engineering Study #22 5社のデータエンジニアが振り返る2023
https://forkwell.connpass.com/event/299633/
発表資料
hase-ryo
December 11, 2023
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
20230725_データエンジニアに求められるソフトスキル
haseryo
4
5k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
230
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.1k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.8k
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
haseryo
0
270
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
51k
Concept of Data Management
haseryo
1
370
Other Decks in Business
See All in Business
ストーリーテリングでチームに”熱"を伝える🔥
inagakikay
1
10k
コーポレートストーリー(新規投資家様向け会社説明資料)
gatechnologies
1
9.5k
概要
_connect
0
700
なぜ施策優先度を意思決定しなければならないのか? 経験から得た要因と対策
mkitahara01985
2
210
AWS re:Invent参加のリアル 〜女性目線で考える健康・美容・安全のベストプラクティス〜
o2mami
1
320
ログラス会社紹介資料 / Loglass Company Deck
loglass2019
7
250k
re:Infrastructure_for the NextGen AI/ML and Beyond
ichichi
0
150
(16枚)組織と集団の違いとは? 組織の「3要素」とは?
nyattx
PRO
3
2.1k
成功をつなげる プロジェクトマネジメントの探求 / Exploring Project Management to Continuous Success
tunepolo
0
170
会社紹介資料 / ProfileBook
gpol
4
25k
ユビー生成AIの導入・成果事例集イメージ
ubie
0
210
「+ Joy」 初めは熱々だったはずなのに だんだん硬くて冷たくなっていく目標に 血を通わせる工夫_2024年度下期アップデート版
sasakendayo
0
200
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
520
39k
Raft: Consensus for Rubyists
vanstee
137
6.7k
Adopting Sorbet at Scale
ufuk
73
9.1k
Code Review Best Practice
trishagee
65
17k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
Six Lessons from altMBA
skipperchong
27
3.5k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Automating Front-end Workflow
addyosmani
1366
200k
Designing for Performance
lara
604
68k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Transcript
デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展 〜 Agile&FragileからTrust&Robustへ〜 Data Engineering Study #22 5社のデータエンジニアが振り返る2023 2023-12-12 デジタル庁
Fact & Data Unit Data Engineer ⻑⾕川(hase-ryo)
デジタル庁 Fact & Data Unit ⻑⾕川 亮(hase-ryo) • 経歴 ◦ インテージでデータ整備とデータ基盤
◦ Webメディアやリクルートをフラフラしてデータ分析 ◦ メルカリでデータ分析とデータマネジメント ◦ デジタル庁(週4) + メルカリ(週1) &データ経営コンサル『風音屋』アドバイザー • デジタル庁での業務 ◦ Fact & Data Unitでデータ分析基盤の開発・整備 ◦ 社会の基本データ(ベース・レジストリ)のオープンデータ化 ◦ などなど 2 ⾃⼰紹介
• ターゲット ◦ 社内や庁内でデータ分析組織の⽴ち上げとスケールを狙いたい⼈ ▪ データアナリストなどのデータ⼈材 ▪ 経営層 ◦ 今運⽤しているデータ分析基盤をぶっ壊して作り直したい⼈
▪ 課題感をもつデータエンジニア ◦ ⾏政組織におけるデータ活⽤の現状についてふんわり知りたい⼈ • 持ち帰ってほしい知⾒ ◦ 需要を意識してパイプラインを作ること 3 今⽇の話のターゲット
1. デジタル庁でこんなことやってます 2. 中央省庁のデータはどうなっているのか? 3. Agile & Fragileに作るデータパイプライン 4. 期待の⾼まり
5. Trust & Robustなデータパイプラインへ 6. まとめ 利⽤者の期待に追従すること 4 アジェンダ
5 デジタル庁でデータ分析基盤を作っています デジタル庁のデータ分析基盤「 sukuna」 https://digital-gov.note.jp/n/na227ce427930
6 政策データダッシュボードで情報透明化 政策データダッシュボード一覧( https://www.digital.go.jp/resources/govdashboard)
7 そもそも中央省庁のデータってどうなってるの? データの蓄積 データの綺麗さ データの利用状況
8 省庁にデータは溜まっているのか? YES or NO データの蓄積
9 省庁にデータは溜まっているのか? YES であり NO • データが蓄積されているかどうかはまちまち ◦ 統計データは多いがローデータは少ない ◦
委託事業者が所持している場合が多い ◦ 事業者から提供可能かどうかは別問題 • 分析観点でのデータ蓄積は少ない ◦ 分析利用のためには高いハードルがある • Excelの状態で人が見る前提のデータが多い ◦ アンケート形式で収集されるものなど ◦ 稀にAPIからデータ取得可能なものもある データはあるにはある、けど・・。
10 省庁のデータは使いやすい状態か? YES or NO データの綺麗さ
11 省庁のデータは使いやすい状態か? ほとんどの場合でNO • 人が見る前提のExcelデータ = 機械可読性が低い ◦ いわゆる神Excelなど・・・ ◦ 公開することが目的化したPDF形式もある •
総務省が機械可読性の高いExcel形式を推奨する ガイドラインを公開してはいるが浸透していない ◦ 統計表における機械判読可能なデータ作成に関する表記方法について (https://www.soumu.go.jp/main_content/000723697.pdf) • 委託事業者の持っているデータはサービス提供観点 ◦ 分析観点では一歩足りないことが多い 神Excelを浄化してCSVにするのは まぁ面倒くさい
12 省庁のデータ活⽤は進んでいるか? YES or NO データの利用状況
13 省庁のデータ活⽤は進んでいるか? まだまだNOが多い • データが使いにくいので活用も進まない ◦ さらにKPIの振り返りなど、データを見る制度自体少な い ◦ データは危険なものという慎重な姿勢 ◦
たまに政策の効果検証などで単発的に実施される • 一部の省庁では進んでいるが全体的にはまだまだ データ活用はあっても細々
14 中央省庁のデータ データの蓄積 まちまち データの綺麗さ 使いにくい データの利用状況 進んでない
15 この状態で『EBPM』やるにはどうすれば‧‧‧?
16 とにかく『使える』『活⽤できる』ことを優先! • まずはデータによる便益を人々に届ける! ◦ ターゲットは政策を実施している官僚など ◦ データを使ったことがない、使うシーンがないのに データの上流に気が配られることはない •
データの集めにくさ、汚さには目を瞑る ◦ ・・というか人の手で一旦解決する • とにかくデータ活用が「アタリマエ」になるように 価値を実感することが大事
17 Agileに、Fragileでもパイプラインを敷く→sukuna誕⽣ • GCPでシュッと作りました ◦ 1プロジェクトで完結 • Cloud functionでデータ取り込み&クリーニング ◦
データの機械可読性の低さはここでケアする ◦ 人力でExcel加工している部分もあり • データレイク/データウェアハウス/データマートは BigQuery ◦ じゃんじゃんクエリを回して試行錯誤する • データPMが一時データのアップロード→加工→ダッシュ ボード作成まで行える権限をもつ ◦ データ所持者やデータ利用者との調整と並行業務 ◦ 安定してきたらdbtなどで機械にバトンタッチ まずはデータが流れること優先!
18 データ活⽤がデジタル庁内で徐々に広まり始めた! →冒頭の成果に繋がっていく
19 EBPMへの期待が⾼まりつつある 議長の岸田総理と河野デジタル大臣 • 総理大臣が議長の「デジタル行財政改革会議」で EBPMに言及 ◦ ダッシュボード等で「見える化」を徹底せよ ◦ ROIや効果検証の前にまずモニタリングせよ
• データを行政内で負担なく取得できる仕組み構築 ◦ データ取得方法の刷新! ◦ データ分析の共通基盤化! ◦ データの標準化!
20 やばい! これで耐えれんのか!?
21 今後はTrustかつRobustなデータ分析基盤が求められる がっしり・どっしり、安定と信頼を確保するパイプライン • パイプラインへの期待値の変化 ◦ データ活用に資することは大前提 ◦ 安定して使い続けられる ◦
信頼してデータを預けられる ◦ 取得方法への柔軟な対応 ◦ 人ではなく仕組み・システムで 担保する安全性 ◦ メンテナンス性の高さ • データ分析基盤のリアーキテクチャが 進行中 ◦ 鋭意開発中です
22 まとめ 利⽤者の期待値の変化に追従しよう Agile & Fragile Trust & Robust 素早く柔軟な価値創出が求められる 安定性と信頼性が求められる
事業や組織のPhase
23 まとめ 時には⼤胆にパイプラインを作り替える 東京都水道歴史館にて撮影 御茶ノ水駅から徒歩 5分、入館無料 江戸時代の水道 木製の樋が地中を走っていた 明治時代に入り期待値が変化 「もう少し立派な水道にしなければ」 明治期の鋼鉄製の水道管
手前のものは令和にも現役
デジタル庁で採⽤やってます 24 ついでに宣伝! 「デジタル庁」「採用」で検索!
None