Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析...
Search
hase-ryo
December 11, 2023
Business
2
400
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
Data Engineering Study #22 5社のデータエンジニアが振り返る2023
https://forkwell.connpass.com/event/299633/
発表資料
hase-ryo
December 11, 2023
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
デジタル庁のデータ分析基盤におけるdbtの活用
haseryo
1
150
20230725_データエンジニアに求められるソフトスキル
haseryo
5
5.2k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
250
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.3k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.8k
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
haseryo
0
330
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
52k
Concept of Data Management
haseryo
1
430
Other Decks in Business
See All in Business
TSI_会社案内
tsi_saiyou
1
100k
株式会社 Laboro.AI 会社紹介資料
laboroai2016
0
450
unnameカルチャーブック 2025.06.09 update
unnameinc
7
21k
グラハム株式会社_採用ピッチ_20241225__1__compressed.pdf
shu30
0
120
型作り&出口戦略による成果創出〜分析組織立ち上げ半年間の取り組み〜_データ現場のリアルな知恵と工夫@20250529
fuki9216
0
250
Unito_COMPANY DECK_2025
unito
0
300
The “AI×UX Explorer” – From AI Theatre to UX Magic #UXCE25
bennoloewenberg
1
160
BFM Company Deck
bfm
0
520
エンジニアの紹介
laboroai2016
0
120
20250613_CMC_2025_A3
hideki_ojima
0
170
別業種から医療業界に入ったPMの悩みと歩き方 / healthtech meetup-vol.1
medley
0
370
LW_brochure_business
lincwellhr
1
57k
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
53
11k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
650
Building Applications with DynamoDB
mza
95
6.4k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
900
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Scaling GitHub
holman
459
140k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.6k
Making Projects Easy
brettharned
116
6.2k
Done Done
chrislema
184
16k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Designing Experiences People Love
moore
142
24k
Faster Mobile Websites
deanohume
307
31k
Transcript
デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展 〜 Agile&FragileからTrust&Robustへ〜 Data Engineering Study #22 5社のデータエンジニアが振り返る2023 2023-12-12 デジタル庁
Fact & Data Unit Data Engineer ⻑⾕川(hase-ryo)
デジタル庁 Fact & Data Unit ⻑⾕川 亮(hase-ryo) • 経歴 ◦ インテージでデータ整備とデータ基盤
◦ Webメディアやリクルートをフラフラしてデータ分析 ◦ メルカリでデータ分析とデータマネジメント ◦ デジタル庁(週4) + メルカリ(週1) &データ経営コンサル『風音屋』アドバイザー • デジタル庁での業務 ◦ Fact & Data Unitでデータ分析基盤の開発・整備 ◦ 社会の基本データ(ベース・レジストリ)のオープンデータ化 ◦ などなど 2 ⾃⼰紹介
• ターゲット ◦ 社内や庁内でデータ分析組織の⽴ち上げとスケールを狙いたい⼈ ▪ データアナリストなどのデータ⼈材 ▪ 経営層 ◦ 今運⽤しているデータ分析基盤をぶっ壊して作り直したい⼈
▪ 課題感をもつデータエンジニア ◦ ⾏政組織におけるデータ活⽤の現状についてふんわり知りたい⼈ • 持ち帰ってほしい知⾒ ◦ 需要を意識してパイプラインを作ること 3 今⽇の話のターゲット
1. デジタル庁でこんなことやってます 2. 中央省庁のデータはどうなっているのか? 3. Agile & Fragileに作るデータパイプライン 4. 期待の⾼まり
5. Trust & Robustなデータパイプラインへ 6. まとめ 利⽤者の期待に追従すること 4 アジェンダ
5 デジタル庁でデータ分析基盤を作っています デジタル庁のデータ分析基盤「 sukuna」 https://digital-gov.note.jp/n/na227ce427930
6 政策データダッシュボードで情報透明化 政策データダッシュボード一覧( https://www.digital.go.jp/resources/govdashboard)
7 そもそも中央省庁のデータってどうなってるの? データの蓄積 データの綺麗さ データの利用状況
8 省庁にデータは溜まっているのか? YES or NO データの蓄積
9 省庁にデータは溜まっているのか? YES であり NO • データが蓄積されているかどうかはまちまち ◦ 統計データは多いがローデータは少ない ◦
委託事業者が所持している場合が多い ◦ 事業者から提供可能かどうかは別問題 • 分析観点でのデータ蓄積は少ない ◦ 分析利用のためには高いハードルがある • Excelの状態で人が見る前提のデータが多い ◦ アンケート形式で収集されるものなど ◦ 稀にAPIからデータ取得可能なものもある データはあるにはある、けど・・。
10 省庁のデータは使いやすい状態か? YES or NO データの綺麗さ
11 省庁のデータは使いやすい状態か? ほとんどの場合でNO • 人が見る前提のExcelデータ = 機械可読性が低い ◦ いわゆる神Excelなど・・・ ◦ 公開することが目的化したPDF形式もある •
総務省が機械可読性の高いExcel形式を推奨する ガイドラインを公開してはいるが浸透していない ◦ 統計表における機械判読可能なデータ作成に関する表記方法について (https://www.soumu.go.jp/main_content/000723697.pdf) • 委託事業者の持っているデータはサービス提供観点 ◦ 分析観点では一歩足りないことが多い 神Excelを浄化してCSVにするのは まぁ面倒くさい
12 省庁のデータ活⽤は進んでいるか? YES or NO データの利用状況
13 省庁のデータ活⽤は進んでいるか? まだまだNOが多い • データが使いにくいので活用も進まない ◦ さらにKPIの振り返りなど、データを見る制度自体少な い ◦ データは危険なものという慎重な姿勢 ◦
たまに政策の効果検証などで単発的に実施される • 一部の省庁では進んでいるが全体的にはまだまだ データ活用はあっても細々
14 中央省庁のデータ データの蓄積 まちまち データの綺麗さ 使いにくい データの利用状況 進んでない
15 この状態で『EBPM』やるにはどうすれば‧‧‧?
16 とにかく『使える』『活⽤できる』ことを優先! • まずはデータによる便益を人々に届ける! ◦ ターゲットは政策を実施している官僚など ◦ データを使ったことがない、使うシーンがないのに データの上流に気が配られることはない •
データの集めにくさ、汚さには目を瞑る ◦ ・・というか人の手で一旦解決する • とにかくデータ活用が「アタリマエ」になるように 価値を実感することが大事
17 Agileに、Fragileでもパイプラインを敷く→sukuna誕⽣ • GCPでシュッと作りました ◦ 1プロジェクトで完結 • Cloud functionでデータ取り込み&クリーニング ◦
データの機械可読性の低さはここでケアする ◦ 人力でExcel加工している部分もあり • データレイク/データウェアハウス/データマートは BigQuery ◦ じゃんじゃんクエリを回して試行錯誤する • データPMが一時データのアップロード→加工→ダッシュ ボード作成まで行える権限をもつ ◦ データ所持者やデータ利用者との調整と並行業務 ◦ 安定してきたらdbtなどで機械にバトンタッチ まずはデータが流れること優先!
18 データ活⽤がデジタル庁内で徐々に広まり始めた! →冒頭の成果に繋がっていく
19 EBPMへの期待が⾼まりつつある 議長の岸田総理と河野デジタル大臣 • 総理大臣が議長の「デジタル行財政改革会議」で EBPMに言及 ◦ ダッシュボード等で「見える化」を徹底せよ ◦ ROIや効果検証の前にまずモニタリングせよ
• データを行政内で負担なく取得できる仕組み構築 ◦ データ取得方法の刷新! ◦ データ分析の共通基盤化! ◦ データの標準化!
20 やばい! これで耐えれんのか!?
21 今後はTrustかつRobustなデータ分析基盤が求められる がっしり・どっしり、安定と信頼を確保するパイプライン • パイプラインへの期待値の変化 ◦ データ活用に資することは大前提 ◦ 安定して使い続けられる ◦
信頼してデータを預けられる ◦ 取得方法への柔軟な対応 ◦ 人ではなく仕組み・システムで 担保する安全性 ◦ メンテナンス性の高さ • データ分析基盤のリアーキテクチャが 進行中 ◦ 鋭意開発中です
22 まとめ 利⽤者の期待値の変化に追従しよう Agile & Fragile Trust & Robust 素早く柔軟な価値創出が求められる 安定性と信頼性が求められる
事業や組織のPhase
23 まとめ 時には⼤胆にパイプラインを作り替える 東京都水道歴史館にて撮影 御茶ノ水駅から徒歩 5分、入館無料 江戸時代の水道 木製の樋が地中を走っていた 明治時代に入り期待値が変化 「もう少し立派な水道にしなければ」 明治期の鋼鉄製の水道管
手前のものは令和にも現役
デジタル庁で採⽤やってます 24 ついでに宣伝! 「デジタル庁」「採用」で検索!
None