Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Engineering Study #16/メタデータは地味だが役に立つ

atama plus
October 19, 2022

Data Engineering Study #16/メタデータは地味だが役に立つ

2022年10月19日に開催された「Data Engineering Study #16 データカタログ入門」にて弊社の内藤(@jonnojun)が登壇しました。

▼開発チームの情報発信リンク集
https://linktr.ee/atama_plus_dev

atama plus

October 19, 2022
Tweet

More Decks by atama plus

Other Decks in Programming

Transcript

  1. ⓒ 2020 atama plus Inc. 自己紹介 所属 atama plus株式会社 職種

    データサイエンティスト 今の主なお仕事 データで良しなに素敵なサムシングを出す (施策効果検証、因果探索、データ基盤整備、その他データに関すること全部) 好きなモノ よなよなエール、ダーツ、物理・天⽂学 2 内藤 純 @jonnojun
  2. ⓒ 2022 atama plus Inc. 今⽇話すこと 1. atama plusって何の会社? 2.

    なぜメタデータが必要だったのか? 3. 具体的に何をやったの? 4. 結果どうなったのか? 3 メタデータは地味だが役に⽴つ
  3. ⓒ 2022 atama plus Inc. 会社概要 6 atama plusとは 社名

    atama plus株式会社 代表者 稲⽥ ⼤輔 設⽴ 2017年4⽉3⽇ 社員数 200名(2022年3⽉現在) 資⾦ 調達額 107億円 事業 内容 AI(⼈⼯知能)を活⽤した 教育プロダクトの開発および 提供
  4. ⓒ 2022 atama plus Inc. 塾を通して⽣徒にサービスを届ける事業モデル (BtoBtoC) 8 ⽣徒 塾・予備校

    *atama+利⽤料以外の費⽤も含む 教材システム (SaaS) atama+を 使った授業 atama plusとは
  5. ⓒ 2022 atama plus Inc. (旧)atama plusにおけるデータ基盤の実態 10 背景と課題:なぜメタデータ管理? とりあえず

    GDriveへ! プロダクト とりあえず転送! ほんの少しデータマート化 外部データ その場限りの分析が繰り返され、データ基盤はほぼ未開の地の状態 ダッシュボード DWH ローカルで分析! ・A塾_成績_old.xslx ・B塾_分析_v1.xslx ・A塾_分析_v2.xslx ・【最新】A塾_分析_v2.xslx ・20220401_C塾_分析_v2.xslx
  6. ⓒ 2022 atama plus Inc. これまでのatama plusにおけるデータ活⽤基盤の実情 11 • BigQueryは⼀応導⼊されているが定常的な利⽤者は社内で数名程度

    ◦ データの転送料⾦のほうが10倍くらいコストが⾼い状態 • データウェアハウスはお気持ち程度だけある状態 ◦ 数名の分析者だけが使う便利テーブル。当然ほぼみんな知らない • データに関するドメイン知識は極⼀部の⼈に属⼈化している ◦ 分析したくてもまず何がどこにあるのかわからない • このような実態に対する問題意識の⽋如、及び統制する⼈が不在 ◦ データエンジニアが採⽤できない! 背景と課題:なぜメタデータ管理?
  7. ⓒ 2022 atama plus Inc. これまでのatama plusにおけるデータ活⽤基盤の実情 12 背景と課題:なぜメタデータ管理? •

    データ活⽤をするためにはデータ基盤をもっと整え るべき • 書き捨てのクエリ、アドホックなエクセル分析はや めてちゃんとナレッジ蓄積するべき • ドメイン知識やデータ出し作業、分析業務が 属⼈化しているのは組織としてスケールしないから 標準化するような仕組みがあるべき データ分析者の⼈
  8. ⓒ 2022 atama plus Inc. 聞いてわかった社内でデータ活⽤を阻む壁 17 1. やりたい分析はあるけど必要なデータがどこにあるかわからん 2.

    データの定義がよくわからん 3. 品質担保されているのかよくわからん 4. テーブルJOINしまくるのめんどくせぇ 5. SQLの書き⽅がそもそもわからん 6. 他⼈の書いたクソ⻑いSQLとかまじでわからん 7. これセキュリティ的に⼤丈夫?? イケてるデータドリブンカンパニーになるためにやったこと
  9. ⓒ 2022 atama plus Inc. 聞いてわかった社内でデータ活⽤を阻む壁 18 1. やりたい分析はあるけど必要なデータがどこにあるかわからん 2.

    データの定義がよくわからん 3. 品質担保されているのかよくわからん 4. テーブルJOINしまくるのめんどくせぇ 5. SQLの書き⽅がそもそもわからん 6. 他⼈の書いたクソ⻑いSQLとかまじでわからん 7. これセキュリティ的に⼤丈夫?? イケてるデータドリブンカンパニーになるためにやったこと メタデータ管理の仕組みで解決できそうなことが結構ありそう
  10. ⓒ 2022 atama plus Inc. ①メタデータはデータ活⽤する上でとても役⽴つ! ②メタデータを⼀つ⼊れるだけでも組織への貢献! ③同じ分析を繰り返すのはやめよう! ④社内布教活動 26

    イケてるデータドリブンカンパニーになるためにやったこと システムを導⼊したあとに継続的にメッセージを発信し続けた
  11. ⓒ 2022 atama plus Inc. メタデータに救われた⼈々の声 29 結局どうなったの? データカタログの地味な便利さが徐々に伝わり始めた! こんなデータないかな?と思ったときに探せるのでとても便利!

    新規参画者にとって⾃分で検索してデータを理解できるのはとても ありがたい! 今まで⼈に聞いていたような情報が検索したらすぐに出てきて便利 さを実感した! 最近⼊社の⼈ Bizの⼈ UXの⼈
  12. ⓒ 2022 atama plus Inc. 俺たちの戦いはこれからだ! 32 DWHを活⽤できる⼈はまだ少数 作るだけでは使われない。継続的な布教活動がまだまだ必要 まだ利⽤率が⼀部の⼈に偏っている

    メタデータを業務において定常的に活⽤している⼈はまだ⼀部 データエンジニアがいない! データモデリングとか真⾯⽬にやらないとヤバい!助けて! まだ残る課題
  13. ⓒ 2022 atama plus Inc. とどのつまり、今⽇伝えたかったこと 34 メタデータは地味だが役に⽴つ データを誰でもすぐに理解できる仕組みは活⽤促進において超重要 メタデータの重要性は多くの⼈にたぶん伝わらない

    なぜやるべきかの⽂脈を丁寧にインプットするのが⼤事 メタデータはみんなで育てる意識を醸成するのが⼤事 組織・チームへの貢献であることを繰り返し発信し続けるべし まとめ