Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DSお仕事図鑑

 DSお仕事図鑑

データサイエンティストは、統計学や機械学習、プログラミングなどの幅広い知識を駆使して、データから価値を引き出す専門家です。求められるスキルは「スキルチェックリスト」にまとめられていますが、実際の業務で必要なスキルは業界や業種によって異なり、特定のドメイン知識が求められることもあります。 『DSお仕事図鑑』では、各業界で活躍するデータサイエンティストたちの仕事ぶりを分かりやすく紹介し、その役割をより身近に感じていただけるようにしました。データサイエンティストを目指す方や業界理解を深めたい方に、ぜひご活用いただければと思います。

本資料は第1弾の公開となります。今後も引き続き多様なデータサイエンティストへのインタビューを重ねながら、事例を追加・更新してまいります。

More Decks by The Japan DataScientist Society

Other Decks in Business

Transcript

  1. 事業分野、職種での 違いが比べられるもの 事業分野、職種に関わらず 共通的に使えるもの データサイエンティストは、統計学や機械学 習、プログラミングなどの幅広い知識を駆使 して、データから価値を引き出す専門家です。 求められるスキルはスキルチェックリストに まとめられていますが、実際の業務で必要な スキルは業界や業種によって異なり、特定の

    ドメイン知識が求められることもあります。 『DSお仕事図鑑』では、各業界で活躍する データサイエンティストたちの仕事ぶりを分 かりやすく紹介し、その役割をより身近に感 じていただけるようにしました。データサイ エンティストを目指す方や業界理解を深めた い方に、ぜひご活用いただければと思います。 ー DSお仕事図鑑とは ー 課題背景を理解した 上で、ビジネス課題 を整理、解決する力 データサイエンスを意味のある 形に使えるようにし、実装、運 用できるようにする力 情報処理、人工知能、統計 学などの情報科学系の知恵 を理解し、使う力 スキルチェックリスト DSお仕事図鑑 2 幅広いスキルや知識 事業ごとに求められるスキル 自分にあった事業分野・職種を具体化 ビジネス力 (BZ) データ サイエンス力 (DS) データ エンジニアリング力 (DE)
  2. PROFILE 必要なドメインスキル ⚫ 生産ラインに関する知識 ⚫ 機械・設備に関する知識 よく使うDSスキル この職務に向く性格や志向性 機械や工場などリアルな現場が好きで、 何度も赴ける人(机上での分析は好き

    だが、現場での確認はおっくうという人は 向かない) 人物像 D.K.さん 職種・業務 データサイエンティスト/R&D 製造業への分析コンサル提供/生産管理業務 お仕事概要 データ分析タスク ⚫ 分析請負業務 ⚫ 機械の不具合の要因分析 ⚫ 機械の不具合の予測 主に扱うデータ ⚫ 生産設備の稼働データ ⚫ 生産管理データ ⚫ 点検結果データ スキル・コンピテンシー ⚫ 論理的思考 ⚫ データの理解・検証 ⚫ 意味合いの抽出・洞察 ⚫ QC ⚫ 予測モデル ⚫ 異常値検知 ⚫ センサデータの処理 ⚫ 機械学習モデルの 実装 DS BZ DE 3
  3. 概 要 ディスクリート型製造業での生産効率向上の分析業務。 ここで紹介する例は、平均生産量が一時的に落ち込む現象 (業界用語:チョコ停)がときおり発生しており、 その要因を明らかにする分析の例。 LADDER 生産量を 増加させる 経営的な価値

    一時的に落ち込む 現象の発生回数を 減らす 業務のKPI センサーデータの分析 から有力な要因候補を 出し、原因究明と除去 を行う 分析を活かした 業務でのアクション ⚫ 生産量の一時的低下 の発生を予測する モデルを構築する ⚫ 要因分析、感度分析 を行う データ分析の方針 適用手法 ⚫ tree系アルゴリズム ⚫ SEM データ分析詳細 利用データ ⚫ 生産機械の稼働データ (電圧、温度、プレス 圧力など) 使用ツール ⚫ Python、KNIME、Rなど (結構個人の好みで選択) そのために何を? 何のために? Business Value and Analytics task ビジネス価値と分析タスクの論理のラダー 4
  4. WORK FLOW 顧客の問合せに対し、 背景・目的や課題の 具体化を行う 合意した課題を解くために 必要な分析のアプローチと 体制を資料にまとめて、提 案・合意する まずは、生データやER図を

    ぼーっと眺める。可視化した りしてクレンジング方針を決 めたり、具体的なアプローチ を考える 可視化しながら分析用デー タを作り込んでいく、モデリン グする、biweeklyぐらいでレ ポートする。顧客へのヒアリン グや意見も聞きながら仮説 検証する 一定の結果が出た報告と、 次の提案(分析の継続、 システム化)を社内で検討 し、提案する 顧客の現場の人はそんなに 前のめりじゃなかったりするの でまず仲良くなる(話しても らえるようになる)ことが必 要だったりする。話題作りに、 そのドメイン特有の資格 (危険物取扱〇級とか) を取ったりする 自分だけでは理由が分から ないことが多々ある。現場の リアルを見ること、聞き出すこ とが重要になる あと、過剰なリクエストがあっ たり、それに対し営業が安 請け合いしそうなときに、毅 然とした態度が必要になる DS仕事の進め方 仕事の流れ やってること よく直面する課題と、その課題にどういう姿勢で臨むか 5 課題ヒアリング 課題解決の計画・合意 データアセスメント 分析・仮説検証 最終報告・システム化提案
  5. PROFILE 必要なドメインスキル ⚫ 論文の数式が理解できる レベルの数学力 ⚫ 検索の仕組みの理解 ⚫ 拠点データ周りの運用を 含めたフローの理解

    よく使うDSスキル この職務に向く性格や志向性 ⚫ 現実的に運用可能な手法の範囲で 考えられる人 ⚫ 利用サービスが多岐にわたっているた め、多くのサービス理解が苦にならない 人 人物像 K.J.さん 職種・業務 データサイエンティスト/R&D インターネットサービス業/データサイエンス・IT業務 お仕事概要 データ分析タスク ⚫ 論文調査 ⚫ データ抽出 ⚫ モデル開発 主に扱うデータ ⚫ ユーザー行動ログ ⚫ 拠点データ など スキル・コンピテンシー ⚫ 課題理解 ⚫ 論理的思考 ⚫ 発想力 ⚫ 機械学習 ⚫ 深層学習 ⚫ 特徴量エンジニアリング ⚫ 論文実装できるレベル のコーディング力 (Python,SQLなど) DS BZ DE 6
  6. 概 要 インターネットサービスではユーザー体験を向上させて、 利用者数や利用頻度を向上させる取り組みを日々取り組ん でいる。今回の地図アプリの場合では、やはり拠点検索の 精度が上がって使い勝手がよくなれば、他社と比べても当 社の地図アプリを使うユーザーさんが増えるだろうという 仮説のもとで行った分析の例です。 LADDER 広告売上を向上

    させる 経営的な価値 アプリを使う ユーザーを増やす (今回は地図アプリ) 業務のKPI 利用者・利用頻度を 上げるために、 ユーザーの使い勝手を 向上させる。 今回はその一つとして、 拠点検索の精度を 向上させる 分析を活かした 業務でのアクション 「精度」を具体化して 定義し(例えば、拠点 データはデータ数、検 索精度はCTRなど)、 それを向上させるよう な拠点同定アルゴリズ ム、拠点応答システム、 クエリ分類にする データ分析の方針 適用手法 ⚫ 深層学習/機械学習 ⚫ 特徴量エンジニアリング データ分析詳細 利用データ ⚫ ユーザー行動ログデータ ⚫ 正解データ▶手動で作成 使用ツール ⚫ Python ⚫ Java そのために何を? 何のために? Business Value and Analytics task ビジネス価値と分析タスクの論理のラダー 7
  7. WORK FLOW 検索に対する問い合わせな どから、検索の精度が悪い 要因を整理する 要因毎に対応難易度や インパクトを整理する 定めた課題に対して具体的 なKPIを設定し対処する 作成したモデルを実際に

    投入してABテストを行う オンラインテスト結果を整理 して報告する 「精度が良くない」というふ わっとした話しか来ないので、 精度とは何か、具体的な悪 い点・例を聞くことが大事に なる。分析のスキルよりもド メインとして検索の仕組みを ちゃんと理解できていることが 大事 最終的なビジネスインパクト まで落とし込むのが難しい。 例えば、精度が良くなったか ら、ユーザの離脱がどの程度 抑制されるかはどうしても不 明瞭になる。精緻に出すと いうよりは上の納得感が出 るように整理することが大事 モデルの最適化項目とKPI が連動しないことがよく起こ る(AUCが上がったけど CTRは向上しないなど)。 気長に相関性を見つつ丁 寧に実施していく 「有意差が・・・」とかだと伝 わらず、過剰に心配されたり する。テストによっては悪化 しない事を確認するテストを することがある。統計知識が なくても理解できるようにまと めることが必要 DS仕事の進め方 仕事の流れ やってること よく直面する課題と、その課題にどういう姿勢で臨むか 8 課題調査 対応順序整理 モデル作成 オンラインテスト テスト結果報告
  8. PROFILE 必要なドメインスキル ⚫ マーケティング・広範な 人文社会科学の知識 ⚫ 統計学・社会調査法 ⚫ プログラミング ⚫

    シミュレーション技法 よく使うDSスキル この職務に向く性格や志向性 ⚫ ひとと社会が「なぜ」「どのように」動くの か?への興味 ⚫ 理屈を数字で説明したい性格 ⚫ データから意味を読み解きたい、 飛躍・解釈への指向性 人物像 M.T.さん 職種・業務 広告会社のデータサイエンティスト 広告業/マーケティング業務 お仕事概要 データ分析タスク ⚫ マーケティング施策と顧客企業 の売上の因果関係をモデル化 ⚫ 広告配信ターゲットの予測モデ ル など 主に扱うデータ ⚫ 時系列データ(売上・広告出 稿・社会経済環境など) ⚫ GA・GMPなどのデジタル広告 データ・アクセス解析データ ⚫ テレビ視聴ログや調査データ・購 買履歴データ スキル・コンピテンシー ⚫ 市場・商品カテゴリに ついてのドメイン知識 ⚫ マーケティング・広告コ ミュニケーション・メディ アバイイングの知識 ⚫ 計量経済学・数理社 会学・認知科学・マー ケティングサイエンスなど の数理モデル ⚫ クラウドベースの データ処理 ⚫ デジタル広告のアド テクノロジーとの連携 DS BZ DE 9
  9. 概 要 マーケティング施策と売上の因果関係が不明瞭な状況から、 データドリブンで売上に寄与する要因の特定と打ち手を 開発する一連の流れ。 LADDER 効率的な マーケティング 施策で売上を 向上させる

    経営的な価値 ⚫ 打ち手の 売上貢献度 ⚫ モデルに基づく 打ち手開発の 費用対効果 業務のKPI 分析結果を基に マーケティング4Pに 対する施策を開発する 分析を活かした 業務でのアクション オペレーション可能な マーケティング施策の 要因を特定するための 要因分析、因果推論を 行う数理モデルを作る データ分析の方針 適用手法 ⚫ MMM(SEM/状態空間モデル) ⚫ ロジスティック回帰 ⚫ バスモデル ⚫ NBDモデルなど データ分析詳細 利用データ ⚫ 売上 ⚫ ブランドイメージ調査 ⚫ 広告出稿量 ⚫ 社会・経済環境 ⚫ オン・オフライン広告 接触データ 使用ツール ⚫ Python、R、SQL そのために何を? 何のために? Business Value and Analytics task ビジネス価値と分析タスクの論理のラダー 10
  10. WORK FLOW ⚫ 顧客企業の商品カテゴリ の「買われ方」の研究 ⚫ 顧客企業の「常識」の ヒアリング ⚫ 売場の観察

    ⚫ デスクリサーチ ⚫ モデル仮説に基づいて、 顧客企業内で分散して いるデータを収集 ⚫ 収集したデータの クリーニングと基礎集計 ⚫ 商品カテゴリと「買われ 方」に応じた数理モデル の選択 ⚫ 複数の仮説をトライし、 統計的な正しさと、 納得度を確認 ⚫ 選択したプロトタイプを チューニングし、モデルを 完成させる ⚫ 作成したモデルで過去実 績データを分析 ⚫ モデルに基づいた分析 結果から改善ポイントを 示唆 ⚫ 改善施策開発 顧客企業も営業も、その商 品カテゴリの「買われ方」を 言語化できていないことが 多いです。こちらから投げか ける形式でヒアリングできる 準備をしておかないと、顧客 には「常識」であることの言 語化が行われず、重要な変 数を見落としてしまう可能 性があります。なので、事前 に十分にデスクリサーチを 行っておくことが重要です DS仕事の進め方 仕事の流れ やってること よく直面する課題と、その課題にどういう姿勢で臨むか 11 ドメイン知識収集 仮説構築 データ収集 データレビュー 分析アプローチの プロトタイピング モデリング 過去実績の診断 改善ポイントの抽出 施策開発 「買われ方の常識」を表現す るデータが存在しないことがあ り、その常識を表現する代替 変数を探したり、作り出したり する、ある種クリエイティビティ が必要になることも 仮説とは異なる結果が表れる ことも多い。単にその結果を 突き付けるのではなく、その理 由の究明や、別の方針案の 構築にパワーを注ぐことが大 切 モデルの精度ばかり追い求め ると、オペレーション可能では ない要素や因果関係の矛盾 が生じることがあり、数字では ない現実を熟知していることが 肝心 モデルそのものから算出された 改善ポイントは往々にして「当 たり前」か「どうやって?」という 反応になりがち。クリエイターや メディアマンが改善施策に落と し込めるよう、彼らのドメインの 言葉に翻訳して懐に飛び込 む
  11. PROFILE 必要なドメインスキル ⚫ 環境および水質変に関す る知識 ⚫ 凝集剤の化学反応に関 する知識 よく使うDSスキル この職務に向く性格や志向性

    ⚫ 好奇心旺盛で進んで勉強できる人 ⚫ 微妙な変化に気付ける人 人物像 O.Y.さん 職種・業務 データアナリティクス専門職 公共インフラ業への分析コンサル提供/運用・保守業務 お仕事概要 データ分析タスク ⚫ 分析請負業務 ⚫ 数量予測 ⚫ 異常運転パターン検知 主に扱うデータ ⚫ 水質データ ⚫ 周辺の河川および潮位データ ⚫ 気象データ スキル・コンピテンシー ⚫ 論理的思考 ⚫ データの理解・検証 ⚫ クラスタ分析 (適応共鳴理論) ⚫ 回帰モデル ⚫ システム設計力 ⚫ コーディング力 (SPSS、Java) DS BZ DE 12
  12. 概 要 浄水場での水をきれいにする凝集剤の投入量を最適化する 例。使う凝集剤を増やせば水はきれいにできるが、それだ けコストがかさむ。なので、ちゃんと水はきれいになる最 少の凝集剤の量にしたい。それをデータ分析を基にやる チャレンジ LADDER コスト削減 経営的な価値

    ⚫ 凝集剤の使用量/ 金額 業務のKPI 点検・保守の際に 投入する凝固剤を 分析モデルで算出 した適正量に従って 投入する運用にする 分析を活かした 業務でのアクション 凝集剤の量と水の きれいさの関係を モデル化する データ分析の方針 適用手法 ⚫ クラスタ分析 ⚫ 線形回帰 データ分析詳細 利用データ ⚫ 取水データ ⚫ 処理水データ 使用ツール ⚫ Spotfire ⚫ SPSS ⚫ Java そのために何を? 何のために? Business Value and Analytics task ビジネス価値と分析タスクの論理のラダー 13
  13. WORK FLOW ⚫ データの統計量や可視 化により変化点や外れ 値異常値を調べ、データ から見た特徴を洗い出し 確認する ⚫ 業務の問題点を確認し、

    何を解決するのかを確定 する。 ⚫ 要件から必要なモデルを 選定 ⚫ 作成した予測モデルをシ ステム化 ⚫ 毎月データを可視化し データの特徴の変化や 予測モデルの精度を レポート 顧客によってはプレ分析でア ナリストのレベルをチェックす ることがある。なので、データ の特徴をできるだけ洗い出 しておく 顧客がやりたいことは盛り沢 山なので、発散しないように コントロールする データの流れやリモデル運用 を考慮したシステム設計と 画面設計を行っていく。時に はSEと同等の知識が必要 となる。自分はSE出身だか ら、この辺も一気通貫できる のは強み DS仕事の進め方 仕事の流れ やってること よく直面する課題と、その課題にどういう姿勢で臨むか 14 プレ分析 要件の確定 モデル作成 実証実験 保守 気候に左右される業務は学 習データに無い異常な気象 データが入ってくると当たらな くなるため、異常気象の扱 いも顧客に説明する 現場の顧客は数値による精 度評価よりも感覚的な評 価を行うので、そのギャップを 説明する事が重要
  14. PROFILE 必要なドメインスキル ⚫ 現場の業務フロー ⚫ 業界に関連する法改正、 ニュース ⚫ 業界で有名な他企業が 行った施策

    よく使うDSスキル この職務に向く性格や志向性 ⚫ 分からないことがあると、気になってとこ とん調べてしまう人 ⚫ ・自分が書いたプログラムやSQLで業 務を効率化するのが嬉しい人 ⚫ ・楽をするための苦労をいとわない人 人物像 S.T.さん 職種・業務 データ分析兼エンジニア 飲食業への分析コンサル提供/計画最適化業務 お仕事概要 データ分析タスク ⚫課題のヒアリング ⚫分析環境構築 ⚫モデルの生成とシステム組み込み 主に扱うデータ ⚫ サイトアクセスログ ⚫ 職歴データ ⚫ 製品画像データ スキル・コンピテンシー ⚫ 傾聴力 ⚫ 提案力 ⚫ 決定木 ⚫ XGBoost ⚫ NN ⚫ 大規模なデータを効 率的に操作する技術 ⚫ 各分析用ライブラリの 特徴把握 DS BZ DE 15
  15. 概 要 飲食業界における「シフト表」の自動作成 LADDER 業務効率化 経営的な価値 ⚫ シフト表の作成 工数 業務のKPI

    定期的(週次/月次 など)に行うシフト 作成作業の人→モデ ルへの置き換え 分析を活かした 業務でのアクション ⚫ 「シフトの良さ」の 数値化 ⚫ 制約条件(人数、職 種、希望時間帯、勤 務日数、連勤、ス タッフ相性、シフト 希望など)の定式化 ⚫ 制約条件を満たす最 適化を計算するアル ゴリズム開発 データ分析の方針 適用手法 ⚫ メタヒューリスティクス データ分析詳細 利用データ ⚫ 過去のシフト表 ⚫ 過去のシフト希望表 ⚫ 従業員情報 使用ツール ⚫ Python ⚫ AWS ⚫ GCP そのために何を? 何のために? Business Value and Analytics task ビジネス価値と分析タスクの論理のラダー 16
  16. WORK FLOW ⚫ 課題分解後の目的明確 化 ⚫ 業務フローの把握 ⚫ 現場担当者ヒアリング ⚫

    データ検品 ⚫ データ理解 ⚫ 分析手法選択 ⚫ 機械学習モデルの構築 ⚫ 精度評価 ⚫ 改善の実施 ⚫ モデルの組み込み ⚫ システム-モデル間の データ連携制御 ⚫ 最終結果の報告 ⚫ プログラムの納品 顧客から最初に伺った課題 と、現場の課題が異なること があります。両者の違いが 何によって生まれているかを 把握し、解決すべき課題の 再定義を行って納得を得ま す データ理解を進めていくなか で、顧客側も気づいていな いデータの問題に直面する ことがあります。問題が解決 出来ないものである場合は、 代替案を提案します システムから入力されるデー タが想定していた形式と異 なっていたり、出力すべき結 果が当初から変更になって いることがあります。エラーが 発生したときに、エラーメッ セージからどのデータに問題 が有るかを推測する力が必 要になります DS仕事の進め方 仕事の流れ やってること よく直面する課題と、その課題にどういう姿勢で臨むか 17 課題ヒアリング 全体設計 モデル構築 精度評価/改善 モデルを組み込んだ システム開発 結果報告/納品 最終報告では顧客上層部 の方がいらっしゃることが多い です。短い時間で重要な決 定を下される方に向けて、 結果を端的に伝える部分を 作っておきます モデルの構築〜精度評価・ 改善の繰り返し作業では、 処理時間や作業時間がか かることが多いです。なるべく 作業を自動化したり、並列 処理で複数パターンを同時 に処理したりして、短時間で 多くのパターンを試せるように します