Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンティストに必要なスキルと、分析プロジェクトを成功させるための上流工程のポイント

makaishi2
January 25, 2022

 データサイエンティストに必要なスキルと、分析プロジェクトを成功させるための上流工程のポイント

データビジネス創造ラボ・コンソーシアムでの発表資料
第1部では、データサイエンティスト協会・IPAが制作した『データサイエンティ ストのためのスキルチェックリスト』の概要を紹介し、企業でデータサイエン ティストとして活動するには、どのような知識・スキルが必要となるかについ て、俯瞰的に説明します。
第2部では、講演者の著作『Pythonで儲かるAIをつくる』の6章の内容をベース に、通常のITプロジェクトとは異なるAI/データ分析プロジェクト固有の注意点 に関して、自身のプロジェクト経験も交えてお話します。また、個々の注意点 が、第1部で説明したスキル項目とどのように対応するかについても説明します。

makaishi2

January 25, 2022
Tweet

More Decks by makaishi2

Other Decks in Business

Transcript

  1. AI人材育成関連の経験 ⾦沢⼯業⼤学⼤学院 ⻁ノ⾨キャンパス 「AI技術特論」 (2018-2019) ⾦沢⼯業⼤学は、東京の⻁ノ⾨に社会⼈向け⼤学院キャンパスを持っている。 この⼤学院で、IBMによるAI授業を実施することになり、講演者は、「AI技術特論」という技術系上級コースの責任者とし て、シラバス設計からコンテンツ作成、講師まで⼀通りのタスクを経験した。この時得た知⾒・経験は、書籍出版に活⽤し ている。 IPA

    ITスキル標準 スキルコミュニティ活動(ITスペシャリスト) (2007-2010) 経済産業省の外郭団体であるIPAでは、ITスキル標準を定め、PMやITアーキテクトなど職種別のスキル要件を定義した。 更に⽇本のベンダー各社の代表を集めてより詳細なスキル要件の検討を⾏った。講演者は、「ITスペシャリスト」職種の委 員会にIBMの代表として参画し、主査として委員会活動をリードした。 具体的な成果としては、元々のタスクであるスキル定義・作業項⽬定義の精緻化以外に、スキルハンドブックのコンテンツ の検討や、新専⾨分野(アプリケーション共通基盤)の創設などがある。この活動が認められ2008年に通産省から表 彰を受けた。 この他、現在は関⻄の⼤学院⼤学で「最短コースでわかるディープラーニングの数学」をテキストとした授業の講師をしている。
  2. 「Pythonで儲かるAIをつくる」 ⾒込み客、⼟⽇の需要、商品リコメンド… 営業、マーケティングが劇的に変わる 業務に本当に役⽴つ“儲 かるAI”を⾃分で作る︕ 業務の課題を認識し、どう改善するかという「業務⽬線」が必要なのは 従来システムと同じですが、AIの構 築ではさらに 業務の課題が本当に AIで解決できるのか、AIのどの処理⽅式なら適⽤できそうか

    という 「技術⽬線」が不可⽋なのです。 本書のPython実習で学ぶことで、「AIの⽬利きができる技術⽬線」を獲得し ⾃分でもAIを作れるよう になります。 1章 業務と機械学習プロジェクト 2章 機械学習モデルの処理パターン 3章 機械学習モデルの開発⼿順 4章 機械学習モデル開発の重要ポイント 5章 業務要件と処理パターン 6章 AIプロジェクトを成功させる上流⼯程のツボ Amazon(単⾏本) https://www.amazon.co.jp/dp/4296106961 Amazon(Kindle) https://www.amazon.co.jp/dp/B08F9P726T 書籍サポートページ (全実習コードGithubでダウンロード可) https://bit.ly/2EbU3hz 2020年12⽉にAmazon⼈⼯知能・コンピュータサイエン スカテゴリで2週間連続1位!(Kindle版)
  3. データ分析人材 データサイエンティスト協会・IPA(情報処理推進機構) データサイエンティストのためのスキルチェックリスト・タスクリスト概説 https://www.ipa.go.jp/files/000083733.pdf より引⽤ • ITシステム開発では「ビジネス」「エンジニア」の2側⾯のスキル、知識が必要でした。 • データ分析ではこれに「データサイエンス」という新しい軸が加わり、3つの側⾯でのス キル・知識が必要になります。

    • すべての領域の必要スキルを同時に満たせる⼈は現実にはほとんどいないです。得 意分野から出発して、他領域に軸⾜を広げていく形になります。 • 実プロジェクトでは複数の専⾨家が協⼒して分析プロジェクトを進めます。その場合に 重要なのは「専⾨でない領域の最低限の知識・スキル」と「相⼿に合わせて会話内 容を変えていけるコミュニケーション能⼒」です。 コミュニ ケーショ ン能⼒
  4. ビジネス力・データ課題解決 「ビジネス⼒」の中で最も重要な「データ課題解決」のスキルをもう⼀段ブレークダウンすると、以下のようになります。 着想・デザイン 課題の定義 データ⼊⼿ 分析評価 ビジネス観点のデータ理解 • データを利活⽤した事業モデルの着想・デザイン •

    担当事業におけるデータ・AI利活⽤を検討できる • KPI設計 • 問題の⼤枠整理・アウトプットイメージの想定・論点の特定 等 • 分析テーマから必要なデータを検討し、実際に⼊⼿できるスキル • 分析結果をビジネス観点で評価し、業務上のアクションを導く 等 • データから得られた⽰唆のビジネス上の価値を判断できる • 分析結果から分析の深掘り・データ⾒直しの⽅向性を設計できる 等 以下のスキル詳細項⽬資料は、データサイエンティストスキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.01.xlsx を加⼯して作成。 上流 下流
  5. データサイエンス力・データ課題解決 データの理解・検証 分析プロセス 意味合いの抽出、洞察 • 要件に応じて、分析の切り⼝や⽐較対象を正しく設定できる(データ理解) • 実データを検証し、その結果をもとに分析プロセスを⽴案・修正できる(データ確認)等 • ⽬的に応じて必要なデータ、分析⼿法、可視化などを適切に選択できる(アプローチ設計)

    • 各種の解析⼿法の結果を解釈し、意味合いを説明できる(評価) • 図表による分析結果から直接的な意味合いを抽出できる(洞察) 「データ課題解決」は、「データサイエンス⼒」側にも存在します。 そのスキルをもう⼀段ブレークダウンした結果です。 ※詳細項⽬は実際のスキル定義ではより多くの項⽬が存在する場合があり、代表的なもののみ記載しています。
  6. データサイエンス力・解析技術 探索的 「解析技術」のうち、「探索的」カテゴリと「データ可視化」の詳細内容です。 サンプリング データ加⼯ 検定・判断 • 実験計画法など統計学におけるサンプリング技術 • データ加⼯・クレンジング・特徴量エンジニアリング

    等 • 統計学における様々な検定⼿法を実施できる データ可視化 • 散布図や積み上げ棒グラフに関して適切な軸の候補を選定できる • ネットワーク構造、グラフ構造など統計的な関係性の可視化ができる 等
  7. データサイエンス力・解析技術 Static 「解析技術」のうち、「Static」カテゴリの詳細内容です。 機械学習技法 グルーピング • 各種アルゴリズムを理解し、適切なものを選定できる • SHAP等ブラックボックス性の⾼いモデルの局所的な説明性を適⽤できる 等

    • 階層型・⾮階層型のクラスター分析ができる • 異常検知のアルゴリズムを理解し、適切なものを選択できる 等 ※詳細項⽬は実際のスキル定義ではより多くの項⽬が存在する場合があり(最⼤20程度)、代表的なもののみ記載しています。 性質・関係性の把握 パターン発⾒ グラフィカルモデル • ヒストグラム・クロス集計表・散布図でデータの性質・関係を把握できる • 主成分分析・因⼦分析などを利⽤できる 等 • アソシエーション分析を利⽤できる • 協調フィルタリングを利⽤できる 等 • ベイジアンネットワーク分析結果から⽬的事象の事後確率を算出できる 等
  8. データサイエンス力・解析技術 Dynamic 予測 時系列モデル • 重回帰・ロジスティックモデルに関する詳細な内容を説明・適⽤できる • ROC曲線、混同⾏列、MSEといった評価⼿法を理解し・適⽤できる 等 •

    時系列データの基礎的な概念を理解・説明できる • 時系列分析のアルゴリズムを理解し、適切なモデルを選定できる 等 「解析技術」のうち、「Dynamic」カテゴリの詳細内容です。 ※詳細項⽬は実際のスキル定義ではより多くの項⽬が存在する場合があり、代表的なもののみ記載しています。 シミュレーション/データ同化 最適化 • MCMC(マルコフ連鎖モンテカルロ法)シミュレーションを実装できる 等 • 代表的な最適化問題について、ソルバーを⽤いて最適化できる 等
  9. データサイエンス力・基礎数学 統計数理基礎 線形代数基礎 微分・積分基礎 • 順列・組み合わせ・条件付き確率・平均・中央値・最頻値・分散・標準偏差 • 名義尺度、順序尺度、間隔尺度、⽐例尺度の違い • 代表的な確率分布

    • ベイズの定理・ベイズ推論 • 尤度と最尤推定 • ⾏列同⼠、⾏列とベクトル間の計算⽅式 • 固有値・固有ベクトル • 微分により計算する導関数が傾きを求めるための式であること • 偏微分の計算⽅法 • 確率密度関数を定積分することで確率が得られること 「基礎技術」「基礎数学」の詳細内容です。 ※詳細項⽬は実際のスキル定義ではより多くの項⽬が存在する場合があり、代表的なもののみ記載しています。
  10. 1. 処理パターンの当てはめが肝要 機械学習モデルの理解が不⼗分な顧客が対象の場合、例えば下のような表を顧客に提⽰してそれぞれの処 理パターンの理解を深めてもらった後、業務適⽤の議論をはじめます。 処理パターンの⼀覧 教師あり学習と教師なし学習の⽐較 ଌϑΣʔζʯͷ۠ผ͸ͳ͘ɺσʔλΛϞσϧʹ༩͑Δͱɺ͍͖ͳΓग़ྗ͕ಘΒ Ε·͢ɻڭࢣͳֶ͠श͸ɺػցֶशͷख๏ͷҰͭͰ͕͢ɺ ʮσʔλ෼ੳʹ͍ۙʯ ͱ΋͍͑·͢ɻਤ

     ʹɺڭࢣͳֶ͠शͷॲཧΠϝʔδΛࣔ͠·ͨ͠ɻ ɹ͜͜·Ͱʹઆ໌ͨ͠ڭࢣ͋Γֶशͱڭࢣͳֶ͠शͱ͍͏ֶशํࣜͷ۠ผ͸ɺ ॲཧύλʔϯΛબ୒͢ΔࡍʹۃΊͯॏཁͰ͢ɻද  ͰվΊͯ੔ཧ͓͖ͯ͠· ͢ɻ Ϟσϧ ೖྗ ೖྗ ೖྗ ೖྗ ग़ྗ ग़ྗ ग़ྗ ग़ྗ ֶश ݁Ռ ਤ ɹڭࢣͳֶ͠शͷॲཧΠϝʔδ ද ɹڭࢣ͋Γֶशͱڭࢣͳֶ͠श ֶशํࣜ ਖ਼ղσʔλ ओͳ໨త ϑΣʔζ ར༻࣌ͷೖྗσʔλ ڭࢣ͋Γֶश ඞཁ ༧ଌ ʮֶशʯͱʮ༧ଌʯ ະ஌ ڭࢣͳֶ͠श ෆཁ ෼ੳ ʮֶशʯͷΈ ط஌ 学習⽅式 処理パターン 対応節 業務・利⽤例 教師あり 分類 5.1営業⾒込み客予測 回帰 5.2売り上げ予測・来客数予測 時系列予測 5.3売り上げ予測・来客数予測 教師なし アソシエーション分析 5.4お薦め商品分析(購買済み商品に基づく) クラスタリング 5.5マーケティング分析(顧客のグループ化) 次元圧縮 5.5マーケティング分析(個別顧客の特性可視化) 「Pythonで儲かるAIをつくる」⽇経BP からの引⽤
  11. 1. 処理パターンの当てはめが肝要 「処理パターンの当てはめが肝要」に関連するスキルは、スキル定義の中では「データサイエンス⼒」の項⽬のうち、 「分析プロセス」「アプローチ設計」の⼀部として規定されています。 ⼤分類 NO Sub No スキルカテゴリ スキルレベル

    サブカテゴリ チェック項⽬ データサイエンス⼒ 140 1 分析プロセス ★ アプローチ設計 スコープ、検討範囲・内容が明快に設定されて いれば、必要なデータ、分析⼿法、可視化など を適切に選択できる データサイエンス⼒ 141 2 分析プロセス ★★ アプローチ設計 解くべき課題がフレーミングされていれば、必 要なデータ、分析⼿法、可視化などを適切に選 択できる データサイエンス⼒ 142 3 分析プロセス ★★★ アプローチ設計 複数の事業や課題にまたがっていても、必要な データ、分析⼿法、可視化などを適切に選択し 作業⼿順に落とし込める データサイエンス⼒ 143 4 分析プロセス ★★★ アプローチ設計 複数のアプローチの組み合わせでしか解けない 課題であっても、その解決までの道筋を設計で きる データサイエンティストスキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.01.xlsx を加⼯
  12. 2. 教師あり学習は正解データの⼊⼿が命 「教師あり学習は正解データの⼊⼿が命」に関連するスキルは、スキル定義の中では「データサイエンス⼒」の項⽬ のうち、「機械学習技法」「機械学習」の⼀つとして規定されています。 ⼤分類 NO Sub No スキルカテゴリ スキルレベル

    サブカテゴリ チェック項⽬ データサイエンス⼒ 176 6 機械学習技法 ★ 機械学習 教師あり学習におけるアノテーションの必要性 を説明できる データサイエンティストスキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.01.xlsx を加⼯
  13. 3. AIに100%は期待するな 「AIに100%は期待するな」に関連するスキルは、スキル定義の中では「ビジネス⼒」の項⽬のうち、「活動マネジメ ント」「プロジェクト発⾜」の⼀つとして規定されています。 ⼤分類 NO Sub No スキルカテゴリ スキルレベル

    サブカテゴリ チェック項⽬ ビジネス⼒ 87 4 活動マネジメント ★★ プロジェクト発⾜ PoCで終わらないよう、PoC⽴ち上げ時点で実 務実装の計画ができる データサイエンティストスキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.01.xlsx を加⼯