Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンティストとしてどう学んでいくべきか/東京大学講義: データマイニング概論: #10

Kyojin.Syo
January 16, 2023

データサイエンティストとしてどう学んでいくべきか/東京大学講義: データマイニング概論: #10

東京大学講義のデータマイニング概論の第10回目の講義で講演した内容です

講義シラバス: https://catalog.he.u-tokyo.ac.jp/detail?code=0590105&year=2022

Kyojin.Syo

January 16, 2023
Tweet

Other Decks in Technology

Transcript

  1. 自己紹介 2 蕭 喬仁 Syo Kyojin 略歴 2018/03 東京大学工学部 PSIコース

    卒業 (工学部長賞) 山口研にて北極海の海氷分布予測について研究 2020/03 東京大学大学院工学系研究科 TMIコース 修了 坂田・森研にてSNSを用いた社会問題の早期抽出 について研究 (websci20にて学生特別賞を受賞) 2020/04 ソフトバンク (機械学習エンジニア) 画像認識系PJ x 9, 自然言語処理系PJ x 1に従事 2022/12 Japan Digital Design (リサーチャー) 金融領域の機械学習モデリングに従事 副業 NABLAS株式会社 法人向け機械学習研修講座の講師・TA・教材作成 東京大学 SNSを用いた社会問題の早期抽出システムの構築 ヨモギテクノロジーズ web小説解析サイトのAI開発 & 個人事業主として個別案件に対応 趣味 カードゲーム (Magic The Gathering, バトルグラウン ド) サウナ・温泉 機械学習関係の情報収集
  2. 13 データサイエンティストに必要なスキル ~蕭の解釈~ 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える モデリング

    スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる
  3. 16 おすすめの学習法 統計 / 数学 スキル • 大学の講義を受講 ◦ 線形代数や確率論、数理統計などがおすすめ

    (とても難しい...) • 数式を追いながら専門書を精読 ◦ 友人やゼミの間で輪読会を開くのもおすすめ • 数式を追いながら論文を精読 ◦ 読んだ論文の手法の再現実装してみると理解が深まる 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える (´-`).。oO (専門書や論文の精読はとても辛いですが、替え難い自信を獲得できます)
  4. 18 • 実装に焦点を当てた参考書を読んでみる ◦ 「機械学習帳」のような無料コンテンツも最近増えている ◦ 松尾研が開催している各種講座もおすすめ • 界隈でよく利用されているライブラリを触ってみる ◦

    numpy, pandas, matplotlib, scikit-learn, PyTorch, TensorFlow, pytorch- image-models, transformers … etc. • データ分析コンペティションへの参加 ◦ discussionやコードの共有が盛んなkaggleがおすすめ おすすめの学習法 モデリング スキル 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える (´-`).。oO(とにかく手を動かすことが大事)
  5. 20 おすすめの学習法 エンジニアリング スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える • 界隈でよく利用されているツールを触ってみる ◦ Linux,

    git, Docker, MySQL, PostgreSQL, Kubernetes, AWS, GCP ◦ 体系的にまとまっている書籍やレクチャー動画などがおすすめ • エンジニアインターンやアルバイトなどに参加してみる ◦ 学生のうちは求められるハードルが比較的低いので参加しやすい ◦ 研究室の先輩から教わるのも◎ • 個人開発でミニアプリやbotを作成してみる ◦ publicに公開せずとも自分だけが利用するもので十分 (´-`).。oO(とにかく手を動かすことが大事)
  6. 21 おすすめの学習法 情報収集 スキル 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる • 真面目に卒論・修論に取り組む ◦ 論文の探し方・読み方・まとめ方を磨くことで得られる物はとても大きい

    • 実際に情報収集してみる ◦ SNS, ニュースレター, RSSリーダーを活用して気になる情報を読んでみる ◦ 読んだだけだとすぐに忘れるので、何かしらの形でアウトプットすると◎ • 情報発信してみる ◦ 矛盾しているようだが、発信することで初めて得られる情報もあったりする...
  7. 22 おすすめの情報ソース 情報収集 スキル • Twitter: https://twitter.com/ ◦ 国内外の最新情報を収集するのに最適 •

    Kaggle: https://www.kaggle.com/ ◦ 過去コンペのsolutionを眺めておくだけでも勉強になる • zenn: https://zenn.dev ◦ 興味のあるトピックの記事を定期的に見ておくと◎ • ML-news: https://www.machine-learning.news/list/article ◦ 機械学習関係の情報をキュレーションしているサイト 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる (´-`).。oO(他にも色々ありますが、自分のレベルに合ったものを選ばないと辛いだけです)
  8. 24 情報収集を習慣化するためには... 情報収集 スキル • 情報をまとめる場所を決めておく ◦ 気になる情報を見つけてもすぐ読む時間があるわけではない ◦ いつ、どこでも、気軽にアクセスしやすい場所が◎

    ▪ ブラウザのタブはアカウントを共有しないとダメなので△ ◦ 自分の場合はTwitterのDMを活用 • 情報収集する時間/トリガーを決めておく ◦ 自分の場合は.... ▪ 朝起きた時に、布団の中でTwitterをチェック → 気になるものをDMに保存 ▪ 通勤途中・計算待ち時間の間に、気になったものをざっと読む ▪ 夜歯を磨いた後に、面白かったものをgithubにメモ 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる (´-`).。oO (学生時代の自分は全くの3日坊主でした)
  9. 25 情報収集を習慣化するためには... 情報収集 スキル • 情報をまとめる場所を決めておく ◦ 気になる情報を見つけてもすぐ読む時間があるわけではない ◦ いつ、どこでも、気軽にアクセスしやすい場所が◎

    ▪ ブラウザのタブはアカウントを共有しないとダメなので△ ◦ 自分の場合はTwitterのDMを活用 • 情報収集する時間/トリガーを決めておく ◦ 自分の場合は.... ▪ 朝起きた時に、布団の中でTwitterをチェック → 気になるものをDMに保存 ▪ 通勤途中・計算待ち時間の間に、ざっと読む ▪ 夜歯を磨いた後に、面白かったものをgithubにメモ 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 正解はないので、試行錯誤することが大事
  10. 28 [再掲] データサイエンティストに必要なスキル ~蕭の解釈~ 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える

    モデリング スキル エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる
  11. 29 とはいったものの... 統計 / 数学 スキル 様々なモデルやアルゴリズム、統計手法の理論的な背景を数理的に理解し、 状況にあった手法の適用・開発が行える モデリング スキル

    エンジニアリング スキル 情報収集 スキル ビジネス スキル 商用に耐えるコーディングスキルを持ち、分析システムの提供・運用に際し てのアーキテクチャやパイプラインの設計・開発が行える 様々なモデルやアルゴリズム、統計手法を実際のデータに適用し、汎化性能 の高いモデリングを迅速かつ正確に行える 課題に適した情報を迅速に収集し、価値ある情報を選別しながら、自分自身 の知識・スキルを常にアップデートすることができる 事業構造やKPIを理解した上で円滑なプロジェクト運営を実施し、分析結果や プロジェクトの成果を他者に適切に理解させられる 全てに精通していなくても大丈夫
  12. 31 統計 / 数学 スキル モデリング スキル エンジニアリング スキル 情報収集

    スキル ビジネス スキル 担当ロールによって必要なスキルに濃淡がある (蕭の主観) リサーチャー 機械学習 エンジニア データ アナリスト MLOps/データ エンジニア ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆
  13. 32 統計 / 数学 スキル モデリング スキル エンジニアリング スキル 情報収集

    スキル ビジネス スキル 自分はリサーチャーと機械学習エンジニアの間あたり リサーチャー 機械学習 エンジニア データ アナリスト MLOps/データ エンジニア ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★☆☆☆ ★★★☆☆ ★★★★★ ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆ 蕭の 守備範囲
  14. 33 時勢的にはMLOps/データエンジニアがホット MLOps/データ エンジニア ★★☆☆☆ ★★☆☆☆ ★★★★★★★★ ★★★☆☆ ★★★☆☆ The

    state of AI in 2022—and a half decade in review https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2022-and-a-half-decade-in-review#talent (´-`).。oO (流行も大事だが、自分が心から楽しめるものが一番)