Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Machine Learning for 2023 summer Internship

LINE
April 21, 2023

Machine Learning for 2023 summer Internship

2023年インターンシップ 機械学習・AIコースの機械学習コースに関する説明資料です。

機械学習コースの機械学習エンジニアとしてインターンシップに参加いただく場合に配属可能性のある組織を紹介しています。

LINE

April 21, 2023
Tweet

More Decks by LINE

Other Decks in Technology

Transcript

  1. Summer Internship 説明会 - Machine Learning 組織紹介- Data Science センター

    / Machine Learning Solution 室 / Machine Learning Solution 3 チーム マネージャー 渡辺 哲朗(Tetsuroh Watanabe) 2023. 04. 21
  2. Self Introduction Data Science センター Machine Learning Solution 室 Machine

    Learning Solution 3 チーム マネージャー 渡辺 哲朗(Tetsuroh Watanabe)Ph.D. - ユーザ属性推定システム - 事業横断での特徴量データ整備・管理 LINEでの現在の主な担当領域 - ゲーム系企業でのデータサイエンティスト - 簿記・会計系の業務 - 研究職 - 進化計算(遺伝的アルゴリズム等) - マルチエージェントシミュレーション - ⾮常勤講師(データ分析系の講義) - 乗り物の旅(鉄道、⾶⾏機、船舶、バス) - オタ活(アニメ、ゲーム、漫画、VTuber) - クイズ活動 過去の活動(他社、⼤学等) 趣味
  3. LINE App. )PNF 5BML 700. /FXT 8BMMFU 3FDPNNFOEBUJPO 3FDPNNFOEBUJPO 

    FUD 4FBSDI FUD #BOEJUT 3FDPNNFOEBUJPO  #BOEJU FUD 3FDPNNFOEBUJPOT  #BOEJUT FUD #BOEJUT 4FBSDI FUD 4FBSDI FUD
  4. Sticker Recommendation ユーザひとりひとりへのスタンプ推薦 • データ分析を専⾨に⾏う組織(Data Science室)の⽀援の元、A/Bテストを実施 • MLロジックや特徴量⾒直しなどにより、性 能を⼤幅に改善(2022/5) •

    -1000万 Items (global) • -100 items / user • x億 Users total (global) DATA VOLUME データ分析と機械学習開発の協業によるスタンプ推薦ロジックの継続的改善 - LINE DEVELOPER DAY 2021 https://linedevday.linecorp.com/2021/ja/sessions/79
  5. Smart Channel トークリスト上部にコンテンツ・広告を表⽰ • 2段構成で、ML室は下記の両⽅を提供 1. 個別サービスのコンテンツ向けターゲティングロジック (様々な組織が供給) 2. 最終的にコンテンツ

    or 広告を1つ選定 LINEではどのようにサービス横断でのデータ活⽤を実現しているのか - LINE DEVELOPER DAY 2020 https://speakerdeck.com/line_devday2020/how-does-line-implement-cross-service-data-utilization?slide=21 100 individual targeting logics for 1. 600k+ uniq. items / day 2B req. / day
  6. User Persona Prediction LINEユーザの属性を機械学習で推定(=みなし属性) • サービス横断のユーザ⾏動ログを利⽤して、DNN系のロジックで推定(〜数億ユーザ) • 継続的にリファクタリングやロジック改善等を進めており、MLP Mixerなども利⽤ LINE

    for Business 2022年10-2023年3⽉期 媒体資料より https://www.linebiz.com/jp/download/ 属性推定システムのリニューアルで⾒えた様々な課題とその解決の事例紹介 - LINE DEVELOPER DAY 2021 https://linedevday.linecorp.com/2021/ja/sessions/91
  7. 出前館 出前館における機械学習パイプライン構築と機械学習プロダクトの継続的改善 - Tech-Verse 2022 https://tech-verse.me/ja/sessions/118 出前館におけるサービス向上のための機械学習 - LINE DEVELOPER

    DAY 2021 https://linedevday.linecorp.com/2021/ja/sessions/82/ %SJWFS .FSDIBOU 6TFS  3FR GPSPSEFS  3FRGPS EFMJWFSZ  3FRGPS QSFQBSBUJPO  QJDLVQ EFMJWFSZ 複数の機械学習のコンポーネントを提供し、 オンライン予測のためのパイプラインも個別に構築 For Users • 商品の推薦(≒ 何を注⽂すればよいか︖) For Demae-can (as a broker/仲介者) • オーダーの配達依頼(≒ 誰に配達を依頼すればよいか︖) For Drivers • エリア単位での直近需要の予測(≒ どこで待てばよいか︖) • レストランの準備時間予測(≒ いつ受け取りに⾏けばよいか︖)
  8. Federated Learning + Differential Privacy • スタンプの推薦はサーバ側で、並び替えはク ライアント側で実施 • ランダムに選ばれた⼀部デバイスが、差分プ

    ライバシーでノイズを載せ、学習結果のみを サーバに送付して統合・更新 Training Training Training Training Training ML Training Training Training Local Model with noise Model Aggregation Federated Learningを⽤いたLINEスタンプの推薦 - Tech-Verse 2022 https://tech-verse.me/ja/sessions/46 Local Model with noise Local Model with noise クライアントデバイス側でのMLモデル学習+サーバ側でのモデル統合
  9. Libra Suite MLの開発効率化 + DSの検証効率化のための内製ツール 画⾯設計・デザインをUIのチームに依頼し、バックエンドをML室で開発 CMS for A/B Test

    & Rollout Dashboard for A/B Test 推薦結果の可視化 Libra suite – LINEのMLプロダクト改善のための内製ツールセット - LINE DEVELOPER DAY 2020 https://linedevday.linecorp.com/2020/ja/sessions/1731
  10. Own Libraries for Development Efficiency 開発を効率化するライブラリを内製 • cumin: データアクセスの抽象化 •

    swimmy: RPC to k8s cluster • ghee: 分散並列処理(転送 & 演算) • ghee-models: MLモデル(python) • masala: MLモデル(yaml駆動) 機械学習で使っている分散処理⽤RPCライブラリ - LINE DEVELOPER DAY 2021 https://linedevday.linecorp.com/2021/ja/sessions/70 機械学習アプリケーションのための、⼤規模データを分散処理するライブラリ - LINE DEVELOPER DAY 2020 https://linedevday.linecorp.com/2020/ja/sessions/9750 LINEサービス向けの効率的かつ効果的な推薦システム開発に向けて - LINE DEVELOPER DAY 2020 https://linedevday.linecorp.com/2020/ja/sessions/9641
  11. LINE’s Data Platform As a foundation of building ML App.,

    ML System, and ML Platform LINEではどのようにサービス横断でのデータ活⽤を実現しているのか - LINE DEVELOPER DAY 2020 https://speakerdeck.com/line_devday2020/how-does-line-implement-cross-service-data-utilization?slide=11
  12. Program languages, Environments, Libraries • Lang. : Python, SQL, Go,

    etc. • Env. : Kubernetes (k8s), Kafka, Redis, Hadoop, MySQL, … • Lang. : Python, etc. • Lib. : PyTorch, Tensorflow, numpy, OpenMPI, ZMQ, ONNX, …
  13. Teams & Focus (本⽇の説明会に関連するチームの抜粋) .-4PMVUJPO νʔϜ -*/&ϚϯΨ΍-*/&ΪϑτͳͲͷϑΝϛϦʔαʔϏε޲͚ͷਪનϩδοΫͷ։ൃɻ ग़લؗ޲͚ͷ.-ͷ։ൃͰ͸ɺʮ৔ॴɾ࣌ؒผͰͷधཁͷ༧ଌʯ΍ʮ഑ୡ࣌ؒͷ༧ଌʯͳ ͲɺΦϯϥΠϯͷσʔλ&5-΍ਪ࿦͕ඞཁͳ.-γεςϜͷ։ൃʹ΋஫ྗɻ .-4PMVUJPO

    νʔϜ -*/&ެࣜΞΧ΢ϯτͷϝοηʔδ഑৴࠷దԽ΍ɺ֤छαʔϏε޲͚ͷਪનͳͲΛ࣮ࢪɻ .-4PMVUJPO νʔϜ αʔϏεԣஅͷಛ௃ྔσʔλͷ੔උɾӡ༻΍ɺͦͷσʔλΛ׆༻ͨ͠-*/&Ϣʔβʔଐੑ ਪఆͳͲΛ࣮ࢪɻ .-%FWFMPQNFOU νʔϜ େن໛σʔλΛѻ͏ͨΊͷɺಠࣗ.-Ϟσϧ܈ͷ࣮૷΍੔උɺαʔϏεԣஅಛ௃ྔΛ׆༻ ͨࣾ͠಺޲͚ͷ.-"1*։ൃɺ.-0QT޲͚ͷ౷ܭྔऩूγεςϜͷઃܭɾ։ൃͳͲΛ࣮ ࢪɻ'FEFSBUFE-FBSOJOHͷٕज़։ൃ΋ਐΊ͍ͯΔɻ .-1SJWBDZ 5SVTUνʔϜ ϓϥΠόγʔۀҬͷߴ͍ઐ໳ੑΛ͓࣋ͬͯΓɺ'FEFSBUFE-FBSOJOHͱݺ͹ΕΔٕज़Λ αʔϏεಋೖ͢ΔϓϩδΣΫτʹࢀըɻݚڀʹ΋஫ྗ͓ͯ͠ΓɺτοϓΧϯϑΝϨϯε ʹ΋ଟ਺ͷ࿦จ͕࠾୒͞Ε͍ͯΔɻ 今回の募集コース との対応 機械学習・AIコース (機械学習 / 東京) 機械学習・AIコース (プライバシー) %4$1MBOOJOH νʔϜ ػցֶश σʔλαΠΤϯε "*։ൃʹؔ͢Δ֤छϓϩδΣΫτͷਪਐΛ࣮ࢪɻϓϩ δΣΫτϚωδϝϯτ΍ϓϩμΫτϚωδϝϯτͳͲɺϑΣʔζʹΑͬͯ໾ׂ͸ଟذʹ ΘͨΔɻ 機械学習・AIコース (Program Manager) 機械学習・AIコース (機械学習 / 福岡) .BDIJOF -FBSOJOH νʔϜ ʢ-*/&'VLVPLBʣ -*/&ελϯϓ৹ࠪӡ༻ͷޮ཰ԽͷͨΊɺ.-Λ༻͍ͨιϦϡʔγϣϯͷఏڙ΍ɺෳ਺ͷ ن੍ҧ൓νΣοΫͷࣗಈԽΛ࣮ࢪɻ.-Ϟσϧֶशɺ νϡʔχϯάɺల։ɺ؂ࢹͳͲͷ &OEUPFOEϓϩηεͷ࣮ࢪ΍ɺը૾ॲཧɺࣗવݴޠɺ࣌ܥྻ༧ଌͷٕज़ؔ࿈ϓϩδΣΫ τ΋खֻ͚͍ͯΔɻ