Upgrade to Pro — share decks privately, control downloads, hide ads and more …

社内でKaggle部を作って初学者育成した話

Daikon
March 11, 2025

 社内でKaggle部を作って初学者育成した話

「関西Kaggler会 交流会 in Osaka 2025#1」の登壇資料です

Daikon

March 11, 2025
Tweet

Other Decks in Technology

Transcript

  1. 自己紹介 名前 森田 大貴 出身 好きなAWS サービス Step Functions Kaggler部

    卓球部 体操(バク転?)部 フットサル部 フィールドサイエンス部 鳥取
  2. Python基礎講義: 工夫点 ②変数, 配列, dfの定義は残し ておくことで、問題を解くときにい ちいち定義しなくていいようにする ①Kaggleの経験 からのコメントを書く ③リスト内包表記など、

    指定教材内で発展扱い されているものでも扱う ①Kaggleの経験からコメントを記述する ②変数、配列、dfの定義は書いておく ③Kaggleで使われるかの観点で内容を取捨選択
  3. Python基礎講義: 振り返りと参加者の声 Kaggleの知見を活かしたコメント・取捨選択が非常に好評だった 良かった点 • 単に問題だけでなく、補足コメントも書いてあっ た点 • 普通に本1冊やると結構大変だが、必要な部 分を経験から抜き出していただいていて、大きな

    負荷なく完遂できるようになっていた点 • 難易度順に並んでいるので、不要な部分を飛ば して取り組むことができた。また、解説が分かりや すかった。 • kaggleで必要となる知識を盛り込んでいただき、 理解を深めやすくてありがたかったです。 改善点 • 特になし 良かった点 • Kaggle経験に基づくコメントと取捨選択 - 各問題の重要度が分かり好評 - crosstab, pivot_tableなど使用頻度の 低そうなものは省いた - Seabornを用いた複雑な可視化など、必 要な時に調べればOKなものも省いた • 変数定義を残した - 「いちいち入力する必要がなく学ぶべきことに 集中できた」との声があった 改善点 • 特になし 振り返り 参加者の声(原文)
  4. 初心者向けコンペ伴走支援: 概要 やったこと – KaggleのPlaygroundコンペに参加 – 運営3人をメンバ4人に割り当ててチーム を組み伴走支援 目的 –

    Python講義で学んだ内容の実践 – LGBMの使用方法の理解 期間 – 1か月 Kaggleの初心者向けコンペに参加し、学んだ内容の実践
  5. 初心者向けコンペ伴走支援: 概要 やったこと – KaggleのPlaygroundコンペに参加 – 運営3人をメンバ4人に割り当ててチーム を組み伴走支援 目的 –

    Python講義で学んだ内容の実践 – LGBMの使用方法の理解 期間 – 1か月 Kaggleの初心者向けコンペに参加し、学んだ内容の実践
  6. 初心者向けコンペ伴走支援: 振り返りと参加者の声 Kaggleのルールを守れたのは良かったが、 やる気のある時期に2週間放置してしまったことは反省 良かった点 • 個別でのサポートになっていたので、質問しやすい 環境が整えられていた • コンペに思うように取り組めていないときに、困って

    いる点がないか確認してくださった点。 • 疑問点を質問した際に、簡潔にわかりやすく回答 くださった点。 改善点 →次ページに掲載 良かった点 • 運営を割り振ったチーム支援で、Kaggleのルー ルを守りつつサポートできた 改善点 • 運営サポートが入るまでに時間がかかってしまった - Python講義が終了してやる気のある状 態でコンペに参加してくれたのに2週間も放 置してしまった • Python講義から乖離がありすぎたかも - 「コンペにチャレンジしながら学べばいい」と安 易に考えてしまった - もう少しステップあっても良かった 振り返り 参加者の声(原文)
  7. 初心者向けコンペ伴走支援: 振り返りと参加者の声 python問題集とコンペの間に少し距離がある気がしたので、そこを埋める策があるといいと思った。 例えばコンペに出る前に、基本的なコンペの進め方と各フェーズで必要とされる技術の全体像が見えるといいと思った。 必要とされる技術の全体像というのは、↓のようなイメージ ・データの確認(どんなtypeのカラムがあるか、中身がどんなものか、欠損値やはずれ値はあるか) ・色々なモデルがある(その中で、一旦LGBTを使うことが多い) ・モデルに突っ込む前に前処理をする(エンコーディング、欠損値補間、はずれ値削除など) ・特徴量選択・作成 ・バリデーション(クロスバリデーション等)

    etc・・・ ※このあたりは〇〇個人としては、「Kaggleで磨く機械学習の実践力」、という本から大まかな流れを理解することができた。 ⇒初学者には結構おすすめ 上記の全体像を理解した上で、実際にコンペを完遂してみるようなカリキュラムになっているといいと思った。 例えば、毎週宿題方式にして、週次定例でやった内容と考察を誰か2人ぐらいが発表&ディスカッション、質問対応 (負荷がかかりすぎないようにするために、資料作成はいらず、kaggleページを見せて口頭説明のイメージ) ※全体像は↑で説明してあるので、隔週でどの技術を使うかなどは指定しすぎず各人に任せる (指定しすぎてしまうと脳死作業になるので、身につかない気がする) 過去コンペとかで やってもいいかも
  8. プライベートコンペ: 進め方 進め方 • 週次で進捗確認の定例を30分行う 定例内容 • リーダーボード確認 - 1人ずつ1週間の取り組み内容を発表

    - 取り組み内容に関する質疑 - その他疑問点の解消 週次の定例で、全員が自分の取り組み内容を共有
  9. プライベートコンペ: 振り返りと参加者の声 コンペ内容もノートブックも好評 スコア改善のサイクルに入るまでが遅かった点は反省 良かった点 • 難易度としてほど良く、取り組みやすかった • やはり知識が豊富なので、疑問に思ったことに対して参考コ ンペを提示していただけたりと、ググる以上に学びになるこ

    とが多かった • 改善の余地が(あえて)たくさん残されている点。 • 毎週定例があり、他者の進捗を確認できる点。 • 他の方のスコア等も見ることでやる気があげることができた。 改善点 • これはどちらかというと生徒側の問題だが、どうしても後半に 作業が集中しているので、なんかうまい策があればいいか も・・・(※最後の定例会の時のようなディスカッションが毎週 できると有意義だなと思った) 良かった点 • 週次定例での進捗共有により、お互いが何をど れくらい頑張ってるか分かるのでやる気になる • 「0.2切り」というスコアの具体的な精度目標を 設定 • 毎朝9時にコンペ終了までのカウントダウン投稿 • 改善点をあえて残した分かりやすいノートブック 改善点 • 最初の1サブまで定例内でサポートすればよ かった - 改善のサイクルに入るまでに時間がかかる - LBに載ればやる気が出るはず 振り返り 参加者の声(原文)
  10. まとめ プライベートコンペを開催しKaggleのルールを守りつつ実践演習を行った 来年度は今年度の反省を活かし引き続き人材育成に取り組む 社外交流も楽しそう データサイエンティスト人材育成 • 伴走支援してメダル獲得を目指す データ活用ビジネス人材育成 • 営業さん等AIに馴染みのないビジネスサイドの方々

    に知見を展開しリテラシー向上 • データサイエンティスト×ビジネスサイドの連携強化 その他 • グループ間交流、他社交流とか面白そう Python基礎講義 • Kaggle経験を活かした補足, 取捨選択が好評 初心者向けコンペ参加 • サポート不足、成功体験不足で失敗 • やる気のある時期に放置してしまった • もっとステップを踏めばよかった プライベートコンペ • 毎週の定例で自由に議論できた • コードに改善点を残し成功体験を得られるように • 最初の1サブに時間がかかるメンバーが多かった まとめ 今後