Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アドベントカレンダーのお礼とマーケットAI開発プロジェクトにおけるプロジェクトマネジメントのエ...

tomo
January 26, 2023

アドベントカレンダーのお礼とマーケットAI開発プロジェクトにおけるプロジェクトマネジメントのエッセンス 補講

【マケデコ】JPX Kaggleコンペ5位/8位解法分析/アドベントカレンダーネタ
で発表した「アドベントカレンダーのお礼とマーケットAI開発プロジェクトにおけるプロジェクトマネジメントのエッセンス 補講」の資料です。

tomo

January 26, 2023
Tweet

More Decks by tomo

Other Decks in Science

Transcript

  1. アドベントカレンダー参加のお礼 皆様、アドベントカレンダーへの参加ありがとうございました! すべて大変おもしろいネタでしたが、本日は私の「マーケットAI開発プロジェクトにおけ るプロジェクトマネジメントのエッセンス」を掘り下げてみたいと思います。 トピック一覧 • tomo: マケデコのDiscordでおもしろかった議論を振り返ってみる • shinshin999:

    その昔、機能していた後場のアノマリー • pegion_HOLE: 謎の指標X • NT1123: feature neutralizationについて • shinshin999: 配当アノマリーから考えたペアトレード。 • s-jquants: J-Quants プロジェクト振り返り • tomo: マーケットAI開発プロジェクトにおけるプロジェクトマネジメントのエッセン ス • uki: 【保存版】株のトレーディング手法まとめ
  2. プロジェクト全体の流れ 大きく4つくらいのフェーズに分けることができると想定されます。 フェーズ やること プロジェクト時間配分 (全 体を10とした場合) プロジェクト開 始前 •

    先行研究の探索 • 先行ビジュアリゼーションの探索 • 勝算の見積もり 開始前なので時間配分と しては0なのだが大事 プロジェクト開 始直後の準備 • スコア設計 • ベースラインモデルづくり • 業務マッピング • 研究計画立案 4 モデル研究 • 研究計画通りにモデルを作っていく • ポイントとなる要素の探索 • モデルの改善 3 モデルのLive 化にむけて • 再学習の仕組み化 • 運用上のあれこれ(Liveあるあるで紹介) 3(ここはデータ取得の難 易度に依存する印象 )
  3. プロジェクト開始前に • 先行研究の探索 ◦ 同一のテーマを扱っていることは殆どないが、以下の観点で探してみることが大事 ▪ 他のアセットで似たようなことをやっていないか • 例: 株式の短期予測はすくないが為替の短期予測はよく見つかる

    • 例: 株式のローテンションは少ないが、金利やクレジットサイクルの研究がある • 先行ビジュアリゼーションの探索 ◦ 先行ビジュアリゼーションは以下のようなものをチェックする ▪ Bloomberg端末の各種データの見せ方 • プロの洗礼をうけているので、良くも悪くも業界標準の見せ方がわかる ▪ 投信の目論見書 • これは結構頑張っているものがある。特にto Cを意識してビジュアリゼーションを しているものが多いので、わかりやすさを重視している ▪ これも先行研究の論文をいろいろなアセットで横断的に探すと結構見つかります。 • 捨てモデルによる勝算の見積もり ◦ これはなんでもいいので適当なモデルをあらかじめプロジェクト前に一回作っておくこと ▪ コードもやり方もなんでもいいので、一度作ってみると、全然気づいていない論点がみ つることが多く、次のステップでめちゃくちゃ活きる
  4. プロジェクト全体の流れ 大きく4つくらいのフェーズに分けることができると想定されます。 フェーズ やること プロジェクト時間配分 (全 体を10とした場合) プロジェクト開 始前 •

    先行研究の探索 • 先行ビジュアリゼーションの探索 • 勝算の見積もり 開始前なので時間配分と しては0なのだが大事 プロジェクト開 始直後の準備 • メトリクス設計 • ベースラインモデルづくり • 業務マッピング • 研究計画立案 4 モデル研究 • 研究計画通りにモデルを作っていく • ポイントとなる要素の探索 • モデルの改善 3 モデルのLive 化にむけて • 再学習の仕組み化 • 運用上のあれこれ(Liveあるあるで紹介) 3(ここはデータ取得の難 易度に依存する印象 )
  5. ベースラインの作り方 なぜベースラインが重要なのかは以下のとおりです。ベースラインモデルの作り方にはと ことん拘ると、良いプロジェクトになります。 • スタティックに計算できる特徴量を運用に利用している場合と比較すると、他の人に ロジックを説明することが非常に難しくなります • 仮説に準拠し設計された特徴量であれば、実際にうまく行かないときも何らかの理由 を考えることは容易ですが、機械学習による複雑なステップを通して構築した予測モ デルがうまく動かなくなったときにその理由を推測するのは簡単ではありません。

    • 特徴量設計で良い結果が得られないまま、機械学習モデルを活用すると、仮説が良い のか、モデルのチューニングが良かったのかの区別することが難しくなります • 機械学習モデルを利用する場合、学習・検証・テストのために、データを3分割する 必要が生まれます。大量の過去データがあるのであれば問題ないのですが、実務的に はそこまでの長い期間のデータは用意できないことがあります。 • 実際の運用時に再学習のタイミングなど機械学習モデル特有の問題を考慮する必要が 生まれます。
  6. プロジェクト全体の流れ 大きく4つくらいのフェーズに分けることができると想定されます。 フェーズ やること プロジェクト時間配分 (全 体を10とした場合) プロジェクト開 始前 •

    先行研究の探索 • 先行ビジュアリゼーションの探索 • 勝算の見積もり 開始前なので時間配分と しては0なのだが大事 プロジェクト開 始直後の準備 • スコア設計 • ベースラインモデルづくり • 業務マッピング • 研究計画立案 4 モデル研究 • 研究計画通りにモデルを作っていく • ポイントとなる要素の探索 • モデルの改善 3 モデルのLive 化にむけて • 再学習の仕組み化 • 運用上のあれこれ(Liveあるあるで紹介) 3(ここはデータ取得の難 易度に依存する印象 )
  7. プロジェクト全体の流れ 大きく4つくらいのフェーズに分けることができると想定されます。 フェーズ やること プロジェクト時間配分 (全 体を10とした場合) プロジェクト開 始前 •

    先行研究の探索 • 先行ビジュアリゼーションの探索 • 勝算の見積もり 開始前なので時間配分と しては0なのだが大事 プロジェクト開 始直後の準備 • スコア設計 • ベースラインモデルづくり • 業務マッピング • 研究計画立案 4 モデル研究 • 研究計画通りにモデルを作っていく • ポイントとなる要素の探索 • モデルの改善 3 モデルのLive 化にむけて • 再学習の仕組み化 • 運用上のあれこれ(Liveあるあるで紹介) 3(ここはデータ取得の難 易度に依存する印象 )
  8. Liveあるある? • Liveにするととにかく想定外のことが起きるので、気をつけましょう • 当たり前ですが、金利はマイナスになります! • 金利を普通の特徴量で扱いたい場合は、0基準ではなく、シフトして100基準に してあげると特徴量として一気に扱いやすくなります。 • これは全然当たり前ではないのですが、先物はマイナスになります!

    • 原油先物がマイナス価格になってモデルが止まって、謝ることになる可能性があ りますので注意しましょう。マイナスになった場合を検討するより、マイナスに なったらおとなしく前の日の価格でfillしてあげるとかでも十分かもしれませ ん。 • ブルームバーグのTickerはなくなったりします。 • ブルームバーグの一部のデータは突然基本パックから消えて有料になったりする ので、特にクレジット系のデータを扱う場合はめちゃくちゃ注意しましょう • とにかくなんでも起きます • 自分で使うならともかく、他の人も使う可能性ある場合は過去のデータで擬似的 なライブテストをするのがおすすめ