Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Numeraiモデルのポートフォリオ構築の試み
Search
habakan
April 13, 2023
1
400
Numeraiモデルのポートフォリオ構築の試み
habakan
April 13, 2023
Tweet
Share
More Decks by habakan
See All by habakan
Exploratory Data Analysis of the Numerai Signals V1 Dataset
habakan
0
290
NN Starterモデルを ベイズNNにして分析してみた
habakan
1
2.2k
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
136
6.6k
Navigating Team Friction
lara
183
14k
Making the Leap to Tech Lead
cromwellryan
133
8.9k
Site-Speed That Sticks
csswizardry
0
28
10 Git Anti Patterns You Should be Aware of
lemiorhan
655
59k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.5k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
44
2.2k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
GitHub's CSS Performance
jonrohan
1030
460k
What's in a price? How to price your products and services
michaelherold
243
12k
How GitHub (no longer) Works
holman
310
140k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Transcript
Portfolio for Numerai いかにしてモデルを選択するか Numerai Comunity Tokyo Meetup 2023 4/8
habakan (@habakan_f) 1
2 Agenda Numerai Tournamentにおいてポートフォリオ構築手法を検討 live roundにて手法の評価をおこなった ・TCの計算構造的にLocal Validationで選択が難しい ・一つのモデルでTCを安定させることが難しい →複数モデルでTCを安定させる手法検証した
※注意 ・V4 Dataset以降の最新のデータセットは利用していません ・自分がV3 Dataset(2021 release)までしかやっていないため ・多くのモデルで検証してないため再現性は低いかもしれません
・提供されるデータセットのみでTCを直接計算できない →提出前にCrossValidationでモデル選択ができない ・手元のデータでTCに基づいた仮説、インサイトの発見が難しい 3 Why?:TCによる分析体験の悪さ 提供されたデータセットによるモデル選択が難しい その結果長いスパンでのモデル選択決定が必要になり、開発しにくい Numeraiにおけるモデル選択 ・TCの検証は実質的にLiveでのフォワードテスト時 →モデル選択は提出時ではなくStake時になる
・長いサイクルのPDCAでのモデル選択がより重要になる(と思う)
4 みなさんならどちらのモデルを選びますか? model TC sharpe TC rep Corr sharpe Corr
rep All Time Return habakan_d 0.4474 0.0237 0.6808 0.0176 + 192.9% habakan_dn 0.3800 0.0268 0.6975 0.0170 + 175.6% habakan_dは決定木ベースのモデル habakan_dnはhabakan_dにFNしたもの ・All Time Returnの高さ? ・TC Repの高さ? ・それとも両方Stake?
・TCの分布はメタモデルが更新されるため、独立同一分布ではない →その時点でTCが良くても分布が変われば悪くなる可能性がある ・一つの関数(モデル)でTCの高PFを維持するのはかなり難しい 5 課題:TCの不安定さ モデルの中にはTCの分布にトレンドのあるものが存在 パフォーマンスが続くのかどうかが不安 good trend bad
trend
6 みんなも上手くいってないらしい
7 一つのモデルで安定しないなら、 複数モデルStakeするか〜
ポートフォリオ最適化への課題 ・自分が専門的に詳しくない ・TCという非定常な変数を用いた 最適化への違和感 ・必要データ数が正直わからない ・モデルごとに観測Roundが異なる ・結局モデル同士相関が高い 単一モデルで安定しないのであれば、複数モデルで運用し 最適化手法などを検討するが、ポートフォリオが不安定で納得できない 8
複数モデルでの運用を考える
9 ポートフォリオ最適化で結局やりたいことは 共分散の小さい組み合わせを作ること そもそもモデルの予測自体が それぞれ直交していればいいのではないか?
10 PCAを利用したポートフォリオ構築 ポートフォリオ候補のモデル群の予測値にPCAをかけ、 抽出した主成分をポートフォリオに追加する PCA 3 x n model1 (tree
base) model2 (tree base) model3 (NN base) PC1 PC2 抽出した主成分を ポートフォリオに活用
11 PCAを利用したポートフォリオ構築 3つのBaseモデル(GBDT x 2 , NN)から第2主成分までを抽出 PCAを使うメリット ・主成分同士は直交している ・主成分はモデル予測と線形関係である
・targetは必要なく、教師なしで抽出できる LiveRound (318 ~)でモニタリングし評価 (1) 主成分を同量StakeしたらTC Sharpeは向上するか? (2) 主成分のTC相関はどうなるか? (3) Baseモデルと主成分を同量StakeしたらTC Sharpeは向上するか?
・PC1とPC2片方にStakeするより、両方にStakeしたほうがSharpe向上 12 主成分でポートフォリオを組んだ場合 一つの主成分をStakeするよりも、両方ともStakeしたほうが TC Sharpeは向上する
13 主成分でポートフォリオを組んだ場合 主成分同士のTCをマッピング ほぼ無相関になっている
14 base model1と主成分で組んだ場合 base modelで最もTCが良いモデルと第二主成分で検証 以前までは向上していたが、現在はSharpeはBaseモデルのほうがよい ~2022/10 ~2022/11 ~2022/12 ~
today Base Model1 0.46 0.24 0.44 0.44 PC2 0.97 0.39 0.83 0.21 Base Model1 + PC2 1.03 0.41 1.12 0.38 TC Sharpeの推移
15 第2主成分に関する分析 第2主成分はbase modelの一つであるNNを大きくマイナスにしたもの NNが他のモデルと異なる成分をもっている (今回のポートフォリオでは)NNが分布シフトしないかが重要だった ※ habakan_nnのTC rankはワースト 377位
/ 14720位中
16 フォワードテストによる考察 主成分分析によるTCパフォーマンスの無相関化 ・PCAを活用することで、TCが無相関に近いポートフォリオを構築可能 ・一つの主成分よりも2つの主成分をStakeすることでSharpeは向上 PCAをかければ、Base Modelをアウトパフォームできるわけではない ・結局PCAにかけるモデルは選択する必要がある ・元の予測においても途中までは、第2主成分を活用することで Sharpeは向上したが、最終的にはSingleのみのほうが良かった結果に
・ただ、今回は同量Stakeなので、Stake率を変えることによって 向上できる可能性はある
17 考察に基づいた 各Stake holder視点での展望
手法自体の今後の可能性としてやれることは案外ある ・結果が悪くてもモデル選択の意思決定として活用することも可能 →現在自分もPC2(NN)にはSharpe向上しないのでStakeしてない ・PCAに組み込むモデル選択 今回はTC Rankで上位にいったものを定性的に採用したので余地あり ・Validation DataをもとにLassoで選択 ・色々組み合わせて作成したPCAをポートフォリオ最適化 ・PCA前にFeature
Neutralization 非線形な成分のみを主成分として落とし込むとどうなるか? Sharpe向上や、PCA自体にモデルの選択などへ期待できないか? 18 For Numerai participants
PCAを元にしたTCスコアリングの分析でインサイトはないのか? ・多重共線性ってTCに影響するの?(TCは一意に収束するのか?) ・ぶっちゃけ参加者の予測行列ってランク数はどのくらい? ・あるRoundでリターンが最大化となるようTCを勾配更新したら 真の重みってどんなベクトルになる?(Dense? or Sparse?) ・PCA自体をスコアリングに活かせないか? モデル選択しやすい手法になるのなら、 TCスコアリングの中に組み込んだほうがみんなが幸せになる気がする
19 For Numerai team
PCAの直交性を活用した事例などってやられているのか? ・誰か教えてください! ファクター投資においてファクター群にPCAをかけることと 似たようなことをやっている気がします。 ・多重共線性ってタスクがそもそも難しいファイナンスタスク的に どう考えるべきか? ・ファイナンスで機械学習モデルを活用している場合、 複数モデルをどのように活用するべきか? Ensemble ?
or Decomposition ? 20 For Traders
21 真に貢献するベクトルではなく、行列を構築しよう