Numeraiモデルのポートフォリオ構築の試み

Portfolio for Numerai いかにしてモデルを選択するか Numerai Comunity Tokyo Meetup 2023 4/8
habakan (@habakan_f) 1

2 Agenda Numerai Tournamentにおいてポートフォリオ構築手法を検討 live roundにて手法の評価をおこなった・TCの計算構造的にLocal Validationで選択が難しい・一つのモデルでTCを安定させることが難しい →複数モデルでTCを安定させる手法検証した
※注意・V4 Dataset以降の最新のデータセットは利用していません・自分がV3 Dataset(2021 release)までしかやっていないため・多くのモデルで検証してないため再現性は低いかもしれません

・提供されるデータセットのみでTCを直接計算できない →提出前にCrossValidationでモデル選択ができない・手元のデータでTCに基づいた仮説、インサイトの発見が難しい 3 Why?：TCによる分析体験の悪さ提供されたデータセットによるモデル選択が難しいその結果長いスパンでのモデル選択決定が必要になり、開発しにくい Numeraiにおけるモデル選択・TCの検証は実質的にLiveでのフォワードテスト時 →モデル選択は提出時ではなくStake時になる
・長いサイクルのPDCAでのモデル選択がより重要になる（と思う）

4 みなさんならどちらのモデルを選びますか？ model TC sharpe TC rep Corr sharpe Corr
rep All Time Return habakan_d 0.4474 0.0237 0.6808 0.0176 + 192.9% habakan_dn 0.3800 0.0268 0.6975 0.0170 + 175.6% habakan_dは決定木ベースのモデル habakan_dnはhabakan_dにFNしたもの・All Time Returnの高さ？・TC Repの高さ？・それとも両方Stake？

・TCの分布はメタモデルが更新されるため、独立同一分布ではない →その時点でTCが良くても分布が変われば悪くなる可能性がある・一つの関数（モデル）でTCの高PFを維持するのはかなり難しい 5 課題：TCの不安定さモデルの中にはTCの分布にトレンドのあるものが存在パフォーマンスが続くのかどうかが不安 good trend bad
trend

6 みんなも上手くいってないらしい

7 一つのモデルで安定しないなら、複数モデルStakeするか〜

ポートフォリオ最適化への課題・自分が専門的に詳しくない・TCという非定常な変数を用いた最適化への違和感・必要データ数が正直わからない・モデルごとに観測Roundが異なる・結局モデル同士相関が高い単一モデルで安定しないのであれば、複数モデルで運用し最適化手法などを検討するが、ポートフォリオが不安定で納得できない 8
複数モデルでの運用を考える

9 ポートフォリオ最適化で結局やりたいことは共分散の小さい組み合わせを作ることそもそもモデルの予測自体がそれぞれ直交していればいいのではないか？

10 PCAを利用したポートフォリオ構築ポートフォリオ候補のモデル群の予測値にPCAをかけ、抽出した主成分をポートフォリオに追加する PCA 3 x n model1 (tree
base) model2 (tree base) model3 (NN base) PC1 PC2 抽出した主成分をポートフォリオに活用

11 PCAを利用したポートフォリオ構築 3つのBaseモデル(GBDT x 2 , NN)から第２主成分までを抽出 PCAを使うメリット・主成分同士は直交している・主成分はモデル予測と線形関係である
・targetは必要なく、教師なしで抽出できる LiveRound (318 ~)でモニタリングし評価 (1) 主成分を同量StakeしたらTC Sharpeは向上するか？ (2) 主成分のTC相関はどうなるか？ (3) Baseモデルと主成分を同量StakeしたらTC Sharpeは向上するか？

・PC1とPC2片方にStakeするより、両方にStakeしたほうがSharpe向上 12 主成分でポートフォリオを組んだ場合一つの主成分をStakeするよりも、両方ともStakeしたほうが TC Sharpeは向上する

13 主成分でポートフォリオを組んだ場合主成分同士のTCをマッピングほぼ無相関になっている

14 base model1と主成分で組んだ場合 base modelで最もTCが良いモデルと第二主成分で検証以前までは向上していたが、現在はSharpeはBaseモデルのほうがよい ~2022/10 ~2022/11 ~2022/12 ~
today Base Model1 0.46 0.24 0.44 0.44 PC2 0.97 0.39 0.83 0.21 Base Model1 + PC2 1.03 0.41 1.12 0.38 TC Sharpeの推移

15 第２主成分に関する分析第2主成分はbase modelの一つであるNNを大きくマイナスにしたもの NNが他のモデルと異なる成分をもっている（今回のポートフォリオでは）NNが分布シフトしないかが重要だった ※ habakan_nnのTC rankはワースト 377位
/ 14720位中

16 フォワードテストによる考察主成分分析によるTCパフォーマンスの無相関化・PCAを活用することで、TCが無相関に近いポートフォリオを構築可能・一つの主成分よりも２つの主成分をStakeすることでSharpeは向上 PCAをかければ、Base Modelをアウトパフォームできるわけではない・結局PCAにかけるモデルは選択する必要がある・元の予測においても途中までは、第２主成分を活用することで Sharpeは向上したが、最終的にはSingleのみのほうが良かった結果に
・ただ、今回は同量Stakeなので、Stake率を変えることによって向上できる可能性はある

17 考察に基づいた各Stake holder視点での展望

手法自体の今後の可能性としてやれることは案外ある・結果が悪くてもモデル選択の意思決定として活用することも可能 →現在自分もPC2（NN）にはSharpe向上しないのでStakeしてない・PCAに組み込むモデル選択今回はTC Rankで上位にいったものを定性的に採用したので余地あり・Validation DataをもとにLassoで選択・色々組み合わせて作成したPCAをポートフォリオ最適化・PCA前にFeature
Neutralization 非線形な成分のみを主成分として落とし込むとどうなるか？ Sharpe向上や、PCA自体にモデルの選択などへ期待できないか？ 18 For Numerai participants

PCAを元にしたTCスコアリングの分析でインサイトはないのか？・多重共線性ってTCに影響するの？（TCは一意に収束するのか？）・ぶっちゃけ参加者の予測行列ってランク数はどのくらい？・あるRoundでリターンが最大化となるようTCを勾配更新したら真の重みってどんなベクトルになる？（Dense? or Sparse?) ・PCA自体をスコアリングに活かせないか？モデル選択しやすい手法になるのなら、 TCスコアリングの中に組み込んだほうがみんなが幸せになる気がする
19 For Numerai team

PCAの直交性を活用した事例などってやられているのか？・誰か教えてください！ファクター投資においてファクター群にPCAをかけることと似たようなことをやっている気がします。・多重共線性ってタスクがそもそも難しいファイナンスタスク的にどう考えるべきか？・ファイナンスで機械学習モデルを活用している場合、複数モデルをどのように活用するべきか？ Ensemble ?
or Decomposition ? 20 For Traders

21 真に貢献するベクトルではなく、行列を構築しよう

Numeraiモデルのポートフォリオ構築の試み

Numeraiモデルのポートフォリオ構築の試み

habakan

More Decks by habakan

Featured

Transcript

Portfolio for Numerai いかにしてモデルを選択するか Numerai Comunity Tokyo Meetup 2023 4/8

4 みなさんならどちらのモデルを選びますか？ model TC sharpe TC rep Corr sharpe Corr

6 みんなも上手くいってないらしい

7 一つのモデルで安定しないなら、複数モデルStakeするか〜

9 ポートフォリオ最適化で結局やりたいことは共分散の小さい組み合わせを作ることそもそもモデルの予測自体がそれぞれ直交していればいいのではないか？

10 PCAを利用したポートフォリオ構築ポートフォリオ候補のモデル群の予測値にPCAをかけ、抽出した主成分をポートフォリオに追加する PCA 3 x n model1 (tree

11 PCAを利用したポートフォリオ構築 3つのBaseモデル(GBDT x 2 , NN)から第２主成分までを抽出 PCAを使うメリット・主成分同士は直交している・主成分はモデル予測と線形関係である

・PC1とPC2片方にStakeするより、両方にStakeしたほうがSharpe向上 12 主成分でポートフォリオを組んだ場合一つの主成分をStakeするよりも、両方ともStakeしたほうが TC Sharpeは向上する

13 主成分でポートフォリオを組んだ場合主成分同士のTCをマッピングほぼ無相関になっている

14 base model1と主成分で組んだ場合 base modelで最もTCが良いモデルと第二主成分で検証以前までは向上していたが、現在はSharpeはBaseモデルのほうがよい ~2022/10 ~2022/11 ~2022/12 ~

17 考察に基づいた各Stake holder視点での展望

21 真に貢献するベクトルではなく、行列を構築しよう