デ ル 達 と 計 算 リ ソ ー ス 44 最高性能を叩きだしているのは、ほぼGoogleのみ (CNN含め) 90%超のモデルは、1枚のTPUv3だと、10K日≒27年以上学習にかかる 非Google モデルも32GBのV100のため、ImageNet最高性能を再現するのは骨が折れそう モデル 著者所属 ImageNet 学習データ 学習時間 ViT[1] Google Research, Brain Team 88.55% JFT 300M 2.5k TPUv3 days ViT(Scaling ViT)[17] Google Research, Brain Team 90.45% JFT 300M 10K > TPUv3 days V-MoE[33] Google Brain 90.35% JFT 300M 16.8k TPUv3 days EffNet + MPL[45] Google AI, Brain Team 90.2% JFT 300M 22.5K TPUv3 days EffNet v2[34] Google Research, Brain Team 85.7% 87.3% ImageNet 1K ImageNet 21K 32+α TPUv3 days 64+α TPUv3 days 以下、非Googleの手法で高性能なTransformer(&CNN) LV-ViT[35] ByteDance 86.4% ImageNet 1K 24+α V100 days BEiT[20] Microsoft Research 86.3% Image Net 1K 80+α V100 days T-ResNet-RS[36] Facebook AI Research 84.5% Image Net 1K 33+α V100 days 参考文献: [1][17][20][33][34][35][36][45] ©Panasonic Corporation 2021