・ 60/9秒のwindowを半分ずつスライドさせながらcrop。1Clipあたり17枚の画像 が作成される。1Clip予測するのに17画像予測する必要がある。 (testと同じように評価するためにvalidationも17画像予測していたが、 missing labelのことを考えると、targetが存在する画像のみで評価したほうがよ かったかも。) train_tpのラベルが含まれるように60/9秒でrandom crop。周波数方向は切り 取らない。 60/2秒~60/20秒を実験したが60/9秒、60/10秒あたりが精度良かった。 17images 60 9 Sec. 256*1001pixel missing labelsへの対処をしていないのにもかかわらずそこそこ(?)の精度が出せたのは 60/9秒という秒数が鳴き声の情報を損なわず、ラベルが欠損している鳴き声が混入しづらい いい感じの秒数となったことが要因?( 60/6秒でcropした人が多い印象) 38位の人も60/6秒より、60/12秒のほうが良かったと言ってる。