_START_SECTION_, _START_PARAGRAPH_, _NEWLINE_をuser_defined_symbolsに指定 BERTで使われる[CLS],{SEP],[MASK]をcontrol_symbolsに指定 BigBirdの事前学習⽤データはBERTと同様なので、 https://github.com/yoheikikuta/bert-japanese の学習データ作成プログ ラムを利⽤した(サイズ約37GB) max_token_length=4096, masked_lm_prob=0.15, max_predictions_per_seq=600, dupe_factor=10 属性は、input_ids, segment_ids, masked_lm_positions, masked_lm_ids, masked_lm_weights, next_sentence_labels