Corpus(train, dev: 10日分の記事, test: 1日分の記事?) • ドイツ語: ECI Multilingual Text Corpus(train, dev, test: 1週間分の記事) •CoNLL 2003 ことはじめ 1. ロイターコーパスを入手する • http://trec.nist.gov/data/reuters/reuters.html 2. NEのアノテーションデータを入手する • https://www.clips.uantwerpen.be/conll2003/ner/ 3. NEタグ付与コーパスを生成する • 2で入手したデータの中に生成スクリプトが含まれている 8 https://www.clips.uantwerpen.be/conll2003/ner/