Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前...

Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査

Shotaro Ishihara

March 13, 2025
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 特に意味が変化していた単語 • Nikkei: 感染,感染拡大,コロナ,ワ クチン,ウイルス,マスク,感染者, 北朝鮮,接種,流行 • NOW: king, scott,

    de, virus, masks, wear, mask, pi, q, wearing [Q9-24J] Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデル の時系列性能劣化の監査 RQ: 事前学習済みモデルの時系列性能劣化を,実際に事前学習・ファインチューニ ング・推論する前に,学習コーパス内の単語の意味変化から監査できないか? • 2 期間の word2vec から軽量に計算できる指標を定義し,監査の仕組みを提案. • 実際に 11 の日本語 RoBERTa を構築し,時系列性能劣化の存在を明らかにした上で, 設計した監査の枠組みの有用性を検証・議論. 石原祥太郎 (日本経済新聞社),高橋寛武,白井穂乃 監査の枠組み Semantic Shift Stability の算出方法 時系列性能劣化 (年の異なる評価セットに対する PPPL の値の前年比の劣化幅) 2016, 2020 年の評価セット で,PPPL (穴埋めの性能) が 大きく劣化. Semantic Shift Stability は 2016, 2020 年に 日本語 (Nikkei) と英語 (NOW) の両者で小さく なり,学習コーパス内の意味変化が大きい. -0.7775 と大きな 相関関係を確認 初めて日本で大きく流行した 2020 年 2~4 月 にかけ,小さく (意味変化が大きく) なった. 月単位での Semantic Shift Stability 自然言語処理, 31巻, 4号 https://doi.org/10.5715/jnlp.31.1563