Upgrade to Pro — share decks privately, control downloads, hide ads and more …

埋め込み表現の意味適応による知識ベース語義曖昧性解消

S
May 17, 2023

 埋め込み表現の意味適応による知識ベース語義曖昧性解消

辞書のような語彙資源を用いて文中の単語(対象語)の語義を識別するタスクを,知識ベース語義曖昧性解消(WSD)といいます.辞書には単語の語義を説明したテキスト,いわゆる語釈文が書いてあります.そこで有望な方法論は,BERT埋め込みを用いて対象語に最も近い語釈文を選ぶことです.しかし,もしも対象語と正解語義の埋め込みを近付ける手段があれば,さらに性能が伸びるはずです.これをふまえて,本研究では埋め込み表現の意味適応を提案しました.提案手法は,自己学習および語彙資源に書かれている語義どうしのつながりを教師信号として,埋め込み間の近さ・遠さを変更します.これにより,知識ベースWSDの最高性能を更新できました.ところで近年は,GPTなどの大規模言語モデルが目を見張るような能力を見せています.このような時代に,語彙資源のような人間の知識を深層学習モデルに統合する意義についても触れたいと思います.
NLPコロキウム 2023-05-17
https://nlp-colloquium-jp.github.io/

S

May 17, 2023
Tweet

More Decks by S

Other Decks in Research

Transcript

  1. 語義曖昧性解消(WSD: Word Sense Disambiguation) 2 “justify”の訳し分け 訳して.“We need to justify

    the margin.” 「余白を揃える必要があります。」 Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum … Contrary to popular belief, Lorem Ipsum is not simply random text. It has roots in a piece … 出典: Princeton WordNet 3.1 “justify” • 文脈を考慮して,単語(対象語)の語義を識別すること • 正確な翻訳などに役立つ[Campolungo+, 2022]
  2. 研究の動機 • 辞書だけを使って,語義を識別したい;知識ベースWSD. • He uses a mouse and keyboard.

    → device🖱️ それとも animal🐭? • 辞書(WordNet)には,語義の解説文=語釈文が書いてある. • 対象語と語釈文の文脈依存(BERT)埋め込みを計算して最も近い語義を選ぶ と,そこそこ解ける. 3 BERT 🐭mouse(animal): any of numerous small rodents… 🖱️mouse(device): a hand- operated electronic device… He uses a mouse and keyboard. 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑑𝑒𝑣𝑖𝑐𝑒 mouse 𝒗mouse 𝒗mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑑𝑒𝑣𝑖𝑐𝑒 mouse 🖱️mouse(device) 語義を識別したい テキスト 辞書(WordNet) 文脈依存埋め込み 最近傍を選ぶ pool
  3. 研究の動機 • 対象語の埋め込みを正解語義に近付けるモデルがあれば,もっと解けるはず • 辞書には語義どうしのつながり;意味ネットワークが書いてある. ここから教師信号を得られないか? 4 BERT 🐭mouse(animal) 🖱️mouse(device)

    He uses a mouse and keyboard. 意味ネットワーク(意味的つながり) mouse(device) mouse mouse(animal) airplane scanner machine 正解に近付ける 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑑𝑒𝑣𝑖𝑐𝑒 mouse 𝒗mouse ❄️ モデル
  4. 意味ネットワークに適応するような 動かし方をするモデルを学習 BERT埋め込みを変換 問い・方法論 • BERT埋め込みを以下のように動かす=適応させるモデル(𝐻𝑠, 𝐻𝑤)を学習する • 関連する(=隣接)語義◦ および対象語◇

    は,近付ける • 関連しない(=非隣接)語義◦ および異なる語義◦ は,遠ざける • 埋め込みを適応させてから最近傍を選ぶと,既存手法を上回った 5 意味ネットワーク(意味のつながり) mouse(device) mouse mouse(animal) airplane printer machine 𝒆printer 𝒆machine 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑎𝑖𝑟𝑝𝑙𝑎𝑛𝑒 A mouse got caught in a trap. BERT any of numerous small… BERT 𝐻𝑠 𝐻𝑤 𝒗mouse BERT埋め込みを意味ネットワークに適応させると,語義 の識別性能が上がるか? 遠ざける 近付ける
  5. 知識ベースWSDとは • 語義注釈付きコーパス(右下) に頼らず,WordNet等の語彙資源(左下) のみを 使う方法.長所は低コスト.語義の注釈はとても大変. • 課題は,注釈がないのにどうやって対象語を正解語義に対応付けるか. 有望な方法論は,BERT埋め込みによる最近傍法. •

    性能を伸ばす鍵は,語彙資源の情報をフル活用すること. • 語義:見出し語が持つ意味の一覧 • 語釈文:語義を説明するテキスト • 意味ネットワーク:単語・語義・語義間のつながり(例:上位下位) 7
  6. BERT埋め込みの最近傍法に基づく既存研究 • 関連する語義を互いに近付ける:SREF[Wang and Wang, 2020] 👍 意味ネットワーク上の隣接性を語義埋め込みに反映.性能が改善. 👎 対象語埋め込みはそのまま.無関連語義・異義は未活用.

    • 文書情報で対象語埋め込みを補強:COE[Wang+, 2021] 👍 隣接文をまとめてエンコード.最高精度を達成. 👎 SNS投稿などの単文には使えない.汎用性に欠ける. • 類義を考慮した最近傍語義の探索:TaM経験則[Wang and Wang, 2021] 👍 任意の埋め込みと併用できる経験則(機械翻訳のbeam searchのような存在).性能が少し改善. ➢我々も採用.提案手法と併用したときの有効性を調べる. 8 COE: Context-Oriented Embed. We set up a mousetrap. A mouse got caught in a trap. The kitchen should be … 𝒗mouse BERT TaM: Try-again Mechanism 𝒗mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 horse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 cat 𝒆rodent 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆house_mouse 𝒆′ SREF (Synset Rel.-enhanced Framework) もしanimalが正解なら,horseやcat とも近いはず 関連語義との重心へ動かす 隣接文を入れて手がかりを増やす
  7. 意味ネットワークに適応させる モデルを学習 BERT埋め込みを変換 提案手法の概要 • 語釈文を使って,語義のBERT埋め込みを計算しておく • 平文コーパスを使って,単語(対象語)のBERT埋め込みを計算しておく • いろんな文で,WordNetに出てくる単語の埋め込みを計算しておく

    • 埋め込みを意味ネットワークに適応させるモデル(𝐻𝑠, 𝐻𝑤)を学習する • 関連する(=隣接)語義◦ および対象語◇ は,近付ける • 関連しない(=非隣接)語義◦ および異なる語義◦ は,遠ざける 10 意味ネットワーク(意味のつながり) mouse(device) mouse mouse(animal) airplane printer machine 𝒆printer 𝒆machine 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑎𝑖𝑟𝑝𝑙𝑎𝑛𝑒 A mouse got caught in a trap. BERT any of numerous small… BERT 𝐻𝑠 𝐻𝑤 𝒗mouse 遠ざける 近付ける
  8. 提案手法の課題 🤔 対象語◇に近付ける語義◦をどうやって教える? • 平文コーパスから計算してるので,正解語義はわからない • 辞書を見れば候補語義はわかる • 問題は,近付ける語義をどうやって選ぶか 11

    He bought a mouse at the store. mouse(device) mouse(animal) ? ? A mouse got caught in a trap. mouse(device) mouse(animal) ? ? 文1 文2 平文コーパス内の“mouse”が出てくる文 文1: He bought a mouse at the store. 文2: A mouse got caught in a trap. …
  9. 実験設定 • 語義・対象語埋め込みエンコーダ: BERT (large-cased) ファインチューニングなし • 変換関数の最適化目標: 吸引・反発学習 および

    自己学習 • 吸引・反発学習の訓練データ: WordNet(語義数207k) • 自己学習の訓練データ: 注釈語義削除ずみSemCorコーパス(対象語数227k) • Wikitext等でも構わない.公平な比較のためWSDタスクの事実上標準であるSemCorを使用. • 埋め込みの変換関数: 順伝播型NNによる残差接続 • 埋め込みの類似度: cosine • 評価データ: WSD Evaluation framework [Raganato+, 2017] • 評価指標: マイクロF値 • 比較する既存手法 • 知識ベース手法: BERT, SREF[Wang and Wang, 2020] , COE[Wang+, 2021] • 教師あり手法: Sup-kNN[Loureiro and Jorge, 2019] 16
  10. 吸引・反発+自己学習 関連語義を近づける 埋め込みの意味適応によるWSD性能 • まず,提案手法単体での性能を評価してみる • 埋め込みの意味適応により性能が9.3pt改善(提案手法-BERT) • 関連語義を近づけるだけの既存手法(SREF)を上回る •

    提案手法は,素朴な教師ありWSD手法(Sup-kNN)をも上回る • Sup-kNNは,最も似ている用例の注釈語義を選ぶ手法. 17 適応により+9.3pt 名称 手法 WSD性能 Sup-kNN[Loureiro and Jorge, 2019] 教師あり 73.5 BERT 知識ベース 65.6 SREF[Wang and Wang, 2020] 知識ベース 71.0 提案手法 知識ベース 74.9
  11. 隣接文も使う 意味適応+TaM経験則によるWSD性能 • 次に,提案手法にTaM経験則を併用する効果を評価 • 既知の経験則は提案手法にも有効か? • 併用時の性能は2.2pt改善した(74.9→77.1). • 文書情報に頼る従来の最高精度手法(COE)を上回った.

    ➢単文に使用できて,なおかつ精度も更新できた 18 SoTA更新 +0.8pt 名称 手法 文書 WSD性能 SREF+TaM 知識ベース 不要 73.5 [SoTA]COE+TaM 知識ベース 必要 76.3 提案手法 知識ベース 不要 74.9 提案手法+TaM 知識ベース 不要 77.1 TaM(Try-again Mechanism)経験則 [Wang and Wang, 2021] 𝒗mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 horse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 cat horseやcatとも近いか考慮して animalが正解かどうか選び直す TaM効果 +2.2pt
  12. まとめ • 関連する語義や対象語を近づけ,無関連語義や異義は遠ざけるように 埋め込みを動かすモデルを学習する • 学習方法として,吸引・反発学習および自己学習の同時最適化を提案. • 提案手法が,既存手法を上回ることを報告 • 意味ネットワークと埋め込みの相似性を分析.埋め込み間の距離が

    ネットワークの隣接性に適応する傾向を確認 • 多言語WSDに応用したい.資源が乏しい言語で長所を発揮するか • 英語で学習した関数は,他言語に転用できるか? 21 BERT埋め込みを意味ネットワークに適応させると, 語義の識別性能が上がるか? 本研究の問い
  13. 大規模言語モデルは語義識別が不得意? • Word-in-Context(WiC)[Pilehvar and Camacho-Collados, 2019] という語義識別タスクがある • 文脈語の語義が2文間で同じか違うかを分類するタスク. WSDの亜種[Hauer

    and Kondrak, 2022] 例: (Justify the margins, The end justifies the means) → 同じ意味 それとも 違う? • WiCをFew-shot学習で解くと,GPT-3・LaMDA・FLAN・PaLMは乱択レベル, またはBERTのファインチューニングを下回る. • 現状はLLM単体での語義識別は困難で,相応の訓練データが必要と示唆される 24 名称 手法 訓練データ WiC性能(Acc) GPT-3 175B [Brown+, 2020] In-context学習 Few-shot 49.4 LaMDA 137B [Wei+, 2022] Prompt tuning 32shot 51.6 FLAN 137B [Wei+, 2022] Prompt tuning 32shot 57.8 PaLM 540B [Chowdhery, 2022] In-context学習 Few-shot 64.6 PaLM 540B [Chowdhery, 2022] Fine-tuning Full 78.8 BERT(large) [Wang+, NeurIPS2019] Fine-tuning Full 69.6
  14. 「事例で学ぶ」から「知識を学ぶ」へ • 大規模言語モデルは構造化知識と相性がよい • 少ない事例で学習できる[Brown+, 2020] • 相応の常識や知識を保持している[Petroni+, 2019] •

    LLMの性質を活用して,知識をそのまま教える手法が研究されている • 検索した知識をContextに入力[Pan+, 2023] • モデルパラメータをピンポイントで書き換える[Meng+, 2022] • 大規模言語データから学んだ概念を人間の知識で洗練する方法論への発展か 26 [Meng+, 2022] Locating and Editing Factual Associations in GPT. In: NeurIPS 2022. [Pan+, 2023] Knowledge-in-Context: Towards Knowledgeable Semi- Parametric Language Models. In: ICLR 2023.
  15. 参考文献 • [Campolungo+, 2022] CAMPOLUNGO, Niccolò, et al. DiBiMT: A

    novel benchmark for measuring Word Sense Disambiguation biases in Machine Translation. In: ACL 2022, pp. 4331-4352, 2022. • [Wang and Wang, 2020] Ming Wang and Yinglin Wang. A synset relation-enhanced framework with a try-again mechanism for word sense disambiguation. In: EMNLP 2020, pp. 6229–6240, 2020. • [Wang+, 2021] Ming Wang, Jianzhang Zhang, and Yinglin Wang. Enhancing the context representation in similarity-based word sense disambiguation. In: EMNLP 2021, pp. 8965–8973, 2021. • [Wang and Wang, 2021] Ming Wang and Yinglin Wang. Word sense disambiguation: Towards interactive context exploitation from both word and sense perspectives. In: ACL-IJCNLP 2021, pp. 5218–5229, 2021. • [Loureiro and Jorge, 2019] Daniel Loureiro and Alıpio Jorge. Language modelling makes sense: Propagating representations through wordnet for full-coverage word sense disambiguation. In: ACL 2019, pp. 5682–5691, 2019. • [Raganato+, 2017] Alessandro Raganato, Jose Camacho-Collados, and Roberto Navigli. Word sense disambiguation: Aunified evaluation framework and empirical comparison. In: EACL 2017, pp. 99–110, 2017. • [Deng+, 2019] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. In: CVPR 2019, pp. 4690–4699, 2019. • [Brown+, 2020] BROWN, Tom, et al. Language models are few-shot learners.In: NeurIPS 2020, 33: 1877-1901, 2020. • [Petroni+, 2019] PETRONI, Fabio, et al. Language Models as Knowledge Bases?. In: EMNLP 2019, pp. 2463-2473, 2020. • [Pan+, 2023] PAN, Xiaoman, et al. Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models. In: ICLR 2023. 2023. • [Meng+, 2022] MENG, Kevin, et al. Locating and Editing Factual Associations in GPT. In: NeurIPS 2022. 2022. 28