知識強化言語モデルLUKE @ LUKEミートアップ

山田育矢, 鈴木正敏知識強化言語モデル Studio Ousia

自己紹介山田育矢 (@ikuyamada) Studio Ousia チーフサイエンティスト名古屋大学客員教授理化学研究所AIP
客員研究員 • 大学入学時に、ベンチャー企業を起業し売却（2000年〜2006年） ◦ インターネットの基盤技術（Peer to Peer通信におけるNAT越え問題）の研究開発を推進 ◦ 売却先企業は株式上場 • Studio Ousiaを共同創業し、自然言語処理に取り組む（2007年〜） ◦ 言語モデルや質問応答を中心とした自然言語処理の研究開発を推進 • プログラミングが好き ◦ 好きなライブラリ: Numba, Cython, Transformers 2

本日の講演の内容 • LUKE (EMNLP 2020, ACL 2022) • LUKEのエンティティリンキングへの応用 (NAACL
2022, EMNLP Findings 2022) • 日本語LUKE (2022) • LUKEの拡張 - LUXE（2025, Work In Progress） 3 知識強化モデル「LUKE」とその後続の研究での展開についてお話します

LUKE 4 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto EMNLP 2020 mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka ACL 2022

LUKE: 概要 • 知識を使うことが重要なダウンストリームタスクにおいて良い性能を達成 e.g., エンティティリンキング・質問応答・固有表現抽出・関係認識・型認識 • Huggingface Transformers経由で簡単に使える 5
単語とエンティティの文脈付きベクトルを出力する知識強化 (knowledge-enhanced)されたエンコーダ型の言語モデル from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained(“studio-ousia/luke-base”) tokenizer = AutoModel.from_pretrained(“studio-ousia/luke-base”)

LUKE: エンティティとは物や概念をあらわす言語表現例: Wikipediaに存在するような一般的な用語個人や組織独自の用語 6

言語モデル（LM）ではエンティティをうまく表現しにくい ◦ LMはエンティティのスパンに対応する表現を出力できない ◦ エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい ◦ Masked LMの訓練タスクはエンティティに向いているとは言えない 7
BERT...? GPT…? The Force is not strong with them. Mark Hamill by Gage Skidmore 2 LUKE: 背景

言語モデル（LM）ではエンティティをうまく表現しにくい ◦ LMはエンティティのスパンに対応する表現を出力できない ◦ エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい ◦ Masked LMの訓練タスクはエンティティに向いているとは言えない 8
BERT...? GPT…? The Force is not strong with them. Mark Hamill by Gage Skidmore 2 LUKE: 背景 ”[MASK]・ポッター ”に対して”ハリー”を予測するのは ”ハリー・ポッター ”全体を予測するより明らかに簡単

• Transformerエンコーダ（BERT/RoBERTa）をベースにした言語モデル ◦ 単語とエンティティの双方を独立したトークンとして扱う ◦ ランダムに単語とエンティティをマスクして訓練を行う LUKE: アーキテクチャ 9 Wikipediaのエンティティアノテーション付きの入力テキスト:
Beyoncé lives in Los Angeles

LUKE: アーキテクチャ • LUKE は単語とエンティティを独立したトークンとして扱う • エンティティが独立したトークンとして扱われているので ◦ エンティティのスパンが自然に表現できる ◦
エンティティ同士の関係がTransformer内部で自然に捉えられる 10 Wikipediaのエンティティアノテーション付きの入力テキスト: Beyoncé lives in Los Angeles 入力表現の計算

LUKE: 事前訓練: 単語とエンティティをマスク 11 Wikipediaリンクをエンティティのアノテーションとして使用 Wikipediaに含まれる単語およびエンティティをランダムにマスクする
単語およびエンティティを15%の確率で[MASK] 単語、[MASK]エンティティに変換 Born and raised in Houston, Texas, Beyoncé performed in various singing and dancing competitions as a child. She rose to fame in the late 1990s as the lead singer of Destiny's Child Born and [MASK] in Houston, Texas, [MASK] performed in various [MASK] and dancing competitions as a [MASK]. She rose to fame in the [MASK] 1990s as the lead singer of Destiny's Child

LUKE: 事前訓練: マスクした単語とエンティティを予測して訓練 12 下記の2つのタスクで訓練 • マスクされた単語の元の単語を予測 • マスクされたエンティティの元のエンティティを予測 Wikipediaに含まれる単語およびエンティティをランダムにマスクし
それらを予測することで訓練

LUKE: ダウンストリームタスクでのエンティティ表現の利用 13 LUKEにエンティティを入力する2つの方法： 1. [MASK] エンティティを入力 ◦ 事前訓練時に使った[MASK] エンティティを利用する
◦ 入力テキスト中からエンティティに関する情報を集約したエンティティ表現が得られる

LUKE: ダウンストリームタスクでのエンティティ表現の利用 14 LUKEにエンティティを入力する2つの方法： 1. [MASK] エンティティを入力 ◦ 事前訓練時に使った[MASK] エンティティを利用する
◦ 入力テキスト中からエンティティに関する情報を集約したエンティティ表現が得られる 2. Wikipediaエンティティを入力 ◦ 入力テキストに含まれるWikipediaエンティティを入力する ◦ エンティティエンべディングに含まれる豊富な情報を使ってタスクを解くことができる ◦ エンティティリンキングが必要

LUKE: 実験 5つの異なる知識の必要なタスク（knowledge-intensive tasks）でSOTAを更新 15 Dataset Task Open Entity エンティティ型認識
TACRED 関係認識 CoNLL-2003 固有表現認識 ReCoRD 穴埋め式質問応答 SQuAD 抽出型質問応答

LUKE: 実験: エンティティ型認識、関係認識、穴埋め式質問応答 16 モデル: エンティティ表現を入力とする線形分類層を追加モデルへの入力: • テキスト •
対象となるエンティティのスパンに対応する [MASK] エンティティエンティティ型認識、関係認識、穴埋め式質問応答にてSOTAを更新 Results on Open Entity Results on TACRED Results on ReCoRD データセット: • Open Entity (エンティティ型認識) • TACRED (関係認識) • ReCoRD (穴埋め式質問応答)

LUKE: 実験: 固有表現認識 17 モデル: 1. 入力テキスト中の全てのスパンをエンティティの候補として扱う 2. 各スパンをエンティティの型、もしくはnon-entity型に分類
3. ロジットの大きいものから順に分類結果を確定モデルへの入力: • 入力テキスト • 入力テキスト中の全てのエンティティスパンに対応する [MASK] エンティティ固有表現認識データセット（CoNLL-2003）でSOTAを更新 Results on CoNLL-2003

LUKE: 実験: 抽出型質問応答 18 モデル: 出力単語表現の上に開始位置、終了位置を推定する線形分類層を追加モデルへの入力: • 質問及びパッセージのテキスト
• パッセージに含まれるWikipediaエンティティ抽出型質問応答データセット（SQuAD v1.1）でSOTAを更新 Results on SQuAD v1.1 LUKE got #1 on leaderboard

LUKEによるエンティティリンキング 19 Global Entity Disambiguation with BERT Ikuya Yamada, Koki
Washio, Hiroyuki Shindo, Yuji Matsumoto NAACL 2022 Entity Embedding Completion for Wide-Coverage Entity Disambiguation Daisuke Oba, Ikuya Yamada, Naoki Yoshinaga, Masashi Toyoda EMNLP Findings 2022

LUKEによるエンティティリンキング: エンティティリンキングとは 20 エンティティリンキング: メンションをエンティティにリンクするタスクメッシとロナウドがワールドカップ
に出場した

LUKEによるエンティティリンキング: エンティティリンキングとは 21 エンティティリンキング: メンションをエンティティにリンクするタスクメッシとロナウドがワールドカップ
に出場したリオネル・メッシ FIFA ワールドカップクリスティアーノ・ロナウド固有名詞や専門用語の曖昧性解消は実利用でも重要な課題

LUKEによるエンティティリンキング: ローカルモデル 22 ローカルモデル: 各メンションに対応する[MASK]エンティティを予測

LUKEによるエンティティリンキング: グローバルモデル 23 • メンションを順に対応するエンティティに紐づけていく • 紐づけたエンティティをコンテクストとして使うグローバルモデル:

LUKEによるエンティティリンキング: グローバルモデル 27 • メンションを順に対応するエンティティに紐づけていく • 紐づけたエンティティをコンテクストとして使うグローバルモデル: 各ステップで最も確信度が高い予測を得たメンションを紐づけていく

LUKEによるエンティティリンキング: 実験結果 28 Name Accuracy Ganea and Hoffman (2017) 92.2
Cao et al. (2021) 93.3 Barba et al. (2022) 92.6 Our local model 94.5 Our global model 95.0 Name Average F1 Ganea and Hoffman (2017) 85.2 Cao et al. (2021) 87.8 Barba et al. (2022) 88.9 Our local model 89.4 Our global model 89.9 Accuracy on AIDA-CoNLL Average F1 scores on MSNBC, AQUAINT, ACE2004, WNED-WIKI, and WNED-CWEB • 複数のエンティティリンキングのデータセットでSOTAを獲得 • グローバルモデルはローカルモデルより一貫して高性能

日本語LUKE 29

日本語LUKE: 概要 30 モデルの訓練： 1. XLM-RoBERTaを訓練コーパス：日本語Wikipedia + 日本語CC100 トークナイザ：Sentencepiece（語彙はコーパスから学習）
ハイパーパラメータ：CamemBERT (ACL 2020) を再現 2. mLUKEを訓練コーパス：日本語Wikipedia ハイパーパラメータ：LUKE (EMNLP 2020) と同じ設定を使用モチベーション：日本語の知識強化言語モデルを作りたい

日本語LUKE: 評価: baseモデル 31 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA
日本語LUKE base 0.965 0.916/0.877 0.912 0.842 XLM-RoBERTa base (ベースモデル) 0.961 0.910/0.871 0.902 0.838 Tohoku BERT base 0.958 0.909/0.868 0.899 0.808 Waseda RoBERTa base 0.962 0.913/0.873 0.895 0.840 XLM-RoBERTa base (original) 0.961 0.877/0.831 0.893 0.687 • XLM-RoBERTaベースモデルと比較して性能が改善 • 全てのデータセットにおいて既存モデルよりも高い性能を獲得

日本語LUKE: 評価: largeモデル 32 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA
日本語LUKE large 0.965 0.932/0.902 0.927 0.893 Tohoku BERT large 0.955 0.913/0.872 0.900 0.816 Waseda RoBERTa large (seq128) 0.954 0.930/0.896 0.924 0.907 Waseda RoBERTa large (seq512) 0.961 0.926/0.892 0.926 0.891 XLM-RoBERTa large (original) 0.961 0.877/0.831 0.919 0.840 • JCommonsenseQAを除くデータセットにおいて既存モデルよりも高い性能を獲得

LUKEの拡張 - LUXE 33 Language Understanding with dupleX Entity knowledge

次世代知識強化言語モデル LUXE（仮称）従来のLUKEでできること • テキストに含まれるエンティティを予測する（エンティティの情報を用いてテキストの埋め込みを改善する） LUXEで新たにできるようになること • テキストの主題のエンティティを予測する •
テキストの主題のトピックを予測する • 任意のエンティティ集合を用いた推論に対応する 34

LUXEで新たにできるようになること (1/2) 主題エンティティ/トピックの予測入力に対して「これは何に関するテキストか」を予測できるようにする UBKE-LUKEにおける例 • 入力: レクサスは主に北米の高級車マーケットにおいて、一定の地位を築いた。 •
出力: トヨタ自動車手法: 訓練データ（Wikipedia）のテキストが属する記事タイトルおよび　　カテゴリを教師信号にモデルを訓練 35

LUXEで新たにできるようになること (2/2) 任意のエンティティ集合に対する推論 • UBKE-LUKEでは、ユーザベースが独自に持つ企業名データをエンティティ集合として用いてLUKEを追加訓練 • LUXEでは、任意のエンティティ集合に対する推論（主題および文中のエンティティの予測）をモデルの追加訓練なしに実現したい手法:
Wikipediaで訓練済みのLUXEを用いて、任意のエンティティについての説明文や言及文からエンティティの埋め込みを生成し、それらを推論に用いる • 弊社インターン生による研究 [Oba+ EMNLP 2022 Findings] を応用 36

LUXE の応用可能性任意のテキストに対して意味のあるタグ（エンティティ）を付与できる ⇒ タグを軸として、テキストを整理したり活用できるようになる • LUXEが付与したタグに基づいて、テキストを分類・整理する • 意味的に近いタグを辿ることで、興味あるテキストを探索する •
LLMと組み合わせて、タグに対応したテキストの集合を要約する LUXEで、テキストを「使えるナレッジ」へ 38

知識強化言語モデルLUKE @ LUKEミートアップ

知識強化言語モデルLUKE @ LUKEミートアップ

Ikuya Yamada

More Decks by Ikuya Yamada

Other Decks in Research

Featured

Transcript

山田育矢, 鈴木正敏知識強化言語モデル Studio Ousia

自己紹介山田育矢 (@ikuyamada) Studio Ousia チーフサイエンティスト名古屋大学客員教授理化学研究所AIP

本日の講演の内容 • LUKE (EMNLP 2020, ACL 2022) • LUKEのエンティティリンキングへの応用 (NAACL

LUKE 4 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention

LUKE: 概要 • 知識を使うことが重要なダウンストリームタスクにおいて良い性能を達成 e.g., エンティティリンキング・質問応答・固有表現抽出・関係認識・型認識 • Huggingface Transformers経由で簡単に使える 5

LUKE: エンティティとは物や概念をあらわす言語表現例: Wikipediaに存在するような一般的な用語個人や組織独自の用語 6

LUKE: アーキテクチャ • LUKE は単語とエンティティを独立したトークンとして扱う • エンティティが独立したトークンとして扱われているので ◦ エンティティのスパンが自然に表現できる ◦

LUKE: 事前訓練: 単語とエンティティをマスク 11 Wikipediaリンクをエンティティのアノテーションとして使用 Wikipediaに含まれる単語およびエンティティをランダムにマスクする

LUKE: ダウンストリームタスクでのエンティティ表現の利用 13 LUKEにエンティティを入力する2つの方法： 1. [MASK] エンティティを入力 ◦ 事前訓練時に使った[MASK] エンティティを利用する

LUKE: ダウンストリームタスクでのエンティティ表現の利用 14 LUKEにエンティティを入力する2つの方法： 1. [MASK] エンティティを入力 ◦ 事前訓練時に使った[MASK] エンティティを利用する

LUKE: 実験 5つの異なる知識の必要なタスク（knowledge-intensive tasks）でSOTAを更新 15 Dataset Task Open Entity エンティティ型認識

LUKE: 実験: エンティティ型認識、関係認識、穴埋め式質問応答 16 モデル: エンティティ表現を入力とする線形分類層を追加モデルへの入力: • テキスト •

LUKE: 実験: 固有表現認識 17 モデル: 1. 入力テキスト中の全てのスパンをエンティティの候補として扱う 2. 各スパンをエンティティの型、もしくはnon-entity型に分類

LUKE: 実験: 抽出型質問応答 18 モデル: 出力単語表現の上に開始位置、終了位置を推定する線形分類層を追加モデルへの入力: • 質問及びパッセージのテキスト

LUKEによるエンティティリンキング 19 Global Entity Disambiguation with BERT Ikuya Yamada, Koki

LUKEによるエンティティリンキング: エンティティリンキングとは 20 エンティティリンキング: メンションをエンティティにリンクするタスクメッシとロナウドがワールドカップ

LUKEによるエンティティリンキング: エンティティリンキングとは 21 エンティティリンキング: メンションをエンティティにリンクするタスクメッシとロナウドがワールドカップ

LUKEによるエンティティリンキング: ローカルモデル 22 ローカルモデル: 各メンションに対応する[MASK]エンティティを予測

LUKEによるエンティティリンキング: グローバルモデル 23 • メンションを順に対応するエンティティに紐づけていく • 紐づけたエンティティをコンテクストとして使うグローバルモデル:

LUKEによるエンティティリンキング: グローバルモデル 24 • メンションを順に対応するエンティティに紐づけていく • 紐づけたエンティティをコンテクストとして使うグローバルモデル:

LUKEによるエンティティリンキング: グローバルモデル 25 • メンションを順に対応するエンティティに紐づけていく • 紐づけたエンティティをコンテクストとして使うグローバルモデル:

LUKEによるエンティティリンキング: グローバルモデル 26 • メンションを順に対応するエンティティに紐づけていく • 紐づけたエンティティをコンテクストとして使うグローバルモデル:

LUKEによるエンティティリンキング: 実験結果 28 Name Accuracy Ganea and Hoffman (2017) 92.2

日本語LUKE 29

日本語LUKE: 概要 30 モデルの訓練： 1. XLM-RoBERTaを訓練コーパス：日本語Wikipedia + 日本語CC100 トークナイザ：Sentencepiece（語彙はコーパスから学習）

日本語LUKE: 評価: baseモデル 31 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA

日本語LUKE: 評価: largeモデル 32 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA

LUKEの拡張 - LUXE 33 Language Understanding with dupleX Entity knowledge