Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nlp2025 地理的言及に対するエンティティ・リンキングにおける住所階層の利用

nlp2025 地理的言及に対するエンティティ・リンキングにおける住所階層の利用

言語処理学会第31回年次大会(NLP2025)

Takashi INUI

March 18, 2025
Tweet

More Decks by Takashi INUI

Other Decks in Research

Transcript

  1. 研究背景と目的 ⚫ 文書ジオロケーション ⚫ SNS 投稿の投稿位置を推定 ⚫ 投稿の言及に EL ⚫

    エンティティ情報を利用 ⚫ 地理的言及への EL は不足 ⚫ 地理的言及: 地理的位置属性を持つ言及 ⚫ 地理的言及に特化したエンティティ曖昧性解消を提案 3
  2. 先行研究 ⚫ [Leidner 2004] ⚫ Toponym Resolution (文書中の地名→実世界上の位置) ⚫ 地理的な距離を利用した曖昧性解消

    ⚫ [Yamada+ 2022] ⚫ 深層学習ベースのエンティティ曖昧性解消モデル ⚫ 汎用的なタスクに対応したモデル 4 [Leidner 2004] Leidner, Jochen L. "Toponym resolution in text:“Which Sheffield is it?”." Proceedings of the the 27th annual international ACM SIGIR conference (SIGIR 2004). 2004. [Yamada 2022] Ikuya Yamada, Koki Washio, Hiroyuki Shindo, Yuji Matsumoto. Global Entity Disambiguation with BERT. Association for Computational Language. 2022
  3. 曖昧性解消モデル ⚫ LUKE モデル ⚫ 地理的言及 → 埋め込み表現を獲得 ⚫ 埋め込み表現

    (文脈を考慮した語のベクトル表現) ⚫ エンティティ予測ヘッド ⚫ 埋め込み表現をもとに候補からエンティティを予測 ⚫ 候補に対する分類問題 7
  4. 言語モデル LUKE ⚫単語とエンティティ(言及)を扱うモデル ⚫ 入力文章 X (トークン列 {𝑡1 , 𝑡2

    … }) ⚫ 𝑒 ∈ 1, 0 トークンが単語か言及か (後述) 埋め込み表現 = 𝐿𝑈𝐾𝐸(𝑋, 𝑡𝑖 , 𝑒) 8
  5. [Yamada2022+]の評価 ⚫ データセット: 日本語 Wikification コーパス ⚫ 新聞記事をベースとしたコーパス ⚫ 各言及

    → 言及のカテゴリ、対応する Wikipedia 記事 ⚫ 対象:正解が候補に含まれている地理的言及5,525件 ⚫ 1言及あたりの平均候補数: 32.9 10 [Yamada+2022] 正解率(%) 89.8 (4961 / 5525)
  6. 誤り分析 ⚫ 同名の地名との混同 【正解: 日吉町(京都府), 出力: 日吉町(所沢市)】 事例: ~京都府日吉町の明治鍼灸大学付属鍼灸センター ⚫

    異なるカテゴリのエンティティとの混同 【正解: 登別市, 出力: 登別駅】 事例: 市内全域を網羅する飲食店ガイドは登別では初めて 11
  7. 提案手法: 階層挿入(2) ⚫文中のある言及の次の言及が下位カテゴリ ⚫「茨城県のつくば市」 ⚫ 茨城県 → Province, つくば市 →

    City ⚫下位の言及の前に上位の言及を挿入 ⚫茨城県の茨城県つくば市 ⚫これを入力文章として与える ⚫生成される候補は階層挿入前後で変わらない 14
  8. 改善例 ⚫ 言及に対して直接階層情報が与えられ改善 【正解: 宮田町(福岡県), 挿入なし: 宮田町(愛知県)】 ・福岡県宮田町の同社内の会見で・・・ ⚫ 階層挿入法適用後

    ⚫ 「福岡県福岡県宮田町~」 ⚫ 一見冗長か? ⚫ 「福岡県」は単語として挿入 ⚫ 地理的な文脈の強化 19 Province City