Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nlp2023 位置属性を有しない事物に対する地理的特定性の分析

nlp2023 位置属性を有しない事物に対する地理的特定性の分析

Takashi INUI

March 20, 2023
Tweet

More Decks by Takashi INUI

Other Decks in Technology

Transcript

  1. 研究背景(1/2) • SNS投稿から情報取得 • リアルタイムの天気や災害の投稿 • 位置情報付きツイートは1%未満[1] • 文書ジオロケーション課題 •

    文書(Tweetなど)と場所の対応づけ • 場所を表す表現の曖昧性解消が重要 2 中華街でランタン フェスティバルなう 横浜市 ? 神戸市 ? 長崎市 ? [1] L. Sloan, J. Morgan, W. Housley, M. Williams, A. Edwards, P. Burnap, and O. Rana. “Knowing the Tweeters: Deriving Sociologically Relevant Demographics from Twitter”.Sociological Research Online, Vol. 18,No. 3, p. 7, 2013.
  2. 研究背景(2/2) • SNSユーザの立場 • 個人情報が他人に知られない範囲での使用 • 場所を特定しやすい表現を避けたい 3 [2] 隂山宗一,乾孝司.言及に対する地理的特定性指標の提案と

    文書ジオロケーションへの適用. 情報処理学会自然言語処理研究会(NL-253-19), 2022. 場所(地理的位置)の特定しやすさを指標化 地理的特定性[2]
  3. 地理的特定性[2]の例 4 「厳島神社」の地理的特定性 0.015 ⋮ 0.021 ⋮ 0.019 ⋮ 0.014

    ⋮ 0.646 ⋮ 0 名称専有性 北海道 ⋮ 静岡県 ⋮ 京都府 ⋮ 兵庫県 ⋮ 広島県 ⋮ 沖縄県 • 47次元のベクトル • 都道府県ごとに 値を持つ • 値の偏り=認知の偏り • この例は 広島に値が偏っている [2] 隂山宗一,乾孝司.言及に対する地理的特定性指標の提案と 文書ジオロケーションへの適用. 情報処理学会自然言語処理研究会(NL-253-19), 2022.
  4. 研究目的 • 目標 • 地理的特定性の活用可能範囲を 明らかにすること • 先行研究[2] • 地理的位置属性を持つカテゴリ

    • 地名 施設名 組織名 イベント名 • 今回 • 地理的位置属性を持たないカテゴリ • 列車 特産品 苗字 植物 (祭り) • どんな意味を持った値? 5 [2] 隂山宗一,乾孝司.言及に対する地理的特定性指標の提案と 文書ジオロケーションへの適用. 情報処理学会自然言語処理研究会(NL-253-19), 2022.
  5. 目次 6 • 地理的特定性とは • 定義 • 推定方法 • エンティティ

    • メンション • 分析 • 地理的位置属性を持たないカテゴリ
  6. 地理的特定性の付与対象 • メンション • 分析対象 • 後述するカテゴリのデータから抽出 • エンティティ •

    メンションの特定性を求めるのに必要 • 日本語Wikipediaページ を使用 9 Wikipedia 長崎新地中華街 https://ja.wikipedia.org/wiki/長崎新地中華街 より引用 同じ名称のエンティティの区別 ・厳島神社(広島県) ・厳島神社(横浜市中区) ・厳島神社(松山市)
  7. エンティティの地理的特定性 11 名称専有性 厳島神社 (広島県) 0.646 厳島神社 (横浜市中区) 0.021 厳島神社

    (松山市) 0.097 厳島神社 (京都市上京区) 0.019 名称専有性 鴨川 (淀川水系) 0.633 鴨川市 (千葉市) 0.558 名称専有性 中央区 (東京都) 0.141 中央区 (大阪市) 0.117 中央区 (千葉市) 0.052 中央区 (福岡市) 0.075 名称専有性 竹下通り (東京都) 0.919 竹下通り (福岡市) 0.082 「厳島神社」の地理的特定性 「中央区」の地理的特定性 「竹下通り」の地理的特定性 「鴨川」の地理的特定性
  8. 「中央区」の地理的特定性 0.096 ⋮ 0.071 ⋮ 0.026 0.051 0.141 ⋮ 0.117

    0.103 ⋮ 0.075 ⋮ 0.043 ⋮ 名称専有性 メンションの地理的特定性 13 「厳島神社」の地理的特定性 0.015 ⋮ 0.021 ⋮ 0.019 ⋮ 0.014 ⋮ 0.646 ⋮ 0 名称専有性 北海道 ⋮ 静岡県 ⋮ 京都府 ⋮ 兵庫県 ⋮ 広島県 ⋮ 沖縄県 北海道 ⋮ 新潟県 ⋮ 埼玉県 千葉県 東京都 ⋮ 大阪府 兵庫県 ⋮ 福岡県 ⋮ 熊本県 ⋮
  9. 目次(再掲) 14 • 地理的特定性とは • 定義 • 推定方法 • エンティティ

    • メンション • 分析 • 地理的位置属性を持たないカテゴリ
  10. 今回の分析 • 対象:地理的位置属性を持たないカテゴリ • 列車 特産品 祭り 苗字 植物 • 例:牛タン ウメ • 分析方法 •

    目視による特定性の確認 どんな意味をもった値? • データ(メンション) • 表のデータから抽出 15 カテゴリ データ 列車 Wikipediaページ 日本の列車愛称一覧 特産品 Wikipediaページ 特産品 祭り 観光ドメイン日本語 Twitter投稿文書 データ 苗字 苗字由来net 植物 都道府県のシンボル
  11. カテゴリ:列車 16 • 列車が走る地域に値を持つ • ただし網羅していない • 列車が走る地域に値を持っていない事例 • 昔の列車で固有のページがない

    ムーンライト信州 山梨県 1 東京都 0 神奈川県 0 長野県 0 うずしお 徳島県 0.908 (愛媛県 0.685) 香川県 0 岡山県 0 日光 栃木県 0.924 東京都 0.509 埼玉県 0.504 群馬県 0 新雪 (誤り) (兵庫県 1) 東京都 0 新潟県 0 括弧で閉じられている都道府県 :対象の列車が走らない地域
  12. カテゴリ:特産品 (地名あり) 17 • 特定性ベクトルに値を持つ都道府県 = 生産地 or 水揚げ地 =

    地名が属する都道府県 • 言及表現が多様なエンティティは 特定性が低くなりやすい • 讃岐うどんの言及表現:讃岐,うどん 関あじ 大分県 1 川俣シャモ 福島県 1 讃岐うどん 香川県 0.127 吉野葛わらび餅 (誤り) (静岡県 0.612) 奈良県 0 水沢うどん 群馬県 1
  13. カテゴリ:特産品 (地名なし) 18 • 特定性ベクトルに値を持つ都道府県 = そのエンティティで知られる都道府県 • 特定性の値が低くなりやすい •

    一般名詞と特産品で表現が重なりやすい 玉子焼 兵庫県 0.741 スタミナラーメン 茨城県 0.833 埼玉県 0.429 牛タン 宮城県 0.522 たこ焼き (誤り?) (福岡県 0.880) (北海道 0.007) 大阪府 0
  14. カテゴリ:祭り 19 • それぞれの祭りが有名な地域に値を持ちやすい • 地理的位置属性を持つエンティティと同様の 特徴を持つカテゴリ ねぶた祭り 青森県 0.448

    よさこい祭り 高知県 0.510 七夕まつり 愛知県 0.786 富山県 0.714 宮城県 0.046 雪まつり 北海道 0.879 新潟県 0.467 花火大会 (微妙?) 東京都 0.087 神奈川県 0.031
  15. カテゴリ:苗字 20 • 苗字の起源となる地域がある都道府県に 値を持つ傾向 • 人口が多い地域との関連がある苗字がいくつか • 特定性の値を持つ次元が比較的多い 米原

    滋賀県 0.913 大井 東京都 0.844 岐阜県 0.083 静岡県 0.536 神奈川県 0.024 三重県 0.250 山梨県 0.015 埼玉県 0.084 磯部 山口県 0.671 群馬県 0.575 三重県 0.531 茨城県 0.176 芳賀 栃木県 0.994
  16. カテゴリ:植物 21 サクラソウ 北海道 1 • 一般名詞でも値を持つことができる • 群生地を持つ都道府県 •

    栽培が盛んな地域で大きな値 エゾマツ 北海道 1 ウメ 和歌山県 0.939 鹿児島県 0.086 米 (微妙) 東京都 0.658 神奈川県 0.128 青森県 0.425 沖縄県 0.081 北海道 0.293 福岡県 0.043
  17. カテゴリごとの特徴まとめ 22 • 列車 :走行地域 • 特産品:生産地 or 水揚げ地 その特産品で知られる都道府県 •

    祭り :その祭りが有名な地域 • 苗字 :苗字の起源となる地域 • 植物 :群生地、栽培が盛んな都道府県