$30 off During Our Annual Pro Sale. View Details »

テキストメディア特論 「会社名」の抽出

Loran
October 01, 2023

テキストメディア特論 「会社名」の抽出

Loran

October 01, 2023
Tweet

More Decks by Loran

Other Decks in Research

Transcript

  1. 「会社名」の抽出
    @lamrongol

    View Slide


  2. 「~社」などの表現から会社名を判断する方法には限界
    がある

    切れ目の判断が難しい(「・」は切れ目か否か、など)

    「オラクル」のように「~社」の形になってないものは社名と判
    断できない

    「東電」などの略称もある

    あらかじめどのような会社名があるか登録しておけばよ

    View Slide

  3. Wikipedia の利用

    Wikipediaの特徴

    各項目には多くの場合「千葉県の会社」などカテゴリが
    付与されている

    一定の規則に基づいた文書が大量にある

    人手による更新・訂正が行われるので正確性がある程
    度保証されている

    大量の「会社名」データを手に入れることができる
    (Wikipediaのデータベース・ダンプを利用)

    View Slide

  4. 略称の取得

    略称と正式名称の関連も取得できる

    例)「日立」というリンクから「日立製作所」につな
    がっている場合

    「日立」=「日立製作所」と関連付けられる

    View Slide

  5. Wikipedia以外からの取得

    Web上にはWikipedia以外の文書も大量にある

    しかし、それらはWikipediaのように「企業」であることが
    明記されてるわけではない

    だが、量は圧倒的に多いのでなんとか活用したい

    周りの文章から「会社名」であることを判断できな
    いか?

    「〇〇は東証一部に上場した~」

    「〇〇は1997年に創業した~」

    View Slide

  6. 構造化されてない文章からの会社名の取得

    まず、Wikipediaなど構造化されているデータを「訓
    練データ」として用いる

    前後の単語から、会社名を判断する確率モデルを作


    構造化されてないデータ(ブログの文章等)に対して
    これを適用し、会社名を取り出す
    P(会社名|創業)=
    N(会社名∧創業)
    N(創業)

    View Slide

  7. 関連研究の応用

    Support Vector Machineを用いた日本語固有表
    現抽出[山田 et al]

    前後の単語の素性(単語自体だけでなく、品詞の
    種類なども含む)ベクトルの集合に対してSVMを行
    い、学習させる

    View Slide