Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストメディア特論 「会社名」の抽出
Search
Lamron
October 01, 2023
Research
0
29
テキストメディア特論 「会社名」の抽出
Lamron
October 01, 2023
Tweet
Share
More Decks by Lamron
See All by Lamron
テキストメディア特論 類似した「名前」の同一性の判定
lamrongol
0
31
Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」
lamrongol
0
300
要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization
lamrongol
0
2k
Blueskyの「今」がわかる!Bot
lamrongol
0
1.5k
Other Decks in Research
See All in Research
[2023 CCSE] ZOZOTOWN検索における 研究開発の取り組みについて
tomoyayama
0
130
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
Equivalence of Geodesics and Importance Weighting from the Perspective of Information Geometry
mkimura
0
140
説明可能AI:代表的手法と最近の動向
yuyay
1
630
精神疾患患者のアクティビティデータを利用したリハビリテーションのためのシステムに関する研究
comfortdesignlab
0
150
データで診て考える合志市の渋滞と公共交通 ~めざせ 車1割削減、渋滞半減、公共交通2倍~
trafficbrain
0
470
機械学習と数理最適化の融合-文脈付き確率的最短路を例として-
mickey_kubo
2
470
Prompt Tuning から Fine Tuning への移行時期推定
icoxfog417
17
7.1k
時系列解析と疫学
kingqwert
2
940
NeurIPS-23 参加報告 + DPO 解説
akifumi_wachi
5
2k
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
140
研究効率化Tips_2024 / Research Efficiency Tips 2024
ryo_nakamura
5
3.1k
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
238
11k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
8
1.3k
The Invisible Customer
myddelton
114
12k
The Invisible Side of Design
smashingmag
294
49k
What's new in Ruby 2.0
geeforr
337
31k
Done Done
chrislema
178
15k
Large-scale JavaScript Application Architecture
addyosmani
504
110k
Practical Orchestrator
shlominoach
183
9.7k
Building Effective Engineering Teams - LeadDev
addyosmani
31
1.9k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
The Illustrated Children's Guide to Kubernetes
chrisshort
32
46k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
Transcript
「会社名」の抽出 @lamrongol
「~社」などの表現から会社名を判断する方法には限界 がある 切れ目の判断が難しい(「・」は切れ目か否か、など) 「オラクル」のように「~社」の形になってないものは社名と判 断できない 「東電」などの略称もある
あらかじめどのような会社名があるか登録しておけばよ い
Wikipedia の利用 Wikipediaの特徴 各項目には多くの場合「千葉県の会社」などカテゴリが 付与されている 一定の規則に基づいた文書が大量にある
人手による更新・訂正が行われるので正確性がある程 度保証されている 大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)
略称の取得 略称と正式名称の関連も取得できる 例)「日立」というリンクから「日立製作所」につな がっている場合 「日立」=「日立製作所」と関連付けられる
Wikipedia以外からの取得 Web上にはWikipedia以外の文書も大量にある しかし、それらはWikipediaのように「企業」であることが 明記されてるわけではない だが、量は圧倒的に多いのでなんとか活用したい 周りの文章から「会社名」であることを判断できな
いか? 「〇〇は東証一部に上場した~」 「〇〇は1997年に創業した~」
構造化されてない文章からの会社名の取得 まず、Wikipediaなど構造化されているデータを「訓 練データ」として用いる 前後の単語から、会社名を判断する確率モデルを作 る 構造化されてないデータ(ブログの文章等)に対して これを適用し、会社名を取り出す
P(会社名|創業)= N(会社名∧創業) N(創業)
関連研究の応用 Support Vector Machineを用いた日本語固有表 現抽出[山田 et al] 前後の単語の素性(単語自体だけでなく、品詞の
種類なども含む)ベクトルの集合に対してSVMを行 い、学習させる