Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストメディア特論 「会社名」の抽出
Search
Lamron
October 01, 2023
Research
0
120
テキストメディア特論 「会社名」の抽出
Lamron
October 01, 2023
Tweet
Share
More Decks by Lamron
See All by Lamron
テキストメディア特論 類似した「名前」の同一性の判定
lamrongol
0
83
Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」
lamrongol
0
7.4k
要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization
lamrongol
0
3.6k
Blueskyの「今」がわかる!Bot
lamrongol
0
1.9k
Other Decks in Research
See All in Research
湯村研究室の紹介2025 / yumulab2025
yumulab
0
290
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
180
OWASP KansaiDAY 2025.09_文系OSINTハンズオン
owaspkansai
0
100
データサイエンティストの業務変化
datascientistsociety
PRO
0
190
国際論文を出そう!ICRA / IROS / RA-L への論文投稿の心構えとノウハウ / RSJ2025 Luncheon Seminar
koide3
13
7.1k
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
20k
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
550
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
520
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
150
LLM-jp-3 and beyond: Training Large Language Models
odashi
1
760
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
180
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
230
Featured
See All Featured
Navigating Weather and Climate Data
rabernat
0
82
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Building AI with AI
inesmontani
PRO
1
660
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
420
Documentation Writing (for coders)
carmenintech
77
5.2k
Bash Introduction
62gerente
615
210k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
0
1.8k
Code Reviewing Like a Champion
maltzj
527
40k
Everyday Curiosity
cassininazir
0
120
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
160
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
52k
Transcript
「会社名」の抽出 @lamrongol
「~社」などの表現から会社名を判断する方法には限界 がある 切れ目の判断が難しい(「・」は切れ目か否か、など) 「オラクル」のように「~社」の形になってないものは社名と判 断できない 「東電」などの略称もある
あらかじめどのような会社名があるか登録しておけばよ い
Wikipedia の利用 Wikipediaの特徴 各項目には多くの場合「千葉県の会社」などカテゴリが 付与されている 一定の規則に基づいた文書が大量にある
人手による更新・訂正が行われるので正確性がある程 度保証されている 大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)
略称の取得 略称と正式名称の関連も取得できる 例)「日立」というリンクから「日立製作所」につな がっている場合 「日立」=「日立製作所」と関連付けられる
Wikipedia以外からの取得 Web上にはWikipedia以外の文書も大量にある しかし、それらはWikipediaのように「企業」であることが 明記されてるわけではない だが、量は圧倒的に多いのでなんとか活用したい 周りの文章から「会社名」であることを判断できな
いか? 「〇〇は東証一部に上場した~」 「〇〇は1997年に創業した~」
構造化されてない文章からの会社名の取得 まず、Wikipediaなど構造化されているデータを「訓 練データ」として用いる 前後の単語から、会社名を判断する確率モデルを作 る 構造化されてないデータ(ブログの文章等)に対して これを適用し、会社名を取り出す
P(会社名|創業)= N(会社名∧創業) N(創業)
関連研究の応用 Support Vector Machineを用いた日本語固有表 現抽出[山田 et al] 前後の単語の素性(単語自体だけでなく、品詞の
種類なども含む)ベクトルの集合に対してSVMを行 い、学習させる