Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化
Search
tatHi
March 17, 2022
Research
1
960
テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化
NLP2022の招待論文枠での発表で使用したスライドです.
tatHi
March 17, 2022
Tweet
Share
More Decks by tatHi
See All by tatHi
SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding
tathi
0
500
最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話
tathi
1
700
最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings
tathi
1
690
要点を聞いてもらえるプレゼンを作ろう
tathi
14
6.8k
Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)
tathi
3
650
論文紹介: Fast WordPiece Tokenization
tathi
0
590
最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models
tathi
0
700
文系的な興味を理系的な達成目標に変換する
tathi
7
4.7k
最先端NLP2020: Dice Loss for Data-imbalanced NLP Tasks
tathi
0
2k
Other Decks in Research
See All in Research
Attaques quantiques sur Bitcoin : comment se protéger ?
rlifchitz
0
130
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
120
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
190
20年前に50代だった人たちの今
hysmrk
0
120
長期・短期メモリを活用したエージェントの個別最適化
isidaitc
0
400
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
5
2.6k
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
510
Akamaiのキャッシュ効率を支えるAdaptSizeについての論文を読んでみた
bootjp
1
400
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
120
音声感情認識技術の進展と展望
nagase
0
440
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
170
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.4k
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
Optimizing for Happiness
mojombo
379
70k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
120
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
96
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
160
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.3k
A Tale of Four Properties
chriscoyier
162
24k
[SF Ruby Conf 2025] Rails X
palkan
0
710
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
100
We Have a Design System, Now What?
morganepeng
54
8k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
115
100k
Transcript
テキストベクトルの重みづけを⽤いた タスクに対する単語分割の最適化 平岡 達也1,⾼瀬 翔1 ,内海 慶2,欅 惇志2,岡崎 直観1 1東京⼯業⼤学
2デンソーITラボラトリ 2022/3/17 年次⼤会(平岡達也 @7a7hi) 1
どんな話? 2022/3/17 年次⼤会(平岡達也 @7a7hi) 2 単語分割をタスクに応じて最適化する話
どんな話? 2022/3/17 年次⼤会(平岡達也 @7a7hi) 3 単語分割をタスクに応じて最適化する話 単語分割器 後段モデル (トピック予測) 外国⼈参政権
⽣⽂ 外国/⼈参/政権 分割済み⽂ ⾷品 トピック
どんな話? 2022/3/17 年次⼤会(平岡達也 @7a7hi) 4 単語分割をタスクに応じて最適化する話 単語分割器 後段モデル (トピック予測) 外国⼈参政権
⽣⽂ 外国/⼈参/政権 分割済み⽂ ⾷品 トピック 適切な単語分割で性能向上 →後段タスク/モデルに依存
どんな話? 2022/3/17 年次⼤会(平岡達也 @7a7hi) 5 単語分割をタスクに応じて最適化する話 単語分割器 後段モデル (トピック予測) 外国⼈参政権
⽣⽂ 外国/⼈参/政権 分割済み⽂ ⾷品 トピック 適切な単語分割で性能向上 →後段タスク/モデルに依存 前処理 前処理として単語分割を 決定しなければいけない
どんな話? 2022/3/17 年次⼤会(平岡達也 @7a7hi) 6 単語分割をタスクに応じて最適化する話 単語分割器 後段モデル (トピック予測) 外国⼈参政権
⽣⽂ 外国/⼈参/政権 分割済み⽂ ⾷品 トピック 適切な単語分割で性能向上 →後段タスク/モデルに依存 GAP 前処理 前処理として単語分割を 決定しなければいけない
コアアイディア 2022/3/17 年次⼤会(平岡達也 @7a7hi) 7 単語分割をタスクに応じて最適化する話 単語分割器 後段モデル (トピック予測) 外国⼈参政権
⽣⽂ 外国/⼈参/政権 分割済み⽂ ⾷品 トピック 後段モデルと同時に単語分割器を学習
嬉しさ 2022/3/17 年次⼤会(平岡達也 @7a7hi) 8 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が
得られると嬉しい
嬉しさ 2022/3/17 年次⼤会(平岡達也 @7a7hi) 9 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が
得られると嬉しい 今回の研究では⽂書分類に限定
コアアイディア 2022/3/17 年次⼤会(平岡達也 @7a7hi) 10 単語分割をタスクに応じて最適化する話 単語分割器 後段モデル (トピック予測) 外国⼈参政権
⽣⽂ 外国/⼈参/政権 分割済み⽂ ⾷品 トピック 後段モデルと同時に単語分割器を学習
後段の学習 2022/3/17 年次⼤会(平岡達也 @7a7hi) 11 単語分割器 外国⼈参政権 ⽣⽂ 外国/⼈参/政権 分割済み⽂
⾷品 トピック 政治 正解 後段モデル (トピック予測) 誤差逆伝播で更新
後段の学習に単語分割器を組み込みたい 2022/3/17 年次⼤会(平岡達也 @7a7hi) 12 単語分割器 外国⼈参政権 ⽣⽂ 外国/⼈参/政権 分割済み⽂
⾷品 トピック 政治 正解 後段モデル (トピック予測) 誤差逆伝播で更新 単語分割器も 誤差逆伝播で更新したい
後段の学習に単語分割器を組み込みたい 2022/3/17 年次⼤会(平岡達也 @7a7hi) 13 単語分割器 外国⼈参政権 ⽣⽂ 外国/⼈参/政権 分割済み⽂
⾷品 トピック 政治 正解 後段モデル (トピック予測) 誤差逆伝播で更新 単語分割器も 誤差逆伝播で更新したい 単語分割器と後段モデルを 繋がないといけない
単語分割器と後段モデルを 繋がないといけない 後段の学習に単語分割器を組み込みたい 2022/3/17 年次⼤会(平岡達也 @7a7hi) 14 単語分割器 外国⼈参政権 ⽣⽂
外国/⼈参/政権 分割済み⽂ ⾷品 トピック 政治 正解 後段モデル (トピック予測) 誤差逆伝播で更新 単語分割器も 誤差逆伝播で更新したい ここをどうにか⼯夫しないと…
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 15 単語分割器 外国⼈参政権 ⽣⽂ ⾷品 トピック
外国/⼈参/政権 𝑣 分 類 器 後段モデル ⽂ベクトル 意味深な空⽩
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 16 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ ⾷品 トピック 外国/⼈参/政権 𝑣 分 類 器 後段モデル ⽂ベクトル 単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権 単語確率が学習可能パラメータ 意味深な空⽩
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 17 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ ⾷品 トピック 外国/⼈参/政権 𝑣 分 類 器 後段モデル ⽂ベクトル 単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権 単語確率が学習可能パラメータ 意味深な空⽩
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 18 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ ⾷品 トピック 外国⼈/参/政権 外国/⼈参/政権 外国/⼈/参政権 分 類 器 後段モデル ① N-best分割 単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権 単語確率が学習可能パラメータ
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 19 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ ⾷品 トピック 外国⼈/参/政権 外国/⼈参/政権 外国/⼈/参政権 𝑣! 𝑣" 𝑣# 分 類 器 後段モデル ① N-best分割 ② エンコード 単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権 単語確率が学習可能パラメータ
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 20 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ ⾷品 トピック 外国⼈/参/政権 外国/⼈参/政権 外国/⼈/参政権 𝑣! × 𝑝 外国⼈/参/政権 𝑍 𝑣" × 𝑝 外国/⼈参/政権 𝑍 𝑣# × 𝑝 外国/⼈/参政権 𝑍 分 類 器 後段モデル 単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権 単語確率が学習可能パラメータ ① N-best分割 ② エンコード ③ 単語分割の 確率で重み付け つながった!
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 21 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ ⾷品 トピック 外国⼈/参/政権 外国/⼈参/政権 外国/⼈/参政権 𝑣! × 𝑝 外国⼈/参/政権 𝑍 𝑣" × 𝑝 外国/⼈参/政権 𝑍 𝑣# × 𝑝 外国/⼈/参政権 𝑍 Σ 分 類 器 後段モデル 単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権 単語確率が学習可能パラメータ ④ ⽂ベクトルの 重み付き和で分類 ① N-best分割 ② エンコード ③ 単語分割の 確率で重み付け つながった!
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 22 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ ⾷品 トピック 外国⼈/参/政権 外国/⼈参/政権 外国/⼈/参政権 𝑣! × 𝑝 外国⼈/参/政権 𝑍 𝑣" × 𝑝 外国/⼈参/政権 𝑍 𝑣# × 𝑝 外国/⼈/参政権 𝑍 Σ 分 類 器 後段モデル 単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権 単語確率が学習可能パラメータ 政治 正解
後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会(平岡達也 @7a7hi) 23 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ ⾷品 トピック 外国⼈/参/政権 外国/⼈参/政権 外国/⼈/参政権 𝑣! × 𝑝 外国⼈/参/政権 𝑍 𝑣" × 𝑝 外国/⼈参/政権 𝑍 𝑣# × 𝑝 外国/⼈/参政権 𝑍 Σ 分 類 器 後段モデル 単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権 単語確率が学習可能パラメータ 政治 正解 適切な単語分割の 確率が⾼くなるように更新 (後段モデルの性能が⾼くなるような単語分割)
推論時は1-best分割 2022/3/17 年次⼤会(平岡達也 @7a7hi) 24 Neural Unigram LM (単語分割器) 外国⼈参政権
⽣⽂ 政治 トピック 外国/⼈/参政権 𝑣 分 類 器 後段モデル 学習済み 獲得された 「良い」単語分割
嬉しさ 2022/3/17 年次⼤会(平岡達也 @7a7hi) 25 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が
得られると嬉しい
文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79
92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会(平岡達也 @7a7hi) 26 F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM
文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79
92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会(平岡達也 @7a7hi) 27 F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM
文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79
92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会(平岡達也 @7a7hi) 28 F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM
文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79
92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会(平岡達也 @7a7hi) 29 F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM
文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79
92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会(平岡達也 @7a7hi) 30 F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM
単語分割の更新のみでも性能が向上? 2022/3/17 年次⼤会(平岡達也 @7a7hi) 31 設定 単語分割器 後段モデル (感情予測) 外国⼈参政権
⽣⽂ 外国/⼈参/政権 分割済み⽂ Positive 感情 固定 更新
単語分割の更新のみでも性能が向上 2022/3/17 年次⼤会(平岡達也 @7a7hi) 32 単語分割の更新のみで 検証データの性能が向上 単語分割の更新のみで 学習データの損失が低下 設定
単語分割器 後段モデル (感情予測) 外国⼈参政権 ⽣⽂ 外国/⼈参/政権 分割済み⽂ Positive 感情 固定 更新
嬉しさ 2022/3/17 年次⼤会(平岡達也 @7a7hi) 33 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が
得られると嬉しい
タスクに応じた単語分割を獲得 ⼿法 単語分割 最適化なし ⾹りは すき だけど 、 痛 んだ
髪に は全然 効果なし 。 ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔) 最適化あり ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 レート予測タスクに最適化(正解:2/5) 最適化あり ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 2022/3/17 年次⼤会(平岡達也 @7a7hi) 34 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す
タスクに応じた単語分割を獲得 ⼿法 単語分割 最適化なし ⾹りは すき だけど 、 痛 んだ
髪に は全然 効果なし 。 ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔) 最適化あり ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 レート予測タスクに最適化(正解:2/5) 最適化あり ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 2022/3/17 年次⼤会(平岡達也 @7a7hi) 35 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す ⻑くなってない?
タスクに応じた単語分割を獲得 ⼿法 単語分割 最適化なし ⾹りは すき だけど 、 痛 んだ
髪に は全然 効果なし 。 ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔) 最適化あり ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 レート予測タスクに最適化(正解:2/5) 最適化あり ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 2022/3/17 年次⼤会(平岡達也 @7a7hi) 36 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す 10 tokens 13 tokens 11 tokens x 1.3 x 1.1 ⻑くなってない?
提案手法で系列長が長くなる 最適化後の系列⻑ ⾔語 タスク 最適化前の系列⻑ 中 ジャンル予測 1.5405 レート予測 1.4249
⽇ ジャンル予測 1.5205 レート予測 1.3224 英 ジャンル予測 1.0620 レート予測 1.0415 2022/3/17 年次⼤会(平岡達也 @7a7hi) 37 • 全体的に提案⼿法によって系列⻑が⻑くなる • レート予測よりジャンル予測のほうが系列⻑が⻑くなる • 英語の単語分割の系列⻑は⼤きく変わらない 何倍⻑くなったか
タスクごとに単語分割の系列長が異なる 最適化後の系列⻑ ⾔語 タスク 最適化前の系列⻑ 中 ジャンル予測 1.5405 レート予測 1.4249
⽇ ジャンル予測 1.5205 レート予測 1.3224 英 ジャンル予測 1.0620 レート予測 1.0415 2022/3/17 年次⼤会(平岡達也 @7a7hi) 38 • 全体的に提案⼿法によって系列⻑が⻑くなる • レート予測よりジャンル予測のほうが系列⻑が⻑くなる • 英語の単語分割の系列⻑は⼤きく変わらない 何倍⻑くなったか
言語ごとに単語分割の系列長が異なる 最適化後の系列⻑ ⾔語 タスク 最適化前の系列⻑ 中 ジャンル予測 1.5405 レート予測 1.4249
⽇ ジャンル予測 1.5205 レート予測 1.3224 英 ジャンル予測 1.0620 レート予測 1.0415 2022/3/17 年次⼤会(平岡達也 @7a7hi) 39 • 全体的に提案⼿法によって系列⻑が⻑くなる • レート予測よりジャンル予測のほうが系列⻑が⻑くなる • 英語の単語分割の系列⻑は⼤きく変わらない 何倍⻑くなったか
嬉しさ 2022/3/17 年次⼤会(平岡達也 @7a7hi) 40 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が
得られると嬉しい
その後の話 2022/3/17 年次⼤会(平岡達也 @7a7hi) 41 • Optimizing Word Segmentation for
Downstream Task • Findings of EMNLP 2020 • テキストベクトルの重みづけを⽤いたタスクに対する単語分割の最適化 • ⾃然⾔語処理 28-2 • 後段モデルの損失値を⽤いた単語分割のタスクへの最適化 • 第27回年次⼤会(短い+⽇本語なのでおすすめ) • Joint Optimization of Tokenization and Downstream Model • Findings of ACL 2021 • 単語分割と後段モデルの損失値を⽤いた同時最適化 • ⾃然⾔語処理 29-1 (先⽇公開!) 今回の話(⽂書分類に限定) 続きの話(⽂書分類+機械翻訳) • Task-Oriented Word Segmentation • 博論(スライドはTwitter @7a7hi から探せます) まとめた話