Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Sudachi近況報告 at WAP NLP Tech Talk #4
Search
WAP
November 29, 2021
Technology
1
520
Sudachi近況報告 at WAP NLP Tech Talk #4
ワークス徳島人工知能NLP研究所によるSudachi近況報告 at WAP NLP Tech Talk #4です。
WAP
November 29, 2021
Tweet
Share
More Decks by WAP
See All by WAP
単語分散表現と事前学習モデル - chiVe _ chiTra 利活用のための下準備 at WAP NLP Tech Talk #5
waptech
0
1.4k
事前学習モデル chiTra の活用方法 at WAP NLP Tech Talk #5
waptech
0
340
単語分散表現 chiVeの活用方法 at WAP NLP Tech Talk #5
waptech
0
630
Sudachi Family近況報告 at WAP NLP Tech Talk #5
waptech
0
230
日本語形態素解析器 SudachiPy の 現状と今後について
waptech
4
7.3k
企業(ワークスアプリケーションズ)での研究開発の楽しさと苦労
waptech
0
350
Sudachi辞書のつくり方
waptech
4
2.3k
chiVe_実用的な日本語単語ベクトル実現にむけて_20201208.pdf
waptech
2
610
Other Decks in Technology
See All in Technology
Amazon Qで2Dゲームを作成してみた
siromi
0
140
Google Agentspaceを実際に導入した効果と今後の展望
mixi_engineers
PRO
3
700
Claude Codeは仕様駆動の夢を見ない
gotalab555
23
6.6k
「AIと一緒にやる」が当たり前になるまでの奮闘記
kakehashi
PRO
3
150
LLMをツールからプラットフォームへ〜Ai Workforceの戦略〜 #BetAIDay
layerx
PRO
1
980
専門分化が進む分業下でもユーザーが本当に欲しかったものを追求するプロダクトマネジメント/Focus on real user needs despite deep specialization and division of labor
moriyuya
1
1.3k
Telemetry APIから学ぶGoogle Cloud ObservabilityとOpenTelemetryの現在 / getting-started-telemetry-api-with-google-cloud
k6s4i53rx
0
150
AIに目を奪われすぎて、周りの困っている人間が見えなくなっていませんか?
cap120
1
640
生成AIによるソフトウェア開発の収束地点 - Hack Fes 2025
vaaaaanquish
29
13k
アカデミーキャンプ 2025 SuuuuuuMMeR「燃えろ!!ロボコン」 / Academy Camp 2025 SuuuuuuMMeR "Burn the Spirit, Robocon!!" DAY 1
ks91
PRO
0
150
AWS DDoS攻撃防御の最前線
ryutakondo
1
160
風が吹けばWHOISが使えなくなる~なぜWHOIS・RDAPはサーバー証明書のメール認証に使えなくなったのか~
orangemorishita
15
5.8k
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
134
9.5k
Speed Design
sergeychernyshev
32
1.1k
GraphQLとの向き合い方2022年版
quramy
49
14k
The Language of Interfaces
destraynor
158
25k
GitHub's CSS Performance
jonrohan
1031
460k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Writing Fast Ruby
sferik
628
62k
Code Review Best Practice
trishagee
69
19k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
Navigating Team Friction
lara
188
15k
Thoughts on Productivity
jonyablonski
69
4.8k
Transcript
Sudachi近況報告 at WAP NLP Tech Talk #4 ワークス徳島人工知能NLP研究所 高岡一馬
2 Sudachi Sudachi.rsリリース • v0.6.0 SudachiPy • Sudachi.rsのバインディングとして再構成 • Pure
Python, Cythonは今後メンテナンスしない
3 Rust 爆速でした MeCab/UniDic 2.2.0 Sudachi Java 0.5.3 Sudachi.rs 0.6.0
SudachiPy 0.5.4 SudachiPy 0.6.0 0.31 1 0.39 0.68 13.11 Java版を1としたときの 処理速度
4 Sudachi (Java) 今後の予定 高速化 API改良 • JSONではない個別設定APIの新設 • ユーザ辞書の動的な追加、削除
その他 • ユーザ辞書に自由記述項目を追加 • 必ず切る分割単位の新設 v1.0に向けて非互換な変更をいれていく予定
5 Sudachi辞書 12月リリースに向けて鋭意作業中 形態素辞書 • 語彙追加 • カタカナ外来語の正規化見直し • 用言の正規化見直し
• 同義語グループIDの見直し 同義語辞書 • 語彙追加
6 Elasticsearchプラグイン Esのバージョンを指定したビルド • バイナリリリースしていないバージョンでもビルドが簡単に $ ./gradlew -PelasticsearchVersion=7.15.2 build 今後の予定
• Sudachi同義語辞書による同義語展開フィルタの開発 Synonym token filter / synonym graph token filterの代替 Sudachi / Chikkarの利用で高速に
7 内部処理可視化ツール ViSudachi
8 chiTra Sudachiを利用した事前学習言語モデルプロジェクト Sudachi Transformers: chiTra [tʃiːtaɾa] 学習・推論環境 • Hugging
FaceでのSudachi利用環境の整備、公開 • OSSとして誰でもつかえるように 事前学習モデルの構築・公開 • 日本語の特徴にあったtransformerモデルの探求
9 日本語の特徴にあったtransformerモデル 日本語の書記法により適したトークナイズ • 語構成や字種を考慮したサブワード化 多様な異表記への対応 • Sudachi形態素辞書をもちいた正規化 多様な文書への対応 •
超大規模Webコーパス (NWJC) での学習 多様な表現への対応 • Sudachi同義語辞書をもちいたデータ拡張
10 日本語の書記法により適したトークナイズ 従来手法 • 文字単位で統計的にトークナイズ 言語ごとの書字特性は明示的に考慮されない 英文では有効だが日本語では? 日本語の書記法の特徴を生かす • Sudachi形態素辞書の語構成情報を利用
• 字種により分割方法をかえる • より日本語に適した処理を追及
11 多様な異表記への対応 同じ語でも表記がことなる • 送り仮名、漢字 / ひらがな、異体字など • Sudachiの機能をつかって統制 •
より高性能になる統制方法の開発 活用形を保持したままの用言正規化
12 まとめ • Sudachi.rs / SudachiPy v0.6.0 リリース • Sudachi
v1.0 に向けて • Sudachi辞書12月リリース • Elasticsearch同義語展開フィルタ準備中 • chiTra準備中 くわしい情報は開設予定の徳島研究所技術ブログにて