これは「言語資源ワークショップ2024」の発表用のPDFです。説明用の Google Colabはここです。
調査したい単語にマウスを当てて辞書を表示することは、リーディングの効率を高める効果があるとされている。しかし、この機能を実現するためには、マウスで当てられているところの文字列を辞書形に変換するという問題を解決する必要がある。Mecabなどの形態素解析システムを利用することは、一つの解決策であるが、そのようなシステムは、ユーザーのコンピュータのパフォーマンスに特定の要件を求めることがあるため、通常はサーバー上で実行されることが多い。しかし、このプロセスの形態素解析は、語学研究や機械翻訳や全文検索のための形態素解析とは異なり、入力された文字列を辞書形に変換することが主な目的である。そのため、形態素解析システムのサイズを縮小し、より効率的な実装が可能である。本稿では、ポップアップ辞書に向けて辞書検索に特化した日本語形態素解析の軽量ライブラリNonJishoKeiの設計・実装・運用について論じる。