Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIによる言語資源の利用法ー辞書データを中心にー
Search
Yasuhiro Kondo
September 05, 2025
0
6
AIによる言語資源の利用法ー辞書データを中心にー
LRW2025 言語資源ワークショップ2025 2025年8月29日 国立国語研究所(オンライン)
Yasuhiro Kondo
September 05, 2025
Tweet
Share
More Decks by Yasuhiro Kondo
See All by Yasuhiro Kondo
コンピュータ分析から見た主語
yhkondo
2
130
JOS2025国立国会図書館デジタルコレクションのOCRデータからの復元
yhkondo
5
1k
大規模言語モデル(LLM)について人文学研究者が知っておきたいこと
yhkondo
0
65
国立国語研究所通時コーパスシンポジウム2025
yhkondo
0
290
AIによる古典語・古典文学研究の方法について
yhkondo
0
330
『源氏物語』の引き歌をベクトル検索によって検出する方法
yhkondo
0
120
大規模言語モデルの持つ言語知識とコミュニケーション
yhkondo
0
74
古典語の係り結びと情報構造
yhkondo
0
180
『百人一首』の歌風は何か?
yhkondo
0
120
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
40
2.1k
Automating Front-end Workflow
addyosmani
1371
200k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
61k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
840
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
30
2.9k
Site-Speed That Sticks
csswizardry
11
870
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
32
2.2k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Optimizing for Happiness
mojombo
379
70k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.7k
Transcript
AIによる言語資源の利用法 ー辞書データを中心にー LRW2025 言語資源ワークショップ2025 2025年8月29日 国立国語研究所(オンライン) 近藤泰弘(青山学院大学) 1
言語資源分析の方法 AIによる辞書的データの分析法 AIによる辞書データの検索 AIによる辞書データの作成 今後の課題 01 02 03 04 05
発表目次 2
研究概要 3 言語資源に対しては、従来の自然言語処理の手法も必要だが、近年急速に発展してきた ニューラルネットワークによる研究手法、典型的にはAIによる研究方法も非常に重要に なってきている。しかし、チャット型の生成AIとの対話以外の方法はなかなか習得しに くいのが現状である。本発表では、日本語学関係の国語辞典的データを中心に、AIとの 関係ある方法でどのような研究手法があるかについて、いくつかの実践例を紹介してい きたい。
AIによる辞書的データの研究 4 AIの内部データからの分析 ベクトルデータの圧縮・クラスタ化・可視化 テキストアラインメント 語義分類シソーラス 語義ネットワーク・曖昧性解消 AIで辞典を検索する SQLによる辞書のフィールドサーチ ベクトル検索による意味検索
AIで辞典を作る ベクトルのクラスタ化・AIの能力を使う
言語資源(テキスト)の分析方法 5 文字列処理 文字列検索・文字の頻度 統計・推計 文字N-gram、因子分析、多変量解析 機械学習 形態素解析、二値分類、回帰分析、クラスタ分析 深層学習(AI)埋め込みベクトル利用、コーディング、 AIによる辞書引き・AIによる構造化出力 どれが優れているというのではなく、目的に応じた選択が必要。ただ、多くの統計手法
(回帰、因子分析、多変量解析)は、機械学習に含まれるので、そこでカバーできる。
言語学から見た深層学習モデル理解のポイント 6 (機能) セルフアテンション トークン(単語)相互の 関係を計算 埋め込みベクトル ネットの各層にトークンの ベクトル(重み)を保存。1000次元以上。 (モデル)
BERT 双方向の情報を取り込む(MLM) GPT(LLM) 前方向の情報を取り込む(CLM)
アテンションと埋め込みベクトル 7
BERTとGPT(LLM) 8 BERT GPT(LLM)
埋め込みベクトルの取得手段 9 BERTから取得…動的なベクトルも取得可能(同 音異義・多義語対応) GPT(LLM)から取得…静的なベクトル専用 埋め込みベクトル専用モデルから取得 (多くはBERT系・一部GPT)…静的なベクトル OpenAI text-embedding-3-large Multilingual-e5,
Ruri, Sarashina-embedding
研究方法1・単語の分類 10
単語の埋め込みベクトル化による可視化 11
次元ごとの特徴(名詞の分類例) 12
このような研究手法 13 それぞれのモデルが事前学習した日本語から得 られる情報。非常に大規模な学習であるので、 一般的な日本語母語話者の知識と同じと考えて かまわない。
研究方法2・AIによる辞典検索 14
国立国会図書館デジタルコレクション 国立国会図書館では、デジタルコレクションの一環として、「次世代デジタルラ イブラリーのAPI」という形で、著作権保護期間が満了した図書28万点及び古典 籍資料8万点)の次の情報を取得できる。 書誌データ OCR全文テキストデータ(各文字列の 紙面上の座標情報を含む。) 資料画像から抽出した図版(挿絵、写真、図表等)領域の座標情報及び画像 検索用特徴ベクトルデータ これを利用して、今回は、冨山房『大日本国語辞典』データを再構成する。
15
本来の画面データ(見開きで1ファイル) 16
書籍画面との対応 17 {"id":0,"contenttext":"あかだ-あか つ","xmin":3749.0,"ymin":512.0,"xmax":3800.0,"ymax":761 .0}, {"id":1,"contenttext":"に三箇夜出仕せさせ給 て」","xmin":3674.0,"ymin":436.0,"xmax":3718.0,"ymax":7 86.0}, {"id":2,"contenttext":"あかだ も","xmin":3631.0,"ymin":399.0,"xmax":3684.0,"ymax":527
.0},
取得したCSV辞書データ 18 あい-あい,一 藹藹 劃 茂る 銳。 又、さ かんに多き貌。 詩
經大羅「 藹藹王多吉士二 楚 辭「 讒夫 藹藹而曼著 兮」 あい-あい,一哀哀 0 深く哀しむ 貌. 詩 經小〓「哀哀父母、生我、 勞勞」 あい-あい,惑 馬にかくるかけ 聲。 太 子 傳「騒駒 屆此不進、太子加 鞭、 逡巡猶 駐、太子自言哀哀(乃イ)」 あいいく,"王憚詩「愛育總 歸君父聖、論思 つること。 一愛育 かはゆがりてそだ 不出 廟堂公こ (40, むらがり立ち" あい-うん, 謠江「〓雲をさまりて、海上に たる雲。 一 藹雲 一つの島をなせり」 いつくしみよろこ あい-えつ, 晉書温▪「見者皆愛 悅之二 ぶこと。 一愛 悅 あいえん-きえん,一愛 緣機 緣 (49 佛語。 合ふも合はぬも、 緣によるとい ふこと。 〓 轉じて、合 緣奇 緣(〓〓ニューシ)とし、 不思議なる 緣の義。 男女開また友だちの 交はり 深きにいふ。 あい-おん,一哀音 名 かなしげなる 聲 左 傳電話本社「怨而不言。社有有音音」 あい-かう,本 あい-かう,一愛幸 愛しいつくしむこ と 寵愛。 一哀泣 かなしみなくこと。 あい-きふ,後漢書 「仰仰 點屈、若哀泣之容こ あい-きゃら,[愛敬 舍 ▪ 顏色にか はゆげのあること。 あいぎやう。 宇宙集 上「いとうれしとおぼしてゑみ給へる、 いとはなやかに見まほしう、あいきやう こぼるばかりに ておはするを」 源堵案「さ しもあるまじき事に、かどかどしくくせ をつけ、あいきやうなく人をもてはなる る心あるは」 巳世 辭のよきこと。 一五 あいきゃり づきあひ 愛 敬附合 なみな のつきあひ。 深からぬ交際。 みの交際。 博を小女 郞波枕 をてき の外は、愛敬づきあひ·始末·貯ヘ」 あいきゃう-け,愛敬毛 (4) 頭髪のおくれ毛 いち、 あいきゃう-しゃうばい 一愛敬商 賣 (30) 藝妓·妓 樓·料理屋などの類。 客商 賣。 あいきゃう-づく 愛敬附 (自動日) いきやう出 で初む。 にあいきやうづき給へり」 あいきゃうの-まもり 國 緣牛丼 かくる守り札。 夫婦愛敬の守。 あいきゃう-の-あち 愛敬餅 八名 かのもちひ(三日餅)を見よ あいきゃう-び,愛敬日 (英 Britanical grace) (4) 恩惠日。 を猶豫する日 數。 あいきゃう-べに,愛敬紅 (イ) り又は耳 朶などにつくる紅。 あいきゃう-ぼくろ,愛敬 黑子 に見するほくろ。
生成AIにおけるMCPの利用 19
生成AIにおけるMCPの利用 20 生成AI自体は、知識を覚えさせるには不向きの点がある。誤った知識 (ハルシネーション)の問題やどんな知識を使っているかが不明確。 正確な知識の利用には、ベクトル検索を用いたRAGがよく使われる。意 味検索でデータベースを探して、それを応用して生成。 MCP(Model Context Protocol)という新しいプロトコルが開発さ れ、各種サーバーにアクセスして知識を増強できる。
語学的には、SQLのデータベースにアクセスすることで、従来の辞書的 検索が可能になる。 近藤の試行例(日本語歴史コーパスをMCPでアクセスするもの) 「AI中納言を作るーClaudeによるSQLコーパス操作ー」(note.com)
生成AIにおける辞書サーバーとの応答例 21
生成AIにおける辞書サーバーとの応答例 22
研究方法3・AIで辞典を作成する 23
AIで辞典を作る(源氏物語辞典) 24 辞書の自動作成の発想 1.埋め込みベクトルの統計処理 2. AIにすべてやらせる 簡単なプロトタイプ作成 (AIにやらせる方が優位と判断)
AIに渡す前処理 25 1.KWIC行を作成し、それをAIのAPIに渡す。試験的にはプロンプト式で チェック 2.コーディング 全体方針を考えてAIでコーディング。結果で不明な点はAIと相 談。 KWIC行用DB作成(sqliteを用いた簡単なセンテンスと単語テーブル のみのRDB) KWIC行生成プログラム
KWIC行 26 1. 臥したれば、いかさまにと思しめし【まどは】る。 (20-源氏1010_00001:#26) 2. 思したらず、さぶらふ人々の泣き【まどひ】、上も御涙の隙なく (20-源氏 1010_00001:#36) 3.
「くれ【まどふ】心の闇もたへがたき片はしを (20-源氏1010_00001:#74) 会話 4. 消え【まどへ】る気色いと心苦しくらうたげなれば (20-源氏1010_00002:#281) 会話 5. こはいかなることぞと思ひ【まどは】るれど、聞こえむ方なし。 (20-源氏 1010_00002:#285) 6. を思ひはべるに、たぐひなく思うたまへ【まどは】るるなり。 (20-源氏 1010_00002:#297) 会話 7. をしらでその原の道にあやなく【まどひ】ぬるかな (20-源氏1010_00002:#382) 歌 1010_00004:#153) 歌
プロンプトの設計 27 あなたは国語辞典の編 纂 者です。以下の**提示KWICのみ**を根拠に、見出し語の語義分 割・定義・用例抽出を行ってください。 - 外部知識・一般常識は使わない。**提示KWIC以外を根拠に推測しない**。 - **新しい例文は作らない**。各語義には**最低1件**、原文断片(KWICのnode周辺)
と所在 (doc_id:#span_index) を必ず添える。 - 格パターン(〜が/〜に/〜を/〜と等)、活用(連用形など)、代表的コロケーション も出す。 - 語義が足りない/分割しにくい場合は、その旨を "notes" に簡潔に記す。
プロンプト の設計 (JSONスキ ーマ) 28 JSONだけを返すこと。余計な文章は一切書かないこと。 { "headword": "…", "pos":
"…", "senses": [ { "id": "1", "label": "…(語義名・短い)", "definition": "…(簡潔で用字統一)", "subcat": "自動詞/他動詞/形容詞など", "morphology": {"活用": "…"}, # 分かれば "case_patterns": ["Xが〜", "Yに〜", "Zを〜"], # 分かれば "collocations": ["…", "…"], # 分かれば "examples": [ {"quote": "…【node】…", "doc": "doc_id", "loc": "#span_index", "phase": "…"} ], "confidence": 0.0_to_1.0 } ], "notes": "不足/曖昧/分割基準など" }
生成された辞典 29 見出し語:まどふ 品詞:動詞(四段活用) ――――――――――――――――――――― 【語義1】 心が乱れて思慮を失う。取り乱す。 格パターン:を/に/て 活用:終止形(まどふ) 、連用形(まどひ)
、連体形(まど ふる) 、已然形(まどへ) 、未然形(まどは) 、完了助動詞接 続(まどひぬ) 、尊敬補助動詞接続(まどはれたまふ) コロケーション:泣き〜、心地〜、気色〜、御心地〜、く れ〜
生成された辞典 30 【語義2】 方向・行動が定まらずにさまよう。迷い歩く。 格パターン:を/に/て 活用:連用形(まどひ) 、已然形(まどへ) 、連体形(まどふる) 、完了形(ま どひぬる)
コロケーション:歩く〜、くれ〜、目くれ〜、道〜 notes: ・ 「心の乱れ」 「方向の迷い」の2義に整理。泣き・心地など心理動詞との結 合は語義1に、歩く・道・目くれなど物理的行動と結合するものは語義2に配 分した。 ・観察された活用形を網羅的に整理。
テストプロンプトをGPTs化(公開中) 31
中納言の出 力をGPTs に入力 32 平安から江戸まで のKWIC行を中納言 で500行出力して、 GPTsに入力 うつ【打つ・討つ・撃つ・擣つ】 動詞
文語四段活用(タ 行)/近世以降:五段活用 1. 物に力を加えて衝撃を与える。 格パターン:を/に/で 活用:打つ、打ち、打て、打た コロケーション:杖を~、石 を~、砧を~、槌を~ 用例: ・「白栲の衣【うつ】砧の音 も、かすかに…」(源氏物語 1010 夕顔 平安) ・「太刀の 峯を取り直し、文覚が刀もったるかひなをしたたかに【う つ】。」(平家物語 1250 文覚被流 鎌倉) ・「だらばこの 一念おのれらが首引き抜いて…とてこ〳〵と【打つ】槌に落 つる涙も…」(心中刃は氷の朔日 1709 近松) 2. 楽器・拍子などをたたく。 格パターン:を/に 活用:打 つ、打ち、打て コロケーション:鼓を~、太鼓を~、拍子を ~、鐘を~ 用例: ・「弁の君、扇はかなう【うち】鳴らし て…」(源氏物語 1010 若紫 平安) ・「導師には三井寺の 公顕僧正とぞきこえし。高座にのぼり鐘【うち】ならし…」 (平家物語 1250 還御 鎌倉) ・「読みやつたと、…手鼓な りとも【打つ】たがよい」(堀川波鼓 1707 近松)
33 3. 矢・弓・鉄砲などを発射する。 格パターン:を/に 活用:打つ、打ち、打て コ ロケーション:矢を~、弓を~、鉄砲を~ 4. 言葉・音・合図などを発する。 格パターン:を/て
活用:打つ、打ち、打て コ ロケーション:手を~、合図を~、口を~ 5. 囲碁・双六などの石や駒を置く。 格パターン:を/に 活用:打つ、打ち、打 て、打た コロケーション:碁を~、双六を~、駒を~ 6. 工芸・作業においてたたいて加工する。 格パターン:を 活用:打つ、打ち、擣 ち コロケーション:槌を~、布を~、鉄を~ 7. 攻める・討つ。戦いや敵対行為をする。 格パターン:を/に 活用:討つ、討 ち、討て、討た コロケーション:敵を~、仇を~、かたきを~
34 8. 叩いて殺す・打ち倒す。 格パターン:を 活用:打つ、打ち、打て コロケーショ ン:人を~、馬を~、罪人を~ 9. 雨・風・波などが強く当たる。 格パターン:に/を
活用:打つ、打ち コロケー ション:雨を~、風を~、波を~ 10. 強い衝撃や感情を受ける(比喩的表現)。 格パターン:に/を 活用:打つ、打 ち コロケーション:胸を~、心を~、釘を~ notes 「討つ」「擣つ」「撃つ」など異表記は「うつ」に統合。 各義で時代順(平 安 → 鎌倉 → 近世)に並べた。 各義、代表的に5例前後を配置。
AIによる辞典生成の課題 35 複数のAIでテスト 辞書出力をAIで解析 JSONスキーマやプロンプトやKWIC行の改良 単独のアプリとして、辞書編 纂ツールとして機能する AIのAPIを用いて、バッチ処理で通時的な基礎語辞典など を作成することが可能。
謝辞 36 本研究を進めるにあたり、国立国会図書館の次 世代デジタルライブラリーのデータ、国立国語 研究所のCHJのデータを活用させていただきま した。関係者の皆様に、感謝申し上げます。