Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ことばの意味を計算するしくみ

 ことばの意味を計算するしくみ

言語処理学会第31回年次大会(NLP2025)チュートリアル資料

Hitomi Yanaka

March 09, 2025
Tweet

More Decks by Hitomi Yanaka

Other Decks in Research

Transcript

  1. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ことば(自然言語)の意味とは? • さまざまな側面や性質がある(これから紹介します) • さまざまな研究分野が関わる ◦ 自然言語処理 ◦ 言語学

    ◦ 哲学 ◦ 認知科学 … • 直接研究対象として扱うのは難しい ◦ ことばの意味に関して何らかの立場をとり、 ことばの意味を別の「ことば」で論じる必要がある ◦ メタ言語:分析対象を記述する側の言語 ◦ オブジェクト言語:分析対象の言語 5
  2. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 私たちがことばの意味について判断できること 「太郎しか泳がなかった」という文に対して…  • 「太郎だけが泳いだ」は同じ意味(同義) • 「太郎だけが泳がなかった」は反対の意味(反義) • 「太郎だけが平泳ぎをした」と近い意味(類義) •

    「太郎しかが泳いだ」はおかしな意味(容認不可能) 母語話者は文を与えられたとき、その文が容認可能である(文と して理解できる)か否かを、即座に判断できる 容認可能な文については、その意味も即座に理解できる 6 ※容認可能という判断と容認不可能という判断は非対称であることに注意
  3. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ことばの意味の曖昧性:文 • 文 ◦ 構造的曖昧性 ▪ 警官が[[[自転車で逃げる]泥棒を]追いかけた] ▪ 警官が[[自転車で][逃げる泥棒を追いかけた]]

    ◦ 解釈の違い 「3人の研究者が5本の論文を査読した」 ▪ 分配読み(distributive reading) 3人の研究者がそれぞれ5本の論文を査読した ▪ 集団読み(collective reading) 3人の研究者が一緒に5本の論文を査読した ▪ 累積読み(cumulative reading) 3人の研究者が合計で5本の論文を査読した 9 構成素(constituent): 文の構造の単位として機能する語のまとまり
  4. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ことばの意味の曖昧性:発話 • 発話:伝達のための言語使用 ◦ 省略(ellipsis) ▪ 僕はうなぎだ ▪ 花子は太郎より研究が好きだ

    ▪ 太郎は急いで長崎に行ったけど、花子は行かなかった ◦ 言外の意味、意図 ▪ この部屋は寒いね ▪ そこに水たまりがあるよ ▪ そこに塩はある? 10 ここまでのポイント: 「ことばの意味」には、いくつもの粒度がある
  5. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ことばの意味に関する原理:合成性 • 合成性原理 (principle of compositionality)[Frege,1884] 言語表現の意味はその構成素をなす表現の意味と、それらの 結合方法によって定まるという原理 •

    次の二つの文は同じ単語からなるが、意味は異なる ◦ 子供が走っている猫を見ている ◦ 猫が走っている子供を見ている • 言語表現の意味は、語の意味の組み合わせだけでなく、統語 構造による影響を受ける 11
  6. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 12 合成性と体系性 • 合成性(compositionality) 人はこれまで見たことのない文も、文の構成素と統語構造にしたがっ てその文を理解できる • 体系性(systematicity)[Fodor and

    Pylyshyn,1988] 人はある処理ができれば、関連した処理もできる 80-90年代にコネクショニズム、現在でいうニューラルネットを批判す る文脈で提起された概念 John loves Annという文を理解できる人 は、Ann loves Johnという文も理解でき る どちらか一方だけ 理解できる人は変?
  7. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 文間の関係に関する経験的判断:推論 • 推論(inference) ある命題(前提, premise)から別の命題(仮説, hypothesis) を導くこと ◦ 命題(proposition):真偽を問えるもの(文の意味)

    • 前提が仮説を(意味論的に)含意する =前提が真である状況のもとで、仮説が常に真となる 13 前提P  子供が走っている猫を見ている 仮説H 1  猫が走っている     含意 仮説H 2  子供が走っている   非含意 日本語自然言語推論(NLI)データセットJaNLI [Yanaka&Mineshima,2021] https://huggingface.co/datasets/hpprc/janli
  8. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 含意・推意・前提の違い 含意・前提は増強不可能、推意は増強可能(reinforcible) • # 太郎が冷蔵庫のロールケーキをほとんど食べた、 しかし太郎が冷蔵庫のロールケーキを食べた • # 太郎が冷蔵庫のロールケーキをほとんど食べた、

    しかし冷蔵庫にロールケーキがある • 太郎が冷蔵庫のロールケーキをほとんど食べた、 しかし太郎は冷蔵庫のケーキをすべて食べたわけではない 前提は投射的(projective, 否定や様相に埋め込まれても文全体に 意味が引き継がれる)、含意は投射的でない • 太郎が冷蔵庫のロールケーキをほとんど食べなかった →冷蔵庫にロールケーキがある 15
  9. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ことばの意味とは?:使用説[Wittgenstein,1953] ここまでで紹介したことばの意味に関する様々な事実を説明する ようなことばの意味の理論が、言語哲学では議論されてきた。そ の中の一つの説が使用説 • ことばの意味とは、そのことばの使用法 • ことばの意味がわかるとは、そのことばの使用法がわかると いうこと

    L. Wittgenstein, 2009, Philosophical Investigations (鬼界彰夫訳, 哲学探究, 2020): 「意味」という語が使われる多くの場合に—すべての場合ではないとして も— この語は次のように説明することができる。すなわち、語の意味と は、言語におけるその使われ方である、と。 19
  10. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 分布意味論(distributional semantics) 分布仮説に基づいて、語の意味からことばの意味をとらえる 分布仮説(distributional hypothesis):語の意味はその語の周 辺に現れる語(文脈, context)によって定まる Zellig Harris,

    1954: “oculist and eye-doctor…occur in almost the same environments. … If A and B have almost identical environments we say that they are synonyms.” J. R. Firth, 1957: “You shall know a word by the company it keeps!” (使用説に対する)批判:合成性(人はこれまで見たことのない文 も、文の構成素と統語構造にしたがってその文を理解できる)を どのように説明するか? 20
  11. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ことばの意味とは?:真理条件説[Davidson,1967] • ことばの意味とは、ことばの真理条件(truth condition, ことば がどのような状況では真となり、どのような状況では偽となる か)のこと • ことばの意味がわかるとは、そのことばの真理条件がわかる

    ということ 例)文「東京は晴れ、かつ、埼玉は雨」の真理条件   この文が真であるのは、   「東京は晴れ」と「埼玉は雨」がどちらも真のときであり、   この文が偽であるのは、   「東京は晴れ」と「埼玉は雨」の少なくとも一方が偽のとき 21
  12. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 形式意味論(formal semantics) • 真理条件的意味論 (truth-conditional semantics)に基づいて、文 の意味からことばの意味をとらえる • 定名詞句の意味を指示対象(個体)、述語の意味を指示対象の集

    合(個体に対し真理値を返す関数)として解釈し、 語の意味から合成的に文の意味を説明する 例)文「日本は国である」は真、文「東京は国である」は偽 定名詞句「日本」「東京」:個体を指示する 述語「…は国である」:「日本」や「スイス」という個体に対し真を返し、「東京」と いう個体に対し偽を返す関数 (述語に個体を代入することで、文の真理値が定まる) 22 …は国である (真理条件説に対する)批判: 疑問文や命令文など真理値をもたない文の存在
  13. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 自然言語処理:分布意味論に基づくアプローチ • 大量のテキスト(コーパス)から統計的に文脈に基づいて語の 意味を学習し、ベクトルで語の意味を表す ◦ 伝統的な方法としては、前後に現れる語の共起頻度を要素とす る行列を作り、単語ベクトルを構成 ◦ 意味が似ている語は、似たベクトルで表される

    議論:大規模言語モデル(LLM)は分布意味論に基づく? [Enyan+2024] • 訓練データの規模は分布意味論の定義に含まれない • 指示チューニング(タスクの指示と入出力ペアの学習)は学習 時のデータ分布を変える可能性はあるが、ことばの意味を言 語使用の分布に基づいて表すという分布意味論の考え方から 外れるものではない 25
  14. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単語の分散表現 (単語埋め込み:word embedding) 密なベクトルvはone-hotベクトルxに変換⾏列Wをかけて得られる : v = Wx -

    xの次元は語彙数 - vの次元は埋め込みたい数(ハイパーパラメータ) - Wは重みを表す埋め込み行列、コーパスから学習 27
  15. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単語の意味から文の意味の計算へ:言語モデル 単語列(文)w 1 , w 2 ,…,w i-1 の次に続く単語w

    i の 出現確率(確からしさ)P(w 1 , w 2 ,…,w i )を計算するモデル     P(今日,の,天気,は,GPT)=0.0000003     P(今日,の,天気,は,パンダ)=0.0000007     P(今日,の,天気,は,晴れ)=0.0000127 出現確率が高い文を自然な文として生成     →今日,の,天気,は,晴れ 28
  16. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 大規模言語モデルの根幹:Transformer [Vaswani+ 2017] 29 • Self-Attentionに基づく Encoder-Decoderモデル • Self-Attention:

    単語列(文)中 のある単語の埋め込みベクトル を前後の単語(文脈)の埋め込 みベクトルで重みづけする • Encoder-Decoder: 単語列を 埋め込みベクトルに変換する Encoderモデルと、埋め込みベ クトルを受け取り1単語ずつ生成 するDecoderモデル • 計算処理を並列化でき、計算効 率が上がり、大規模言語モデル の誕生へ Encoder
 Decoder
  17. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 GPT-3:in-context learning[Brown+, 2020] • OpenAIが開発した大規模言語モデル • 基本的な構成はGPTと同じだが、事前学習に用いるデータサ イズやパラメータ数が桁違いに大きい ◦

    570GBのテキストデータで事前学習、パラメータ数は175B • GPT-3以前のモデルはタスクに併せてモデルのアーキテク チャを変更する必要があった ◦ NLIなら、最終層に分類タスクを解く層を追加するなど • GPT-3以降ではタスクの指示と少数の正解例をプロンプトとし て入力に含めてしまうin-context learningが主流となり、アー キテクチャの変更が不要となった 31
  18. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 35 言語モデルは合成性や体系性を獲得しているか John loves Annという文を理解できる人 は、Ann loves Johnという文も理解でき る。

    どちらか一方だけ 理解できる人は変? • 合成性(compositionality) 人はこれまで見たことのない文も、文の構成素と統語構造にしたがっ てその文を理解できる • 体系性(systematicity)[Fodor and Pylyshyn,1988] 人はある処理ができれば、関連した処理もできる 80-90年代にコネクショニズム、現在でいうニューラルネットを批判す る文脈で提起された概念 再掲
  19. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単調性推論(monotonicity) 量化表現や否定表現などの単調性に基づき、文中の構成素を 意味的に上位 / 下位の構成素に置き換えた文と、 元の文との含意関係が成立する推論現象 [van Benthem,1983] 上方含意(Upward

    entailing)↑: 意味的に下位の構成素から上位の構成素への含意関係が成立 36 前提P: ある日本人がノーベル文学賞↑を受賞した 仮説H: ある日本人がノーベル賞を受賞した 含意 ある日本人 ノーベル賞受賞 ノーベル文学賞受賞
  20. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単調性推論(monotonicity) 下方含意(Downward entailing)↓: 意味的に上位の構成素から下位の構成素への含意関係が成立 単調性推論の特性: • 量化表現や否定表現などの単調性と 構成素の置き換え で含意関係が定まる

    • 上位・下位の置き換えのしかた も様々な種類がある (語彙の置換・追加・削除) 37 P: 今年日本人はノーベル賞↓を受賞しなかった H1: 今年日本人はノーベル文学賞を受賞しなかった  含意 H2: 今年日本人はノーベル文学賞と化学賞を受賞しなかった 含意 ノーベル賞受賞 ノーベル文学賞受賞 日本人
  21. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 文脈自由文法を用いた単調性推論データの自動構築 1. 文脈自由文法を用いて量化表現を含む前提文を生成 生成規則N→{dogs}, IV→{ran}, TV→{chased}, Q→{some}, NP→Q N|Q

    N Sbar, S→ NP IV, Sbar→which TV NP から生成される文 Some dogs ran (再帰的規則の適用回数n=1のとき) Some dogs which chased some dogs ran (n=2のとき) Some dogs which chased some dogs which chased some dogs ran (n=3のと き) 2. 単調性に従い構成素の表現を置き換えて仮説文を生成 P: Some dogs ran H: Some animals ran 含意 3. 前提文と仮説文を入れ換えて新たな推論ペアを生成 P’: Some animals ran H’: Some dogs ran 非含意 38 形式意味論における多様な構文・意味に関する知見が、 自然言語の評価・学習データセットの構築に活用できる
  22. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料    単調性推論に基づく言語モデルの体系性の評価 [Yanaka+2020] 39 学習 (i. の量化表現の種類を段階的に増やしデータを追加)   ii. 量化表現全種類

    × 置き換え1種類の組み合わせ P: A dog ran. H: An animal ran 含意 P: No animal ran. H: No dog ran 含意 P: A wild animal ran. H: An animal ran. 含意 P: No animal ran. H: No wild animal ran. 含意 評価 量化表現 × 置き換えの未知の組み合わせ some 上位語の置換 D2 L1 上位語の置換 形容詞の追加 D2 L2 D3 L2 D1 L1 D1 L2 D3 L1 a/an no 上位語の置換 no 形容詞の追加 形容詞の追加 a/an i. 量化表現1種類 × 置き換え全種類の組み合わせ P: Some dogs ran. H: Some animals ran. 含意 P: Some wild animals ran. H: Some animals ran. 含意
  23. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単調性推論に基づく言語モデルの体系性の評価 BERTは量化表現と置き換えの未知の組み合わせからなる推論 に対して一部汎化、LSTMやTreeLSTMは汎化しない     40 P: A wild animal

    ran. H: An animal ran. 含意 P: No animal ran. H: No wild animal ran. 含意 評価 量化表現 × 置き換えの未知の組み合わせ 学習 (i. の量化表現の種類を段階的に増やしデータを追加)   i. 量化表現1種類 × 置き換え全種類の組み合わせ P: Some dogs ran. H: Some animals ran. 含意 P: Some wild animals ran. H: Some animals ran. 含意 ii. 量化表現全種類 × 置き換え1種類の組み合わせ P: A dog ran. H: An animal ran. 含意 P: No animal ran. H: No dog ran. 含意
  24. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単調性推論に基づく言語モデルの体系性の評価 BERTは量化表現と置き換えの未知の組み合わせからなる推論 に対して一部汎化、LSTMやTreeLSTMは汎化しない i.のデータを段階的に増やしていくとLSTMやTreeLSTMも性能向 上:データ拡張による部分的な改善の可能性 41 P: A wild

    animal ran. H: An animal ran. 含意 P: No animal ran. H: No wild animal ran. 含意 評価 量化表現 × 置き換えの未知の組み合わせ 学習 (i. の量化表現の種類を段階的に増やしデータを追加)   i. 量化表現1種類 × 置き換え全種類の組み合わせ P: Some dogs ran. H: Some animals ran. 含意 P: Some wild animals ran. H: Some animals ran. 含意 ii. 量化表現全種類 × 置き換え1種類の組み合わせ P: A dog ran. H: An animal ran. 含意 P: No animal ran. H: No dog ran. 含意
  25. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 意味表示を用いた言語モデルの体系性の評価 • COGS [Kim and Linzen,2020] 主語→目的語への汎化、一階述語論理に基づく意味表示 学習:入力 John

    liked the meat → 出力 like(john, meat) テスト:入力 The kid liked John → 出力 like(kid, john) • SyGNS [Yanaka+2021] 未知の組み合わせへの汎化、複数種類の意味表示 談話表示構造、一階述語論理、変数除去形式 ※意味表示の表現力の高さと系列変換タスクとしての扱いやすさのトレードオ フ 42
  26. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 LLMが課題とする様々な推論現象    46 事実性推論 (veridical inference)[Ross&Pavlick19][Yanaka+24] P: 太郎は二郎が来たと気づいていた H:

    二郎が来た 含意 P: 太郎は二郎が来たと信じていた H: 二郎が来た 非含意 時間推論(temporal inference)[Thukral+21][杉本+2024] P: 車は2時間で到着した H: 車は3時間以内に到着した 含意 P: 車は2時間で到着した H: 車は3時間で到着した 非含意 比較表現(comparative)[Haruta+20] P: 太郎は二郎より多くの本を買った H: 太郎は何冊かの本を買った 含意 P: 太郎は二郎より多くの本を買った H: 二郎は何冊かの本を買った 非含意 自然言語処理と計算言語学の合流 2:形式意味論に 基づいてことばの意味を解析し推論できないか?
  27. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 形式意味論の構成[戸次 (2017)「形式意味論」, 人工知能学事典] 1. 自然言語の意味とは何か、という問題について何らかの立場を 採り、意味を表示するための形式言語を定義 する 2. 自然言語の統語論について、何らかの立場を採る

    3. 与えられた言語の与えられた文もしくは談話について、2. の統 語論が与える構造にしたがって、 1. による意味表示 (意味表現) を計算する機構を与える 4. その言語の個々の文または談話について、3. によって予測さ れる意味と、母語話者の言語直観とを照合 することにより経験 的検証を行う。誤りは1.2.3. に遡り(通常は3. を)修正する 47
  28. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 形式意味論の礎:モンタギュー意味論 モンタギュー意味論[Montague, 1973] • 文の意味を真理条件(truth condition, 文がどのような状況で は真となり、どのような状況では偽となるかを示す条件)として とらえ、文間の含意関係を説明する

    • 自然言語の統語論に基づき論理式への翻訳を行い、状況を 表すモデルによって自然言語の意味の解釈を与える: 反証可能性の担保 48 自然言語 論理式 モデル 翻訳 解釈 オブジェクト言語 メタ言語
  29. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 意味論に基づく含意関係の計算:モデルによる解釈 • 述語論理のモデル:領域D(個体の集合)と述語が指示する個体の 部分集合を指定する解釈I から構成 • 含意関係:前提(論理式)が真であるすべてのモデルにおいて、仮 説(論理式)も必ず真である •

    前提が仮説を含意しないことは、反例モデル の存在から示せる 49 前提「太郎は働き者かつ金持ちである」 働き者(太郎)∧金持ち(太郎) 仮説「働き者は皆金持ちである」    ∀x.(働き者(x)→金持ち(x)) 反例モデル: 前提は真、 仮説は偽 金持ち 働き者 太郎 次郎 モデル1 モデル2 金持ち 働き者 太郎 次郎 モデル1,2とも 領域D= {太郎、次郎}
  30. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 証明論に基づく含意関係の計算:証明図の導出 • モデル理論で含意関係の成立を示すには、前提が真となるすべて のモデルで仮説が真となることを示さないといけない • 対して証明論的アプローチでは、前提(論理式)に推論規則を適用 して仮説(論理式)を導出することで、含意関係の成立を示すことが できる 50

    前提1「働き者は皆金持ちである」  ∀x.(働き者(x)→金持ち(x)) 前提2「太郎は働き者である」    働き者(太郎) 仮説 「太郎は金持ちである」    金持ち(太郎) 前提ー仮説間の含意関係の証明図の例: ∀x.(働き者(x)→金持ち(x)) 働き者(太郎)→金持ち(太郎) 働き者(太郎) 金持ち(太郎) 含意記号(→)除去 全称量化子(∀)除去 推論規則の適用
  31. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 形式意味論に基づく意味解析・論理推論システム ccg2lambda[Mineshima+2015][Yanaka+2018]: 組合せ範疇文法に基づく意味解析・論理推論システム 他の形式意味論に基づく意味解析・論理推論システム: LangPro[Abzianidze+2017], MonaLog[Hu+2020], lightblue[Tomita+2024] 関連する意味解析システム、推論システムとしては NeuralLog[Zhen+2021],

    Hy-NLI[Kalouli+2020], UDepLambda[Reddy+2017], Boxer[Bos,2015]など 51 ∃x∃y∃e (dog(x) & sheep(y) & touch(e) & subj(e,x) & obj(e,y)) 二匹の羊が寝ている。 
 犬が羊にさわっている。 
 論理式 A’’, B’’ CCG導出木 A’, B’ 前提文A 仮説文B 含意 関係 構文解析 意味解析 自動定理証明 unknown

  32. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 組合せ範疇文法[Steedman, 2000] • Combinatory Categorial Grammar(CCG) 統語構造と意味解釈の対応が明示的かつ簡潔な文法理論 • 語の語彙的・文法的な性質を統語範疇として辞書に記述し、

    言語普遍的な性質を少数の統語規則で記述する語彙化文法 の一つ • 統語範疇の定義: ◦ S, NP, Nは統語範疇である。これを基底範疇という。 ◦ XとYが統語範疇ならば、X/YとY\Xも統語範疇である。こ れを関数型範疇 という。 • S(文), NP(名詞句), N(名詞) 52
  33. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CCGに基づく構文解析と意味解析 • 辞書:語の統語範疇と意味表示を同時に指定(語彙項目) • 組合せ規則:統語構造の構成方法と意味合成の計算方法を同 時に指定 • 様々なCCG構文解析器が現在も研究されている ◦

    英語:C&C[Clark and Curran, 2007] ,HoLCCG[Yamaki+,2023] ◦ 日本語:depccg[Yoshikawa+,2017], lightblue[Tomita+,2024] 57 語 統語範疇 意味表示 John NP John love (S\NP)/NP λy.λx.love(x,y) 語の意味は ラムダ式で記述 (後で説明!) 辞書の例
  34. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 意味表示の型 型つきラムダ計算 :モンタギュー意味論にはじまる形式意味論の 標準的な記述言語。文法理論と意味理論のシンプルで統一的な 計算体系の一つ 例 62 語 意味表示

    型 John John e run λx.run(x) e→t • eとtは型である。eは個体(entity)、tは真理値(type)の型を表す。 • αとβが型ならばα→βも型である。 • それ以外は型ではない。 意味表示の型の定義
  35. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CCGに基づく意味合成 65 語 統語範疇 意味表示 意味表示の型 John NP John

    e love (S\NP)/NP λy.λx.love(x,y) e→e→t John loves Mary のCCG導出木と意味合成の例 語彙項目の例
  36. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CCGに基づく意味合成:量化を伴う名詞句 • 文A dog runsの意味表示は∃x.(dog(x)∧run(x)) • 述語dog、runを関数抽象すると、aの意味表示は λF.λG.∃x.(F(x)∧G(x)) •

    限定詞aの意味表示の型は、普通名詞dog (e→t)と自動詞run (e→t)を受け取り文(t)となるので、(e→t)→(e→t)→t • 名詞句a dogの意味表示の型は、限定詞aが普通名詞を受け 取って得られるので、(e→t)→t ◦ 先ほどは名詞句に対応するCCGの統語範疇NPには、意味表 示の型eが対応づけられていたことに注意! ◦ 統語範疇と意味表示の型の対応づけを更新する必要がある 66
  37. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CCGに基づく意味合成:量化を伴う名詞句 68 語 統語範疇 意味表示 意味表示の型 a NP/N λF.λG.∃x.(F(x)∧G(x))

    (e→t)→(e→t)→t dog N λx.run(x) e→t run S\NP λQ.Q(λx.run(x)) e→t A dog runsのCCG導出木と意味合成の例 語彙項目の例
  38. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 まとめ:ccg2lambdaを用いた含意関係の証明 ccg2lambda[Mineshima+2015][Yanaka+2018]: CCGに基づく構文解析・意味解析・論理推論システム 69 ∃x∃y∃e (dog(x) & sheep(y) &

    touch(e) & subj(e,x) & obj(e,y)) 二匹の羊が寝ている。 
 犬が羊にさわっている。 
 論理式 A’’, B’’ CCG導出木 A’, B’ 前提文A 仮説文B 含意 関係 構文解析 意味解析 自動定理証明 unknown
 https://github.com/mynlp/ccg2lambda
  39. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ccg2lambdaを用いた含意関係の証明:(i) 構文解析 文A: Some cats are runningと文B: Some animals

    are runningの意 味表示を構文解析・意味解析により導出し、含意関係を示す B: Some animals are running. A: Some cats are running. 70
  40. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 (ii) CCGに基づく意味解析 文A: Some cats are runningと文B: Some animals

    are runningの意 味表示を構文解析・意味解析により導出し、含意関係を示す 71 B: Some animals are running. A: Some cats are running.
  41. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 (iii) 定理証明器を用いた自動推論 72 文間の含意関係を定理証明器(Coq, Vampireなど)で自動証明 • 語彙知識、常識的知識や世界知識は公理として補完 • 証明過程を観測でき、解釈性がある

    A1: ∃e 1 ∃x 1 (cat(x 1 )∧run(e 1 )∧(subj(e 1 )=x 1 )) B1: ∃e 2 ∃x 2 (animal(x 2 )∧run(e 2 )∧(subj(e 2 )=x 2 )) 文A: Some cats are running. 文B: Some animals are running.   ① ② ③ ④ A2: cat(x 1 )∧run(e 1 )∧(subj(e 1 )=x 1 ) B2: animal(x 2 )∧sing(e 2 )∧(subj(e 2 )=x 2 ) A3: cat(x 1 ), A4: run(e 1 ), A5: subj(e 1 )=x 1 B3: animal(x 2 ), B4: run(e 2 ), B5: subj(e 2 )=x 2 A3: cat(x 1 ), A4: run(e 1 ), A5: subj(e 1 )=x 1 B3: animal(x 1 ), B4: run(e 1 ), B5: subj(e 1 )=x 1 存在量化子(∃)の除去 連言(∧)の除去 変数の単一化 公理 ∀x.cat(x)→animal(x)補完 サブゴールの除去
  42. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 まとめ:ことばの意味を計算する2つのアプローチ アプローチ 自然言語処理 計算言語学 意味の理論 分布意味論(使用説) 形式意味論(真理条件説) 意味の単位 語の意味

    文の意味 意味表現 ベクトル表現 論理表現など 経験的な 利点 ・連続値・離散値問わず  end-to-endで計算 ・内容語の意味の扱い ・推論過程を解釈しやすい ・体系的な推論 ・機能語の意味の扱い 経験的な 課題 ・機能語の意味の扱い ・体系性の獲得 ・推論過程がblack-box ・内容語の意味の扱い ・連続値の計算 ・頑健なパイプライン処理 75
 …と必ずしもきれいにはまとまらない!
  43. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 合成性を満たす分布意味論:合成分布意味論 Compositional Distributional Semantics (CDS) [Coecke,2010] 76 • 文の統語構造を考慮して語の意味ベクトルを合成

    ◦ 他動詞likeのような項を取る語の意味を、項と同じベクトル空間の元 ではなく、ベクトル空間のテンソル積の元として表し、テンソルの縮約 で項関係を考慮して意味合成 ◦ 型つきラムダ計算との対応で述べると:関数の代わりにテンソル積、 関数適用の代わりにテンソル縮約を用いる • 実装では量子計算が用いられる(量子言語処理、QNLP) ◦ DisCoPy: pythonツールキット https://discopy.org/
  44. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CDS:前群文法に基づく意味合成 • 前群文法(Pregroup Grammar, PG) ◦ 語w 1 ,...w

    n の型をt 1 ,...t n とすると、文w 1 ,...w n がPGのもとで文法的であ るとき、t 1 ・…・t n ≤ s が成り立つ ◦ 例:Mary likes wordsが文法的であることを示す 文の型をs、名詞の型をn、他動詞の型をnrsnlとする ※nrsは左にnをとりsになる型、snlは右にnをとりsになる型) n・nrsnl・n = (n・nr)・s・(nl・n ) ≤ 1・s・1  ≤ s ◦ CCGで解析しPGに変換する研究も[Yeung and Kertsaklis,2021] • PGはコンパクト閉圏、ベクトル空間もコンパクト閉圏 ◦ PGに基づいて語の意味ベクトル(テンソル)の内積をとりテンソルの 縮約を行うことで、文の意味表示を導出 ◦ 例 v mary ⊗v likes ⊗v words     v mary ,v words ∈ N, v likes ∈ N⊗S⊗N = N⊗N⊗S⊗N⊗N ≅ S 77 縮約n・nr≤ 1、nl・n≤ 1
  45. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 おわりに:ことばの意味を多面的にみてみよう 82 • LLMの発展に伴い、他分野への自然言語処理応用や社会実 装の幅が広がる • 計算言語学と自然言語処理の合流: ◦ LLMの課題解決に向けた言語理論の活用

    ◦ LLMと人の比較分析による言語理論の再検証 • 人がどのようにことばの意味を計算しているのかはまだ十分 に解明されていない。ことばの意味の研究は、様々な分野と立 場が関わる学際的な研究領域。自ら様々な立場から検討し反 証する形で相互尊重することによって、 ことばの意味についての「真理」にさらに一歩近づける可能性 ご清聴ありがとうございました!
  46. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ことばの内包的意味と外延的意味 Frege, 1892「意義と意味について」:外延的意味と内包的意味を 区別 • 意味(Bedeutung):ことばの外延的意味。ことばが指示する対象 (指示対象, reference)、ことばを指示対象で代入可能 •

    意義(Sinn):ことばの内包的意味。ことばの指示を決定する概念 (意義, sense)、ことばを指示対象で代入不可能 84 金星、明けの明星、宵の明星の指示対象(外延的意味)は同じ 明けの明星(主体が明け方に見た金星)と宵の明星(主体が夕方に見た 金星)は、主体の信念によって概念が決定し内包的意味が異なる ◦ 金星は金星である ◦ 明けの明星は明けの明星である ◦ 明けの明星は宵の明星である
  47. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 LLMは文の共起確率で含意関係を捉える? I have two catsの後にI don’t have a catやI

    have a catなど互いに矛 盾する文は続きにくいが、One is orangeなど、新情報を追加する文は 続きやすい:二つの文x,yの共起確率である程度含意関係を捉えている 傾向[Merill+2024] 86 Ê p (x,y)≈logp(y|x)-logp(y|y)
  48. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 LLMは量化の意味を捉えている? There are 500 balls. 234 of them are

    yellow. Are many balls are yellow?という質問形式で量化の意味をモデルと人に聞き結果を比較: 厳密な量化と曖昧な量化の判断に差がある傾向は共通 91
  49. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 Neuro-Symbolic AIの背景:二重過程理論 人の思考と推論に関する理論[Evans 2003, Kahneman 2011] システム1(即応的知能) 迅速で直感的、ヒューリスティクスに基づく推論 現在の深層学習のアプローチと親和性が高い

    システム2(熟考的知能) 時間がかかるが内省的、論理的思考に基づく推論 現在の論理のアプローチと親和性が高い システム1とシステム2の構成は、現在も議論が続いている 93