Upgrade to Pro — share decks privately, control downloads, hide ads and more …

_2024__佐々木_Web用発表資料.pdf

 _2024__佐々木_Web用発表資料.pdf

Transcript

  1. パーソナライズした見出し 3 阪神が逆転勝利で連敗を3で止めた。~ ~ ~ ~ ~ ~ 大山の9号2ラン が飛び出した。~

    ~ ~ ~ ~ ここで木浪が起死回生の逆転タイムリーを 放つ。~ ~ ~ ~ ~ ~ ~ で阪神 連敗ストップ 大山ファン向け見出し で阪神 逆転勝ち 木浪ファン向け見出し 試合結果記事 大山の9号2ラン が飛び出した。 大山9号2ラン ここで木浪が起死回生の逆転タイムリーを 放つ。 木浪タイムリー
  2. 文生成モデル 5 テキスト 大規模 言語モデル 入力 出力 テキスト タスク •

    質問応答 • 翻訳 • 要約 モデル • GPT • BERT2BERT • T5
  3. 文生成モデル 6 テキスト 大規模 言語モデル 入力 出力 テキスト タスク •

    質問応答 • 翻訳 • 要約 モデル • GPT • BERT2BERT • T5
  4. 記事全文を入力する問題点 10 阪神が逆転勝利で連敗を3で止めた。~ ~ ~ ~ ~ ~ 大山の9号2ラン が飛び出した。~

    ~ ~ ~ ~ ここで木浪が起死回生の逆転タイムリーを 放つ。~ ~ ~ ~ ~ ~ ~ で阪神 連敗ストップ 大山ファン向け見出し 試合結果記事 大山の9号2ラン が飛び出した。 大山タイムリー ここで木浪が起死回生の逆転タイムリーを 放つ。
  5. 抽出対象の重要文 13 記事全文 + 注目する選手名 記事の主題に 関する文の抽出 注目選手の活躍に 関する文の抽出 抽出した

    文の集合 入力文の作成 記事の主題に関する文 • 記事の最初の文 • 記事の最初の文には、主題が書かれることが 多いため • 本物の見出しと類似度が高い文(similarityが3以上) • 本物の見出しは、筆者が記事の主題を読者に 素早く伝える目的で作成したものであるため
  6. 抽出対象の重要文 14 記事全文 + 注目する選手名 記事の主題に 関する文の抽出 注目選手の活躍に 関する文の抽出 抽出した

    文の集合 入力文の作成 注目選手の活躍に関する文 • 注目選手の名前が含まれる文 • 選手の活躍を述べる文には、選手名 が入っていることが多いため
  7. 抽出対象の重要文 15 記事全文 + 注目する選手名 記事の主題に 関する文の抽出 注目選手の活躍に 関する文の抽出 抽出した

    文の集合 入力文の作成 記事の主題に関する文 • 記事の最初の文 • 記事の最初の文には、主題が書かれることが多いため • 本物の見出しと類似度が高い文(similarityが3以上) • 本物の見出しは、筆者が記事の主題を読者に素早く伝える目的で作 成したものであるため 注目選手の活躍に関する文 • 注目選手の名前が含まれる文 • 選手の活躍を述べる文には、選手名が入っていることが多いため
  8. 抽出文決定のための類似度の計算方法 16 本物の見出し 阪神が打線爆発で連敗ストップ!1試合で首位返り咲き 高卒2年目の前川がプロ初猛打賞で牽引 中日戦6連勝 記事本文(ある日の試合結果記事) 阪神は打線が爆発し、2桁11得点の猛攻で連敗を「5」でストップさせた。 0・5ゲーム差で首位だったDeNAが敗れたため、1試合で首位に返り咲 いた。0-0の三回にビッグイニングを作った。先頭・梅野が中前打を放

    ち、その後1死二、三塁と好機を作ると、近本の右犠飛で先取点をゲット。 さらに中野&前川の連続適時打で3点を奪った。なおも2死一塁で、大 山が左越え9号2ランをマーク。この回に一挙5点を挙げた。2点差に迫 られた五回には、先頭・前川が中越え三塁打をマーク。その後、1死満 塁の絶好機で梅野の平凡な打球を三塁・石川がファンブルして、その間 に1点を追加。続く木浪が中前2点適時打を放ち、再びリードを広げた。 終盤にも着実に加点し、前川がプロ初の猛打賞をマークした。先発の西 勇は5回7安打3失点で今季5勝目を挙げた。 クエリ 文書1 文書2 文書3 文書4 文書5 文書6 文書7 文書8 文書9 文書10 文書11 文書12
  9. 共起している形態素の抽出 19 阪神 打線 爆 発 連敗 ストッ プ !

    返り咲き 高 卒 年 目 前川 プロ 初 猛 打 賞 牽引 中日 戦 連勝 ・ ゲーム 差 首位 DeNA 敗 れ 返り咲い 試合 首位 本物の見出し 類似度を計算する文 共起した形態素のIDFの 合計値により類似度を計算!
  10. IDFを利用する理由 20 爆発 ストップ 試合 首位 ・・・ 中前 打 回

    文書1 1 1 0 0 ・・・ 0 0 0 文書2 0 0 1 1 ・・・ 0 0 0 文書3 0 0 0 0 ・・・ 0 0 1 文書4 0 0 0 0 ・・・ 1 1 0 文書5 0 0 0 0 ・・・ 0 1 0 文書6 0 0 0 0 ・・・ 0 0 0 文書7 0 0 0 0 ・・・ 0 0 1 文書8 0 0 0 0 ・・・ 0 0 1 文書9 0 0 0 0 ・・・ 0 0 0 文書10 0 0 0 0 ・・・ 1 1 0 文書11 0 0 0 0 ・・・ 0 1 0 文書12 0 0 0 0 ・・・ 0 0 1 記事の中であまり登場しない形態素が本物の見出し と共起することの価値を上げるのが目的
  11. IDFを利用する理由(具体例) 21 爆発 ストップ 試合 首位 ・・・ 中前 打 回

    文書1 1 1 0 0 ・・・ 0 0 0 文書2 0 0 1 1 ・・・ 0 0 0 文書3 0 0 0 0 ・・・ 0 0 1 文書4 0 0 0 0 ・・・ 1 1 0 文書5 0 0 0 0 ・・・ 0 1 0 文書6 0 0 0 0 ・・・ 0 0 0 文書7 0 0 0 0 ・・・ 0 0 1 文書8 0 0 0 0 ・・・ 0 0 1 文書9 0 0 0 0 ・・・ 0 0 0 文書10 0 0 0 0 ・・・ 1 1 0 文書11 0 0 0 0 ・・・ 0 1 0 文書12 0 0 0 0 ・・・ 0 0 1
  12. IDFを利用する理由(具体例) 22 爆発 ストップ 試合 首位 ・・・ 中前 打 回

    文書1 1 1 0 0 ・・・ 0 0 0 文書2 0 0 1 1 ・・・ 0 0 0 文書3 0 0 0 0 ・・・ 0 0 1 文書4 0 0 0 0 ・・・ 1 1 0 文書5 0 0 0 0 ・・・ 0 1 0 文書6 0 0 0 0 ・・・ 0 0 0 文書7 0 0 0 0 ・・・ 0 0 1 文書8 0 0 0 0 ・・・ 0 0 1 文書9 0 0 0 0 ・・・ 0 0 0 文書10 0 0 0 0 ・・・ 1 1 0 文書11 0 0 0 0 ・・・ 0 1 0 文書12 0 0 0 0 ・・・ 0 0 1 「打」、「回」より 「爆発」、「ストップ」が 共起することの価値を 上げたい!!
  13. 形態素tのIDFの計算式 23 idft = log(sentences freq +𝑛 ) • freqは形態素tが現れる文の数

    • sentencesは対象記事の文の数 • 今回は10で固定 • nは定数 • 値を大きくすると現れることが少ない形態素の 価値が向上 • 今回は5を代入
  14. IDF値の合計を計算 24 阪神 打線 爆 発 連敗 ストッ プ !

    返り咲き 高 卒 年 目 前川 プロ 初 猛 打 賞 牽引 中日 戦 連勝 ・ ゲーム 差 首位 DeNA 敗 れ 返り咲い 試合 首位 本物の見出し 類似度を計算する文 形態素 IDF値 試合 0.51 首位 0.51 0.51 + 0.51 = 1.02
  15. IDF値の合計を計算する式 25 idfsum = σ𝑖=1 𝑘 idfti • kは共起している形態素の数 •idfti

    は形態素tのIDF値 形態素 IDF値 試合 0.51 首位 0.51 0.51 + 0.51 = 1.02
  16. Similarityを計算する式 26 similarity = 𝛼 ∗ idfsum − 𝛽 ∗

    morphemes • 長い文にペナルティを与えている。 • idfsum はIDFの合計値 • morphemesは現在類似度を計算している文の形態素の数 • 𝛼, 𝛽は重視する値を調節するパラメータ • 今回は𝛼に5,𝛽に0.1を代入 • similarityが3以上のとき抽出対象となる。 ・ ゲーム 差 首位 DeNA 敗れ 返り咲い 類似度を計算する文 試合 首位 similarity = 5 ∗ 1.02 − 0.1 ∗ 9 = 4.20 ≥ 3
  17. 大山選手に注目 27 本文 similarity 阪神は打線が爆発し、2桁11得点の猛攻で連敗を「5」でストップさせた。 11.95 0・5ゲーム差で首位だったDeNAが敗れたため、1試合で首位に返り咲いた。 4.20 0-0の三回にビッグイニングを作った。 -0.60

    先頭・梅野が中前打を放ち、その後1死二、三塁と好機を作ると、近本の右犠飛で先取点をゲット。 -1.15 さらに中野&前川の連続適時打で3点を奪った。 0.85 なおも2死一塁で、大山が左越え9号2ランをマーク。 -0.90 この回に一挙5点を挙げた。 -0.40 2点差に迫られた五回には、先頭・前川が中越え三塁打をマーク。 0.00 その後、1死満塁の絶好機で梅野の平凡な打球を三塁・石川がファンブルして、その間に1点を追加。 -1.50 続く木浪が中前2点適時打を放ち、再びリードを広げた。 -0.55 終盤にも着実に加点し、前川がプロ初の猛打賞をマークした。 10.85 先発の西勇は5回7安打3失点で今季5勝目を挙げた。 1.55
  18. 抽出対象の重要文 28 記事全文 + 注目する選手名 記事の主題に 関する文の抽出 注目選手の活躍に 関する文の抽出 抽出した

    文の集合 入力文の作成 記事の主題に関する文 • 記事の最初の文 • 記事の最初の文には、主題が書かれることが多いため • 本物の見出しと類似度が高い文(similarityが3以上) • 本物の見出しは、筆者が記事の主題を読者に素早く伝える目的で作 成したものであるため 注目選手の活躍に関する文 • 注目選手の名前が含まれる文 • 選手の活躍を述べる文には、選手名が入っていることが多いため
  19. 抽出対象の重要文 29 記事全文 + 注目する選手名 記事の主題に 関する文の抽出 注目選手の活躍に 関する文の抽出 抽出した

    文の集合 入力文の作成 記事の主題に関する文 • 記事の最初の文 • 記事の最初の文には、主題が書かれることが多いため • 本物の見出しと類似度が高い文(similarityが3以上) • 本物の見出しは、筆者が記事の主題を読者に素早く伝える目的で作 成したものであるため 注目選手の活躍に関する文 • 注目選手の名前が含まれる文 • 選手の活躍を述べる文には、選手名が入っていることが多いため
  20. 抽出対象の重要文 30 記事全文 + 注目する選手名 記事の主題に 関する文の抽出 注目選手の活躍に 関する文の抽出 抽出した

    文の集合 入力文の作成 記事の主題に関する文 • 記事の最初の文 • 記事の最初の文には、主題が書かれることが多いため • 本物の見出しと類似度が高い文(similarityが3以上) • 本物の見出しは、筆者が記事の主題を読者に素早く伝える目的で作 成したものであるため 注目選手の活躍に関する文 • 注目選手の名前が含まれる文 • 選手の活躍を述べる文には、選手名が入っていることが多いため
  21. 抽出対象の重要文 31 記事全文 + 注目する選手名 記事の主題に 関する文の抽出 注目選手の活躍に 関する文の抽出 抽出した

    文の集合 入力文の作成 記事の主題に関する文 • 記事の最初の文 • 記事の最初の文には、主題が書かれることが多いため • 本物の見出しと類似度が高い文(similarityが3以上) • 本物の見出しは、筆者が記事の主題を読者に素早く伝える目的で作 成したものであるため 注目選手の活躍に関する文 • 注目選手の名前が含まれる文 • 選手の活躍を述べる文には、選手名が入っていることが多いため
  22. 記事の最初の文 32 本文 similarity 阪神は打線が爆発し、2桁11得点の猛攻で連敗を「5」でストップさせた。 11.95 0・5ゲーム差で首位だったDeNAが敗れたため、1試合で首位に返り咲いた。 4.20 0-0の三回にビッグイニングを作った。 -0.60

    先頭・梅野が中前打を放ち、その後1死二、三塁と好機を作ると、近本の右犠飛で先取点をゲット。 -1.15 さらに中野&前川の連続適時打で3点を奪った。 0.85 なおも2死一塁で、大山が左越え9号2ランをマーク。 -0.90 この回に一挙5点を挙げた。 -0.40 2点差に迫られた五回には、先頭・前川が中越え三塁打をマーク。 0.00 その後、1死満塁の絶好機で梅野の平凡な打球を三塁・石川がファンブルして、その間に1点を追加。 -1.50 続く木浪が中前2点適時打を放ち、再びリードを広げた。 -0.55 終盤にも着実に加点し、前川がプロ初の猛打賞をマークした。 10.85 先発の西勇は5回7安打3失点で今季5勝目を挙げた。 1.55
  23. 本物の見出しと類似度が高い文 33 本文 similarity 阪神は打線が爆発し、2桁11得点の猛攻で連敗を「5」でストップさせた。 11.95 0・5ゲーム差で首位だったDeNAが敗れたため、1試合で首位に返り咲いた。 4.20 0-0の三回にビッグイニングを作った。 -0.60

    先頭・梅野が中前打を放ち、その後1死二、三塁と好機を作ると、近本の右犠飛で先取点をゲット。 -1.15 さらに中野&前川の連続適時打で3点を奪った。 0.85 なおも2死一塁で、大山が左越え9号2ランをマーク。 -0.90 この回に一挙5点を挙げた。 -0.40 2点差に迫られた五回には、先頭・前川が中越え三塁打をマーク。 0.00 その後、1死満塁の絶好機で梅野の平凡な打球を三塁・石川がファンブルして、その間に1点を追加。 -1.50 続く木浪が中前2点適時打を放ち、再びリードを広げた。 -0.55 終盤にも着実に加点し、前川がプロ初の猛打賞をマークした。 10.85 先発の西勇は5回7安打3失点で今季5勝目を挙げた。 1.55
  24. 大山選手の活躍に関する文 34 本文 similarity 阪神は打線が爆発し、2桁11得点の猛攻で連敗を「5」でストップさせた。 11.95 0・5ゲーム差で首位だったDeNAが敗れたため、1試合で首位に返り咲いた。 4.20 0-0の三回にビッグイニングを作った。 -0.60

    先頭・梅野が中前打を放ち、その後1死二、三塁と好機を作ると、近本の右犠飛で先取点をゲット。 -1.15 さらに中野&前川の連続適時打で3点を奪った。 0.85 なおも2死一塁で、大山が左越え9号2ランをマーク。 -0.90 この回に一挙5点を挙げた。 -0.40 2点差に迫られた五回には、先頭・前川が中越え三塁打をマーク。 0.00 その後、1死満塁の絶好機で梅野の平凡な打球を三塁・石川がファンブルして、その間に1点を追加。 -1.50 続く木浪が中前2点適時打を放ち、再びリードを広げた。 -0.55 終盤にも着実に加点し、前川がプロ初の猛打賞をマークした。 10.85 先発の西勇は5回7安打3失点で今季5勝目を挙げた。 1.55
  25. 大山選手に注目 35 本文 similarity 阪神は打線が爆発し、2桁11得点の猛攻で連敗を「5」でストップさせた。 11.95 0・5ゲーム差で首位だったDeNAが敗れたため、1試合で首位に返り咲いた。 4.20 0-0の三回にビッグイニングを作った。 -0.60

    先頭・梅野が中前打を放ち、その後1死二、三塁と好機を作ると、近本の右犠飛で先取点をゲット。 -1.15 さらに中野&前川の連続適時打で3点を奪った。 0.85 なおも2死一塁で、大山が左越え9号2ランをマーク。 -0.90 この回に一挙5点を挙げた。 -0.40 2点差に迫られた五回には、先頭・前川が中越え三塁打をマーク。 0.00 その後、1死満塁の絶好機で梅野の平凡な打球を三塁・石川がファンブルして、その間に1点を追加。 -1.50 続く木浪が中前2点適時打を放ち、再びリードを広げた。 -0.55 終盤にも着実に加点し、前川がプロ初の猛打賞をマークした。 10.85 先発の西勇は5回7安打3失点で今季5勝目を挙げた。 1.55
  26. 評価実験 37 評価基準 • 事実性:事実と異なっていないか • パーソナライズ性:指定した選手名を含んでいるか • 主題表現性:記事全体の要約を含んでいるか •

    文法正確性:日本語として自然か • 情報妥当性:見出しで扱う情報として妥当か 評価者 • プロ野球ファン3名 データ • 訓練・検証 • 2021年の阪神タイガースに関する記事: 2,738件・152件 • 評価 • 2022年の阪神タイガースの試合結果を報じている記事:50件 使用モデル • sonoisa/t5-base-japanese
  27. T5学習条件 38 学習率 • 3.0 × 10−4 バッチサイズ • 4

    最適化アルゴリズム • Adam Weight Decay エポック数 • Patienceを10とした早期終了により決定
  28. 評価結果 41 手法 事実性 パーソナラ イズ性 主題表現性 文法正確性 情報妥当性 提案手法

    (重要文入力) 0.56* 0.90 0.64 3.59 2.99 比較手法 (全文入力) 0.25 0.99* 0.60 3.39 2.70 事実性が向上!!
  29. 余計な情報の排除による精度の向上 42 本文で伝えていること • 阪神が中日相手に逆転勝ちしたこと。 • ガンケル投手が8回1失点の好投をしたこと。 • 佐藤選手が猛打賞の活躍をしたこと。 提案手法(重要文入力)

    • 阪神が逆転勝ちガンケルは昨季3戦3勝の 中日相手に8回1失点 比較手法(全文入力) • ガンケル、今季6度目の猛打賞佐藤輝が 2点タイムリー&右翼線二塁打
  30. 余計な情報の排除による精度の向上 43 本文で伝えていること • 阪神が中日相手に逆転勝ちしたこと。 • ガンケル投手が8回1失点の好投をしたこと。 • 佐藤選手が猛打賞の活躍をしたこと。 提案手法(重要文入力)

    • 阪神が逆転勝ちガンケルは昨季3戦3勝の 中日相手に8回1失点 比較手法(全文入力) • ガンケル、今季6度目の猛打賞佐藤輝が 2点タイムリー&右翼線二塁打
  31. 評価結果 44 手法 事実性 パーソナラ イズ性 主題表現性 文法正確性 情報妥当性 提案手法

    (重要文入力) 0.56* 0.90 0.64 3.59 2.99 比較手法 (全文入力) 0.25 0.99* 0.60 3.39 2.70 パーソナライズ性 は低下
  32. まとめと今後の課題 51 まとめ • 特定選手に注目した見出しの生成 • 工夫点 : 抽出した重要文を入力 •

    評価結果 : 事実性向上 今後の課題 • ポジティブ情報とネガティブ情報の繋げ方 • チーム情報との区別 • 別ジャンルの記事への応用