Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Detecting Causal Language Use in Science ...

【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Avatar for Kaito Sugimoto

Kaito Sugimoto

March 28, 2022
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. 1. Detecting Causal Language Use in Science Findings 2. Measuring

    Correlation-to-Causation Exaggeration in Press Releases Kaito Sugimoto Aizawa Lab. M1 2021/03/28 1 / 22
  2. 紹介する論文 • EMNLP 2019 / COLING 2020 • 学術論文における argument

    mining のサーベイ論文の中で発見 • 内容が一続きなのでまとめて紹介 2 / 22
  3. 背景 • 相関関係 ≠ 因果関係 というのは有名な話 • しかしながら, 研究発表やプレスリリースにおいて, 相関関係の

    発見を因果関係のように表現してしまう問題が知られていた • 特に医療の世界では, 相関関係を調べる観察研究 (observational studies) と 因果関係を調べる介入研究 (intervention studies) に 厳密にジャンルが分かれているにもかかわらず, しばしば相関関 係の発見が因果関係の発見として取り扱われてきた • ex.「母親の肥満が子供の肥満を引き起こす」 • こうした問題は, 誤った医療判断や, 特定の人々の差別にまで繋がる • 過去の人手による研究でも, 観察研究のうちおよそ 30%もの研究 がそのような誤謬を犯していると報告されている 4 / 22
  4. 背景 どうしてそのような誤謬を犯してしまうのか? • 人間はそもそも相関関係を因果関係と誤って捉えがちである (from 心理学) • 研究者/報道者は contribution を誇張したい気持ちがある

    • (特にノンネイティブの)研究者/報道者が writing の訓練を受け ていない • 既にある他の論文の英語表現に影響を受けがち (分かる...) 5 / 22
  5. 1 つ目の研究の要旨 医療論文の各 conclusion の各文について, 相関関係を述べているか因 果関係を述べているかをアノテートしたデータセットを作り, 分類器 を訓練. その上で,

    以下のリサーチクエスチョンに答える. 1 相関関係を調べる観察研究の論文全体において、 (誤って)因果 関係の用語を使っているものはどの程度あるか? 2 そのような誤謬は近年増えているのか? 減っているのか? 3 論文の著者の国や言語的背景によってそのような誤謬の頻度の 差はあるのか? 6 / 22
  6. コーパス作成 • ある文に対して, その文が相関関係を述べているか, 因果関係を 述べているかを識別する分類器を学習したい • そのために, まずコーパスを作成する •

    具体的には PubMed の論文の structured abstract の conclusion の 文章(総数 3,061 文)に対してアノテーションを行う 7 / 22
  7. 分類器はなぜ correlation/causation の分類を間違えてしまうのか? • Future work などを述べているところで因果関係っぽい表現を 使っているケース • 例:

    These findings pose the question: why has not the nutritional status of children improved, although the living conditions of their families have significantly improved? • improve は結論で因果関係を述べる際にしばしば用いられるので, 分類器は causal だと誤認識する(実際はこの文は結論とは関係 ないので no relationship と判定されるべき) • このほかにも, 因果関係を示す表現が文の節の中にあったり, マイ ナーな因果関係を示す表現が使われていたりする場合に間違える • → 分類器は表面的な単語をもとに判断してしまう 11 / 22
  8. 分類器をもとにした調査 • 2014 年位 PubMed は observational study というカテゴリを導入 した

    • このカテゴリに属する研究は観察研究であり, 因果関係を導くこ とはできないとあらかじめ分かっている • このうち, structured abstract を持つ論文で, conclusion 部分が 3 文 以下のものをフィルターして, 論文 37,746 件(文章数: 72,565 文)を抽出した 12 / 22
  9. コーパス作成 調べる対象のプレスリリースは • EurekAlert! https://www.eurekalert.org/ • ScienceDaily https://www.sciencedaily.com/ これらのうち, doi

    リンクを含む記事はすぐに元の論文を対応づける ことができる また, doi リンクを含まなくても, Elasticsearch を使うことで高い精度 で元の論文と対応づけられるそうである 前の研究と同様, structured abstract を持つ医療論文でフィルターする 17 / 22
  10. コーパス作成 • 1 つ目の研究では, PubMed に observational study カテゴリが導入 されたのが

    2014 年であり, それ以前の研究が調べられないという 問題があった • そこで, LightGBM1 を訓練して, observational study 識別器を作成 した • したがって, この研究では 2014 年以前の論文についてもコーパス に含めることができている(最終的には論文-プレスリリースペ アが計 16,000 程度) 1なぜ BERT などの NLP 手法を使わなかったのが不明だが, F1 score で 0.95 くらい出せるらしい 18 / 22
  11. まとめ・感想 • 論文の中で相関関係/因果関係の言葉遣いを調べるという, NLP の コミュニティの中だけではなかなか生まれなさそうなアイディ アで面白かった • First author

    の他の論文を見ると、政治や SNS のテキストマイニングの 研究を行ってきているようなので, 論文に関してもこのような独自の視 点を持てるのかもしれない • (この論文が論じる範囲を超えているが...)最終的には研究成果 を受け取る一般市民側もリテラシーを持っていないと, このよう なサイエンスコミュニケーションの問題は解決しなそうだなと いう気もした • BERT でも correlation/causation 分類が 100% うまくいくわけでは ないのは示唆的(単に学習データやモデルの問題なのか, 本質的 に機械学習アプローチでは不足している何かがあるのか...) 22 / 22