People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

発表者：木山朔一橋大学 D1 最先端NLP勉強会 2025 People who frequently use ChatGPT
for writing tasks are accurate and robust detectors of AI-generated text Jenna Russell, Marzena Karpinska, Mohit Iyyer ACL 2025 main long paper ※スライド中の図表は指定がない限りは上記の論文からの引用になります。

概要 ◼ LLMと人間の生成したテキストをアノテータに分類 ◼ 300個の英語のノンフィクション記事の分類 ◼ 分類に加え、判断理由を段落単位で説明 ◼ LLMの出力に馴染みのあるアノテータは分類可能 ◼
言い換えや人間らしく出力させても対応可能 ◼ 語彙や文構造、文法、独創性といったLLMの癖があるとアノテータは説明 1 /24

なぜこの論文を選んだのか？ ◼ 人間とLLMの文の差異は何なのかを知りたい ◼ LLMの登場により言語は変化している ◼ 特定の単語の頻度が多くなる [Liang+, ICML2024] [Liang+,
COLM2024] ◼ LLMの出力は文法誤りがほとんどない [Wu+, 2025] ◼ LLMにはそれぞれ独特の癖が存在し分類可能 [Sun+, 2025] ◼ 人間の言語は今、どのように変化しているのか？ 2 /24 [Wu+, COLING2025] [Sun+, ICML2025] [Laing+, ICML2024]

タスクの設定 ◼ 300本（人間:LLM=150:150）の記事を分類 1. その記事が人間なのか、 AIなのかを2値分類 2. 選択肢の確信度を5段階評価 3. 判断の手がかりの部分を
ハイライト 4. 判断理由を段落単位で説明 3 /24

AIの記事の生成 ◼ 1000語未満のノンフィクション記事を選定 ◼ 人間が作成した記事に対して、タイトル、サブタイトル、長さ、掲載媒体をLLMに入力し人間の記事に対応するAI記事を作成 ◼ 5つのモデルに対して60本の記事が存在 ◼ 30は人間の記事、30はAIの記事
◼ 言い換えや人間化した記事も用意 4 /24

アノテータと評価指標 ◼ アノテータの属性 ◼ 英語を母語として、LLMに関する知識や利用方法について調査 ◼ 評価指標 ◼ True Positive
Rate (TPR) ：AI記事を正しく検出できた割合（↑） ◼ False Positive Rate (FPR)：人間の記事をAI記事と判断した割合（↓） 5 /24 https://en.wikipedia.org/wiki/Confusion_matrix

LLMに馴染みのあるアノテータは分類できる ◼ 事前実験で分類性能が高いアノテータを見つける ◼ GPT-4Oの記事30本と人間の記事30本の分類タスク ◼ LLMに馴染みのないアノテータはほぼランダムに近い傾向 ◼ LLMを日常的に使っているアノテータ（熟練者）は高精度 ◼
LLMを使ってwritingしているなどのLLMを頻繁に使っている人を指す 6 /24

熟練者と非熟練者の違い ◼ LLMと人間の文の癖を知っているかどうかの違い ◼ 非熟練者 ◼ 語彙選択において、難しい単語や低頻度の単語をAI生成と判定 ◼ 人間の文は文法的に正しい ◼
中立的な文体はAIによるもの ◼ 熟練者 ◼ AIが過剰にする単語（testament, crucial）や表現を知っている ◼ 人間の文の方が非文法的である ◼ 人間の文も中立的な文体がある 7 /24

熟練者による分類結果 8 /24 ◼ 熟練者のアノテータ5人による結果 ◼ アノテータの多数決の結果も明記 ◼ TPR：AI記事を正しく検出できた割合 ◼
FPR：人間の記事をAI記事と判断した割合

GPT-4OとCLAUDEの分析 9 /24 ◼ どちらのモデルの出力もアノテータは分類可能 ◼ 上は多数決の結果 ◼ 一部のアノテータは性能が低くなる

GPT-4O＋言い換えの分析 10 /24 ◼ LLMに人間が書いたように言い換えさせる ◼ Promptベースの手法 [Chang+, EMNLP2024] ◼
言い換えさせても人間の分類性能に変化なし ◼ 言い換えみたいな小手先のテクニックではLLMらしさは取れない？

O1-Pro の分析 11 /24 ◼ O1-Proモデルでの分析 ◼ O1-Pro に馴染みのない状態で評価ができた（2024年9月12日周辺？） ◼
4人のアノテータはO1-Proでも性能を維持

O1-Pro+Humanization の分析 12 /24 ◼ Humanization による人間らしい出力のへの言い換え ◼ GPT-4O ~
P1-Proまでの4つの実験から得られたコメントを活用し人間とLLMの文を見分けるガイドラインを作成 ◼ ガイドラインをpromptに入れて分析するも傾向は変わらない ◼ 明示的に変えても変えられないLLMの癖が存在する…？

人間とLLMを分類するガイドライン ◼ 個人的にこのガイドラインの内容が面白い ◼ 語彙/単語選択、フレーズ、メタファー、文法、トーンなど ◼ 人間が作るテキストは思ったよりも発散的なのかも？ ◼ （ノンフィクションのドメインの影響も捨てきれないが…） 13
/24

自動評価指標との比較 14 /24 ◼ 上位のモデルを除いて、言い換えやhumanizationに弱い ◼ PANGRAMはcloseモデルであることに注意

熟練者の説明の分類 ◼ GPT-4Oに判断理由の説明を入力し分類させる ◼ 分類基準は著者らが作成 15 /24

熟練者が正しくAI記事を検出する手がかり 16 /24 ◼ 語彙と文構造の情報が分類の判断に使われる

熟練者が正しくAI記事を検出する手がかり 17 /24 ◼ 独創性、引用、明確性、結論、名前の情報も役にたつ

熟練者が正しくAI記事を検出する手がかり 18 /24 ◼ 言い換えをするとむしろLLMが好む語彙が増える ◼ LLMが好む単語の傾向が増幅される？

熟練者が正しくAI記事を検出する手がかり 19 /24 ◼ 言い換えの時の引用方法も手がかりに ◼ アノテータは引用の形式の癖を見抜いている

熟練者が間違えてAI記事を検出する手がかり 20 /24 ◼ GPT-4OとClaudeでは語彙的特徴に惑わされる ◼ O1-Proでは形式の特徴に惑わされる

熟練者が間違えてAI記事を検出する手がかり 21 /24 ◼ 偽陽性の分析：31％は語彙、50％は文構造に着目 ◼ 「delve」や「crucial」、LLM好みの文体に惑わされた？

アノテータの提示する手がかりは一致しない ◼ アノテータごとに着目する観点が異なる ◼ アンサンブルになるので多数決の性能が上がるのは理解できる 22 /24

概要（再掲） ◼ LLMと人間の生成したテキストをアノテータに分類 ◼ 300個の英語のノンフィクション記事の分類 ◼ 分類に加え、判断理由を段落単位で説明 ◼ LLMの出力に馴染みのあるアノテータは分類可能 ◼
言い換えや人間らしく出力させても対応可能 ◼ 語彙や文構造、文法、独創性といったLLMの癖があるとアノテータは説明 23 /24

感想 ◼ 人手評価をしっかりしたというのは良い話 ◼ 知らないと解けないタスクっぽさをとても感じる ◼ 人間とLLMの言語の違いは何なのか？ ◼ 語彙や文構造によらず、独創性、事実性、文体の特徴を指摘 ◼
どのようにこの違いを定量的に示していくか？ ◼ ガイドラインの分析をもっと知りたかった印象 ◼ LLMの影響を受けて人間の言語はどのように変わっている/ないのか？ ◼ 人間の話し言葉にも「delve」というLLMが好む単語が使われている [Yakura+, 2025] 24 /24

参考文献 ◼ [Liang+, ICML2024] Monitoring AI-Modified Content at Scale: A
Case Study on the Impact of ChatGPT on AI Conference Peer Reviews ◼ [Liang+, COLM2024] Mapping the Increasing Use of LLMs in Scientific Papers ◼ [Wu+, 2025] Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore ◼ [Sun+, 2025] Idiosyncrasies in Large Language Models ◼ [Chang+, 2024] PostMark: A Robust Blackbox Watermark for Large Language Models ◼ [Yakura+, 2025] Empirical evidence of Large Language Model's influence on human spoken communication 25

Monitoring AI-Modified Content at Scale: A Case Study on the
Impact of ChatGPT on AI Conference Peer Reviews ◼ OpenReviewのReviewデータを用いて LLMが出力しがちな単語を発見 ◼ LLMが生成したと判断されるReviewの特徴を考察 26 [Liang+,ICML2024]

Mapping the Increasing Use of LLMs in Scientific Papers ◼
論文のIntroductionの部分を分析 ◼ 2020年1月から2024年2月までを用意 ◼ [Liang+,ICML2024]と同様の手法で分析 ◼ 分野ごとのLLMの出力の割合とその論文の傾向を分析 ◼ 第一著者がプレプリントを頻繁に投稿している ◼ 研究領域が競合の多い分野である ◼ 論文の長さが比較的短い 27 [Liang+,COLM2024]

Empirical evidence of Large Language Model's influence on human spoken
communication ◼ Youtubeの動画を収集し書き起こしし頻度を分析 ◼ ChatGPTが出力する傾向にある単語の増加を確認 ◼ LLMの出力が人間に影響を及ぼしていることを示唆 28 https://speakerdeck.com/hiromu1996/human-informed-machine-learning-models-and-interactions?slide=32 [Yakura+,2025]

Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection
Is GECScore ◼ LLMの出力する言語は文法的に正しい ◼ 文法の間違い度合いでLLMと人間が区別できる ◼ 文法誤りの頻度で分類 ◼ （Instruction-tuningなどによる出力制御の影響？） 29 [Wu+,2025]

Human-LLM Coevolution: Evidence from Academic Writing ◼ LLMを使う人は人間とLLMの文を識別できる ◼ 人間とLLMによって言語は共進化
◼ AIが生成したテキストを回避できる ◼ →LLMが出しがちな語彙を避ける人がいる ◼ （人間とLLMを識別するのは困難になる） ◼ 具体例 ◼ delve intoの話が盛り上がり避ける人が増加 ◼ 一方significantという単語は増加傾向 30 ACL findingsで類似の論文 [Geng+, 2025]

Idiosyncrasies in Large Language Models ◼ 大規模言語モデルが持つ固有の癖を分析 ◼ モデルごとに生成した文がどのLLMによって生成されたかを分類 ◼
テキスト埋め込みモデルをLLMの生成したテキストにfine-tuningすることで分類精度が向上 31 [Sun+,2025] ICML

People who frequently use ChatGPT for writing t...

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

hajime kiyama

More Decks by hajime kiyama

Other Decks in Science

Featured

Transcript

発表者：木山朔一橋大学 D1 最先端NLP勉強会 2025 People who frequently use ChatGPT

概要 ◼ LLMと人間の生成したテキストをアノテータに分類 ◼ 300個の英語のノンフィクション記事の分類 ◼ 分類に加え、判断理由を段落単位で説明 ◼ LLMの出力に馴染みのあるアノテータは分類可能 ◼

なぜこの論文を選んだのか？ ◼ 人間とLLMの文の差異は何なのかを知りたい ◼ LLMの登場により言語は変化している ◼ 特定の単語の頻度が多くなる [Liang+, ICML2024] [Liang+,

タスクの設定 ◼ 300本（人間:LLM=150:150）の記事を分類 1. その記事が人間なのか、 AIなのかを2値分類 2. 選択肢の確信度を5段階評価 3. 判断の手がかりの部分を

アノテータと評価指標 ◼ アノテータの属性 ◼ 英語を母語として、LLMに関する知識や利用方法について調査 ◼ 評価指標 ◼ True Positive

熟練者と非熟練者の違い ◼ LLMと人間の文の癖を知っているかどうかの違い ◼ 非熟練者 ◼ 語彙選択において、難しい単語や低頻度の単語をAI生成と判定 ◼ 人間の文は文法的に正しい ◼

熟練者による分類結果 8 /24 ◼ 熟練者のアノテータ5人による結果 ◼ アノテータの多数決の結果も明記 ◼ TPR：AI記事を正しく検出できた割合 ◼

GPT-4OとCLAUDEの分析 9 /24 ◼ どちらのモデルの出力もアノテータは分類可能 ◼ 上は多数決の結果 ◼ 一部のアノテータは性能が低くなる

GPT-4O＋言い換えの分析 10 /24 ◼ LLMに人間が書いたように言い換えさせる ◼ Promptベースの手法 [Chang+, EMNLP2024] ◼

O1-Pro の分析 11 /24 ◼ O1-Proモデルでの分析 ◼ O1-Pro に馴染みのない状態で評価ができた（2024年9月12日周辺？） ◼

O1-Pro+Humanization の分析 12 /24 ◼ Humanization による人間らしい出力のへの言い換え ◼ GPT-4O ~

自動評価指標との比較 14 /24 ◼ 上位のモデルを除いて、言い換えやhumanizationに弱い ◼ PANGRAMはcloseモデルであることに注意

熟練者の説明の分類 ◼ GPT-4Oに判断理由の説明を入力し分類させる ◼ 分類基準は著者らが作成 15 /24

熟練者が正しくAI記事を検出する手がかり 16 /24 ◼ 語彙と文構造の情報が分類の判断に使われる

熟練者が正しくAI記事を検出する手がかり 17 /24 ◼ 独創性、引用、明確性、結論、名前の情報も役にたつ

熟練者が正しくAI記事を検出する手がかり 18 /24 ◼ 言い換えをするとむしろLLMが好む語彙が増える ◼ LLMが好む単語の傾向が増幅される？

熟練者が正しくAI記事を検出する手がかり 19 /24 ◼ 言い換えの時の引用方法も手がかりに ◼ アノテータは引用の形式の癖を見抜いている

熟練者が間違えてAI記事を検出する手がかり 20 /24 ◼ GPT-4OとClaudeでは語彙的特徴に惑わされる ◼ O1-Proでは形式の特徴に惑わされる

熟練者が間違えてAI記事を検出する手がかり 21 /24 ◼ 偽陽性の分析：31％は語彙、50％は文構造に着目 ◼ 「delve」や「crucial」、LLM好みの文体に惑わされた？

アノテータの提示する手がかりは一致しない ◼ アノテータごとに着目する観点が異なる ◼ アンサンブルになるので多数決の性能が上がるのは理解できる 22 /24

概要（再掲） ◼ LLMと人間の生成したテキストをアノテータに分類 ◼ 300個の英語のノンフィクション記事の分類 ◼ 分類に加え、判断理由を段落単位で説明 ◼ LLMの出力に馴染みのあるアノテータは分類可能 ◼

感想 ◼ 人手評価をしっかりしたというのは良い話 ◼ 知らないと解けないタスクっぽさをとても感じる ◼ 人間とLLMの言語の違いは何なのか？ ◼ 語彙や文構造によらず、独創性、事実性、文体の特徴を指摘 ◼

参考文献 ◼ [Liang+, ICML2024] Monitoring AI-Modified Content at Scale: A

Monitoring AI-Modified Content at Scale: A Case Study on the

Mapping the Increasing Use of LLMs in Scientific Papers ◼

Empirical evidence of Large Language Model's influence on human spoken

Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection

Human-LLM Coevolution: Evidence from Academic Writing ◼ LLMを使う人は人間とLLMの文を識別できる ◼ 人間とLLMによって言語は共進化

Idiosyncrasies in Large Language Models ◼ 大規模言語モデルが持つ固有の癖を分析 ◼ モデルごとに生成した文がどのLLMによって生成されたかを分類 ◼