Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
この脅迫状を書いたのは誰か? コンピュータが明らかにする「文章の指紋」
Search
Yuichiro Kobayashi
November 26, 2019
0
1.1k
この脅迫状を書いたのは誰か? コンピュータが明らかにする「文章の指紋」
Yuichiro Kobayashi
November 26, 2019
Tweet
Share
More Decks by Yuichiro Kobayashi
See All by Yuichiro Kobayashi
機械学習による言語パフォーマンスの評価
langstat
6
820
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
150
授業評価アンケートのテキストマイニング
langstat
1
370
コーパス分析における特徴語抽出手法の比較ー機械学習モデルの特性と注意点
langstat
1
440
学習者コーパス研究におけるマルチレベル順序ロジットモデルの活用
langstat
2
370
J-POPの歌詞から見る社会 計量テキスト分析入門
langstat
3
1.8k
機械学習と学習者コーパスに基づく自動採点システムの改良
langstat
0
750
Featured
See All Featured
Site-Speed That Sticks
csswizardry
2
190
Visualization
eitanlees
146
15k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
49k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Designing on Purpose - Digital PM Summit 2013
jponch
116
7k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Imperfection Machines: The Place of Print at Facebook
scottboms
266
13k
Reflections from 52 weeks, 52 projects
jeffersonlam
347
20k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Transcript
この脅迫状を書いたのは誰か? コンピュータが明らかにする「文章の指紋」 小林 雄一郎 (社会学部 メディアコミュニケーション学科) 2015年6月21日(日) 東洋大学 白山キャンパス 1
はじめに 2
かい人21面相からの挑戦状 全国の おかあちゃん え しょくよくの 秋や かしが うまいで かしやつたら なんというても
森永やで わしらが とくべつに あじ つけたった 青さんソーダの あじついて すこし からくちや むしばに ならへんよって お子たちえ こおたりや からくちの かし どくいりと かいた 紙 はっている 3
はかたから 東京までの 店に 20こ おいてある 青さん0.2グラムと 0.5グラムの 2しゅるい ある 10日したら
どくいり かいとらんのを 30こ 全国の 店に おく そのあとも ぎょうさん よおい してるで たのしみに まっとれや 森永乳業は せいかと ちがう あんぜん やで かい人21面相 (1984年10月8日、各新聞社宛てに送付) 4
グリコ・森永事件 O 1984〜1985年 O 江崎グリコの社長、兵庫県西宮市の自宅から誘拐され る O 身代金10億円と金塊100kgを要求する脅迫状 O 「かい人21面相」から、次々と脅迫状・挑戦状
O 全国のスーパーに青酸ソーダ入りの菓子を置き、大手 食品メーカー6社に脅迫状を送り、多額の現金を要求 ↓ O 1994〜2000年 O 時効成立(→未解決事件) 5
犯人は2人? O ある新聞記者の勘 O 「脅迫状・挑戦状の書き手が途中で替わったのではな いか?」 O 「替わったという根拠は特にない。新聞記者の勘であ る」 ↓
O コンピュータで分析することは可能か? O 23通の脅迫状・挑戦状をデータベース化 O 文章における名詞の使用率を調査 (村上 2004, pp. 18-21 ) 6
(村上 2004, p. 18) 7
(村上 2004, p. 18) 8 平均値が低い 平均値が高い
(村上 2004, p. 18) 9 バラツキが小さい バラツキが大きい
やはり書き手は2人? O 結果の解釈 (1) O 10番目までの文章(平均低・バラツキ小)と、11番目 以降の文章(平均高・バラツキ大)では、書き手が交 替した O 結果の解釈
(2) O 11番目以降の文章には、(a) 10番目までを書いた人物 が書いたもの(平均低)と、(b) 別の人物が書いたも の(平均高)、が混在している 10
作家・内田康夫の推理 O 『白鳥殺人事件』 O 挑戦状の文体には、2つの異なった傾向 O 無意識のうちに抑制のきいた文章(Aタイプ) O 極めてはしゃいだ感じの、上滑りな文章(Bタイプ) O
夏以前の殆どがAタイプ、秋以降はBタイプ O 同じ大阪弁でも、微妙に用語の違い ↓ O 1人の人間が2つの形式を使い分けているというより、 2人の書き手が存在すると考えた方が合理的 11
文章の指紋 12
文章の指紋 O コンピュータによる文章解析の前提 O 文章には、書いた人それぞれの特徴がある O 異なる人が書いた文章には、何らかの違いがある ↓ O 「文章の指紋」
O 筆跡鑑定のできない文章の書き手を特定するのに有効 O タイプライターやワープロソフトで書かれた文章(例: かい人21面相の挑戦状) O 原典がなく、写本でしか伝わっていない文章(例:聖書、 源氏物語) 13
計量文献学 O コンピュータで文章を統計的に解析する学問 O 『源氏物語』は紫式部が全て1人で書いたのか? O シェークスピアの正体は同時代の別の作家ではなかっ たのか? O 福沢諭吉の晩年の文章は弟子が代筆したのではないの
か? O 日蓮遺文は贋作ではないのか? O この脅迫状を書いたのは誰か? etc. ↓ O これら全ては「著者推定」の問題 14
計量文献学 in ドラマ O 『ハードナッツ〜数学girlの恋する事件簿』(NHK) O 第4回「ラブレターと企業恐喝テロ」(2014年7月15日) O http://www.nhk.or.jp/drama/hardnut/html_hardnut_story04.htm l
15
計量文献学の歴史 O ド・モルガンの書簡 (1851) O 平均単語長(総文字数÷総単語数)が書き手の識別に 有効であると主張 O 「1人の人間が2つの異なった主題について書いたもの の方が、2人の人間が同じ主題について書いたものよ
りも、平均単語長は似るのではないか」 O 「このような方法によって、贋作を見出すことができ るようになるのではないか」 ↓ O それは本当か?? 16
シェークスピア=ベーコン? O 平均単語長の比較 O 1890年頃、アメリカの物理学者メンデンホールは、 シェイクスピアが4文字の単語を最も多く使用してい るのに対し、ベーコンは3文字の単語を最も多く使用 していることを発見 17 http://blogs.yahoo.co.jp/
igproj_fusion/archive/2 011/03/01
平均単語長でいいのか? O 同一人物でも、散文と韻文で長さが異なる O 1975年、ウイリアムズは、英国の詩人シドニーの著作 を調べ、同一人物の著作でも散文と韻文では、最も多 く使われている単語の長さの値が異なる場合があるこ とを提示 18 http://blogs.yahoo.co.jp/i
gproj_fusion/archive/201 1/03/01
「文章の指紋」はどこにある? O 品詞の割合 O 名詞? O 形容詞? O 副詞? O
接続詞? O 語彙の使用 O 語彙の豊富さ? O 語彙の難しさ? O 文章の構造 O 文の長さ? O 係り受け関係? 19
読点に注目した著者推定 O 他の言語に比べて、日本語は読点の位置に関す る厳密なルールがないため、そこに文章の書き 手の癖が表れるのではないか? O 「今日私は学校に行った」 O 今日、私は学校に行った O
今日私は、学校に行った O 今日私は学校に、行った O 今日、私は、学校に行った O 今日私は、学校に、行った etc. 20
O 中島敦、三島由紀夫、谷崎潤一郎、井上靖の作 品を読点の位置(何という文字の次に読点を打 つか)で分類 (金, 1996) 21
O 一人三人作家 O 昭和初期の流行作家である長谷川海太郎は、 3つのペ ンネームで作品を書き、それぞれ文体を変えたと言わ れている O 林不忘: 時代物の小説を発表
O 谷譲次: 「めりけん物」と呼ばれる小説を発表 O 牧逸馬: 風俗小説を発表 ↓ O 書き手が意識的に文体を変えることは可能なのか? O 「文章の指紋」は消せるのか? 22
O 長谷川(林、谷、牧)、中島、三島、井上の作 品を読点の位置で分類 (金, 1996) 23
他人の文章を真似ることは可能か? O かい人21面相の文章の模倣 O 1985年、中学校1年生と小学校4年生の2人が、神戸の 食品メーカーに「わしらは怪人二十一面相や。うそ2 世や。これから、あんたたちを森永みたいにいじめた ろうと思う…」という脅迫状を送る O 1999年、朝日新聞に「どくいりきけん」というタイト
ルで、かい人21面相の文章を真似て書かれたコラムが 載る ↓ O 平均文長と漢字使用率を比較 24
かい人21面相 少年たち 新聞コラム 平均文長 16.9文字 19.4文字 17.4文字 漢字使用率 9.2% 17.9%
13.8% 25 O 一見似たような文章を書いたとしても、文章の特徴を 表す様々な数値を一致させることは、簡単ではない (村上 2004, p. 28)
犯罪捜査と計量文献学 26
犯行声明文を書いたのは誰か? O パトリシア・ハースト事件(1974年) O 左翼過激派テロ組織によって、アメリカの新聞王の孫 娘パトリシアが誘拐される O カリフォルニア州の貧困過程に約200万ドルの食料品を 無料配布せよという要求がなされる O
パトリシアの「私は組織にとどまり、一緒に戦う道を 選んだ」という肉声のテープが放送局に届く O パトリシアを含む組織のメンバーが銀行を襲撃する O パトリシアは、逮捕後、銀行強盗その他の容疑で起訴 される ↓ O 組織に加わったのは、本当にパトリシアの意志なの か? 27
O パトリシアの声明文は、組織のメンバー(アトウッド かハリス)が書いたのか? 28 (村上 2004, p. 112)
O パトリシアの声明文は、組織のメンバー(アトウッド かハリス)が書いたのか? 29 (村上 2004, p. 112) テープの原文は、ハーストの文章よ りも、アトウッドとハリスの文章に
近い より詳しい分析の結果、 テープの原文がハースト によるものである確率は、 1%未満
言語分析は犯人逮捕につながるか? O 東京の保険金殺人事件(2003年) O 東京都台東区の路上で、ホームレスの男性の死体が発 見される O 警察は、ひき逃げ事件として捜査を開始するが、捜査 は困難を極める O
死体には何度もひかれた痕があり、それ以外にも多く の不審な点がある O 事件から10日後、ワープロで書かれた目撃証言が警察 に届く O さらに数日後、ひき逃げ事件の犯人を名乗る男から、 「告白書・遺書」と書かれた手紙が届く 30
目撃証言 警視庁浅草署共同捜査本部 御中 9月27日深夜の私の体験と目認について まずもって連絡が遅くなって大変すみません。 このことについてお詫びいたします。去る9月27 日深夜の台東区今戸2丁目26番地付近での「ひき 逃げ」事件について、参考になるのかな、関係が あるのはないか?という思いで1ツの情報として 連絡します。
(中略) 31
車は、ロングボディーで2トン半ぐらいと思い ました。2年間に1回もなかった突然の飛び出しに びっくりし、猛スピードで青信号を走り去ったた め、ナンバープレートは確認できませんでしたが、 走り去っていく車のボディーに「◦×運送」という 黒い文字だけが記憶に残っています。 (中略) 深夜のため運転手の顔も服装も男女の区別もわ かりませんでした。 強く記憶に残っているのは「◦×運送」という、
運送会社の車だったこと、猛スピードで歩道を乗 り越えて、まるで逃げるように、交叉点を走り 去っていったということです。 (以下略) 32
告白書・遺書 さる9月27日深夜の台東区今戸2丁目26番地で起 きた、「死亡ひき逃げ事件」の犯人は私です。 (中略) 車を右側に寄せて前進したその時に、前輪が柔 らかい何かにのりあげたので、何もないはずなの におかしいなと思いながらアクセルを踏み込みな がらひだり側にハンドルをきりました。前輪の障 害物は簡単に乗り越えたら、今度は後輪が同じよ うに障害物に引っかかり、普段はあの場所に何も
なかったので、何かおかしいなと思いながらもま たアクセルを強く踏み込んだところ右後輪が少し 33
持ち上げられるように上がり、下から「ウオー」 というような人間のうめき声が聞こえてきました。 私はあわてて車を止めて右側の後輪を見にいきま した。 (中略) その時右側に信号待ちをしている乗用車が1台 停止していることを確認しましたが対向車は1台 もいませんでした。 私は、信号待ちの乗用車にコンテナに書かれた 会社名を見られたと思いましたが、三ノ輪までな
んとか走りぬけていきました。 (中略) しかし、ひき逃げ事件の責任はとらなくてはな りませんし、責任から逃れることはできません。 34
いづれ、警察が来ることは間違いありません。一 人の人間の命を、私が奪ったわけですから。命の 代償は、命で償うしかありません。 (中略) この手紙が警察に届くころには、私は東京をは るか遠く離れた、誰にも発見できない場所で、自 分自身を「ひき逃げ殺人犯の犯人」として、自分 自身を処罰します。 警察のみなさん、ご迷惑をかけて本当にすみま せんでした。
35
保険金殺人? O 目撃証言と告白書に書かれた内容は、詳細まで一致し ているため、この事件は、単純な交通事故と思われた O しかし、その後、被害者には4000万円の保険金がかけ られており、それは被害者の兄によってかけられたも のであることが判明した O また、事件後、兄は、保険会社に対して、執拗に支払
いの請求をしていた O 以上のことから、警察は兄が犯人であると目星をつけ たが、証拠は殆どなかった O そして、目撃証言と告白書はワープロで書かれていた ため、筆跡鑑定を行うこともできなかった 36
コンピュータによる鑑定 O 分析データ O 目撃証言 O 告白書・遺書 O 兄が書いた上申書(過去に交通事故を起こした際、警 察に提出したもの)
O 兄が書いた請求書(保険会社に提出したもの) O 全く別の人が書いた文章 O 分析項目 O どのような助詞を使っているかという頻度情報 O どの助詞の次にどの助詞を使っているかという頻度情 報 O どの文字の次に読点を打っているかという頻度情報 37
O 目撃証言と告白書・遺書を兄が書いたのか? 38 (村上 2004, p. 123)
O 目撃証言と告白書・遺書を兄が書いたのか? 39 (村上 2004, p. 123) 目撃証言、告白書・遺書は、兄が書い たものである可能性が非常に高い。
事件解決 O コンピュータによる鑑定の後、容疑者である兄が「保 険金目的で弟をひいた」と認める O 犯人が逮捕され、事件は解決した 40
日常生活で活用されている 計量文献学の技術 41
迷惑メール判定 O 多くのメールサービスは、メール本文における単語の 情報などから、そのメールが「迷惑メール」か否かを 判定している 42 http://dame3212.net/2014/11867.html
コピペ発見ソフト O 剽窃チェッカー(無料) O http://plagiarism.strud.net/ 43
O コピペルナー(有料) O http://www.ank.co.jp/works/products/copypelna/Client/in dex.html 44
計量文献学を学ぶために 45
2015年度の社会学部の授業より O 社会学・心理学 O 社会心理学概論 O 犯罪社会学 O 犯罪心理学 O
統計学・情報学 O 社会統計学 O 統計情報処理および実習 O 人間-機械コミュニケーション論 O 言語学 O 言語文化論 O 情報と言語 etc. etc.46
参考文献 O 石田基広・小林雄一郎 (2013). 『Rで学ぶ日本語テキスト マイニング』 ひつじ書房. O 金明哲 (1996).
「読点から現代作家のクセを検証する」 『統計数理』44(1), 121-125. O 金明哲 (2009). 『テキストデータの統計科学入門』 岩波 書店. O 村上征勝 (1994). 『真贋の科学—計量文献学入門』 朝倉書 店. O 村上征勝 (2004). 『シェークスピアは誰ですか?—計量文 献学の世界』 文春新書. オススメ! O 樋口耕一 (2014). 『社会調査のための計量テキスト分析— 内容分析の継承と発展を目指して』 ナカニシヤ出版. 47
Thank you !! 小林 雄一郎(こばやし ゆういちろう) 社会学部 メディアコミュニケーション学科
[email protected]
http://ris2.toyo.ac.jp/profile/ja.aGfa4YwPWYdVHilinxA2pg==.html
48