コマンドラインで分析するフィッシングデータセット（初級編）

ίϚϯυϥΠϯͰ෼ੳ͢Δ ϑΟογϯάσʔληοτ <ॳڃฤ> /PSJBLJ )":"4)* ୈճ εϛογϯάରࡦٕज़ษڧձ

/PSJBLJ )":"4)* トレンドマイクロ株式会社プリンシパルセキュリティアナリスト高知工業高等専門学校副業先生 #BDLHSPVOE 1998年育英工業高等専門学校卒業
2002年電気通信大学卒業 2002年トレンドマイクロ株式会社入社 2011年金沢工業大学知的創造システム専攻修了サイバー犯罪対策、特にオンライン詐欺を専門に調査・研究活動を行う 1 | © 2022 Noriaki HAYASHI

2 | © 2022 Noriaki HAYASHI ͳͥɺίϚϯυϥΠϯͳͷ͔ コマンドラインで分析するメリット 1.軽量かつ俊敏である 2.スケーラブルである
3.至る所で使える

OSEMN フレームワーク OBTAIN 様々ソースからデータの収集を⾏う SCRUB 機械にとって可読性の⾼いフォーマットへデータを整える EXPLORE
統計的な⼿法により有益なパターンや傾向を⾒つける MODEL 予想のためのモデル構築 INTERPRET 結果を有効に活⽤する 3 | © 2022 Noriaki HAYASHI

データセットの取得フィッシングURL Feed（PhishStats）からデータセットを取得します。 curl コマンドを使ってフィードデータをダウンロードすることができます。 >_ ターミナル $
curl [オプション] URL ~$ curl https://phishstats.info/phish_score.cs v > phishstats.csv ~$ head ‒n 10 phishstats.csv 4 | © 2022 Noriaki HAYASHI 様々なプロトコルでファイルを転送する

データセットの取得フィッシングURL Feed（PhishStats）からデータセットを取得します。 curl コマンドを使ってフィードデータをダウンロードすることができます。 >_ ターミナル $
curl [オプション] URL ~$ curl https://phishstats.info/phish_score.cs v > phishstats.csv ~$ head ‒n 10 phishstats.csv 6 | © 2022 Noriaki HAYASHI 様々なプロトコルでファイルを転送する

###################################################################################### # PhishScore | PhishStats # # Score ranges: 0-2
likely 2-4 suspicious 4-6 phishing 6-10 omg phishing! # # Ranges may be adjusted without notice. List updated every 90 minutes. Do not crawl # # too much at the risk of being blocked. # # Many Phishing websites are legitimate websites that have been hacked, so keep that # # in mind before blocking everything. Feed is provided as is, without any warrant. # # CSV: Date,Score,URL,IP # ###################################################################################### "2022-04-10 19:40:45","1.50","h++p://vl{BLOCKED}hu[.]bir{BLOCKED}alo[.]link/","2a02:{BLOCKED}:1d" データの概要確認 PhishStats CSV Feedでは30⽇間のURLを90分間隔で更新されています。先頭9⾏には次に⽰す説明⽂が記載されています。列ごとに1列⽬に⽇付、スコア、URL、IPアドレスにて構成されています。 7 | © 2022 Noriaki HAYASHI

不要な⾏を削除する PhishStats CSV Feedのデータ分析を⾏う際に不要な説明⽂の削除を⾏います。 sed または tail コマンドを使って⾏番号で範囲指定した⾏（1から9⾏⽬）の削除を⾏います。
>_ ターミナル $ sed ʻ開始⾏番号,終了⾏番号dʼ ファイル ~$ sed '1,9d' phishstats.csv > phishstats_r.csv OR ~$ tail ‒n +10 phishstats.csv > phishstats_r.csv ~$ head ‒n 10 phishstats_r.csv 8 | © 2022 Noriaki HAYASHI ファイルの指定した⾏を削除する

⽂字数や⾏数を数える対象のデータセットは N⾏4列で構成されています。そこで、規模を把握するために、まず⾏数を数えましょう。 wc コマンドを使って指定ファイルの⽂字数や⾏数を数えることができます。 >_ ターミナル
$ wc ‒l ファイル ~$ wc phishstats_r.csv 49206 98418 5106149 phishstats_r.csv ~$ wc -l phishstats_r.csv 49206 phishstats_r.csv ファイルの改⾏の数を表⽰ 9 | © 2022 Noriaki HAYASHI

URLから特徴量の抽出 URLの⽂字列には様々な意味が隠されています。例えば、たくさんのドット（過剰なサブドメイン）または、たくさんのスラッシュ（異常に深いパス）などの特徴量について抽出することを⽬指します。 10 | © 2022 Noriaki
HAYASHI

探索ステップスクラブしたデータの探索 1.RAWデータの性質、特徴 2.統計量を計測する 3.RAWデータを可視化し洞察を得る 11 | © 2022
Noriaki HAYASHI

データを眺めるテキストデータの内容を確認するコマンドは様々あります。 cat, head, tail, more … less コマンドを使えば、テキストを1画⾯ずつ表⽰することができます。また、ファイル全体をメモリに読み込みま
せん。したがって⼤きなファイルの閲覧でも活躍します。 >_ ターミナル $ less ‒S ファイル名 ~$ less -S phishstats_r.csv 12 | © 2022 Noriaki HAYASHI テキストファイルを1画⾯ずつ表⽰する

URLの構造 14 | © 2022 Noriaki HAYASHI URLは、スキーム、サブドメイン、セカンドレベルドメイン、トップレベルドメイン、サブディレクトリからなる5つの要素で構成されています。
これら要素に分解して傾向を把握することが重要です。 https://blog.example.com/cmd/ スキームサブドメインセカンドレベルドメイントップレベルドメインサブディレクトリ

URLからドメインを抽出対象のデータセットは URL で構成されています。そこで、ドメイン情報のみ抽出を⾏います。 awk コマンドを使って「”」と「/」を区切り⽂字として指定し、テキスト処理を⾏います。 $ awk
‒F, ʻ{print $3}ʼ 15 | © 2022 Noriaki HAYASHI 区切り⽂字に , を指定し 3列⽬を表⽰ >_ ターミナル ~$ cat phishstats_r.csv | awk -F\" '{print $6}' | awk -F/ '{print $3}' | head -n 3 www[.]jr{BLOCKED}tc[.]top ho{BLOCKED}h24h[.]gc{BLOCKED}re[.]vn ne{BLOCKED}n2[.]a{BLOCKED}si[.]top ※コマンド結果はリダイレクトし domain.txt に出⼒しておく

重複する⾏を削除する URLからドメイン情報を抽出し domain.txt を書き出しました。このファイルから重複しているドメインを削除します。 uniq コマンドを使って、重複⾏の削除を⾏います。 >_ ターミナル $
uniq ⼊⼒ファイル ~$ wc -l domain.txt 49206 domain.txt ~$ cat domain.txt | uniq | wc -l 41405 ~$ cat domain.txt | uniq > uniq_domain.txt 16 | © 2022 Noriaki HAYASHI 重複している⾏を削除する

使いこなしたいコマンド csvkit csvkitはデータをCSV形式に変換して操作するためのコマンドラインツールスイート feedgnuplot コマンドラインのデータプロッタ。Gnuplotのフロントエンド。データをパイピングで処理可能 jq JSON形式のデータからデータを抽出、変換、集計、できるコマンド
split ファイルの分割を⾏うコマンド tr ⽂字の置き換えを⾏うコマンド 20 | © 2022 Noriaki HAYASHI

参考⽂献 • Janssens, Jeroen. Data Science at the Command Line.
" O'Reilly Media, Inc.", 2021., http://datascienceatthecommandline.com/ • Robert Mesibov, BASHing data, https://www.datafix.com.au/BASHing/ • Pavlo Horbonos, Linux command line utils for Data Scientist, https://towardsdatascience.com/linux-command-line-utils-for-data- scientist-efff43a10f3c • Jason Baker, 10 command-line tools for data analysis in Linux, https://opensource.com/article/17/2/command-line-tools-data- analysis-linux • 『1⽇1問、半年以内に習得シェル・ワンライナー160本ノック』 21 | © 2022 Noriaki HAYASHI

コマンドラインで分析するフィッシングデータセット（初級編）

コマンドラインで分析するフィッシングデータセット（初級編）

Noriaki Hayashi

More Decks by Noriaki Hayashi

Other Decks in Technology

Featured

Transcript

ίϚϯυϥΠϯͰ෼ੳ͢Δ ϑΟογϯάσʔληοτ <ॳڃฤ> /PSJBLJ )":"4)* ୈճ εϛογϯάରࡦٕज़ษڧձ

/PSJBLJ )":"4)* トレンドマイクロ株式会社プリンシパルセキュリティアナリスト高知工業高等専門学校副業先生 #BDLHSPVOE 1998年育英工業高等専門学校卒業

2 | © 2022 Noriaki HAYASHI ͳͥɺίϚϯυϥΠϯͳͷ͔ コマンドラインで分析するメリット 1.軽量かつ俊敏である 2.スケーラブルである

OSEMN フレームワーク OBTAIN 様々ソースからデータの収集を⾏う SCRUB 機械にとって可読性の⾼いフォーマットへデータを整える EXPLORE

データセットの取得フィッシングURL Feed（PhishStats）からデータセットを取得します。 curl コマンドを使ってフィードデータをダウンロードすることができます。 >_ ターミナル $

データセットの取得フィッシングURL Feed（PhishStats）からデータセットを取得します。 curl コマンドを使ってフィードデータをダウンロードすることができます。 >_ ターミナル $

###################################################################################### # PhishScore | PhishStats # # Score ranges: 0-2

不要な⾏を削除する PhishStats CSV Feedのデータ分析を⾏う際に不要な説明⽂の削除を⾏います。 sed または tail コマンドを使って⾏番号で範囲指定した⾏（1から9⾏⽬）の削除を⾏います。

探索ステップスクラブしたデータの探索 1.RAWデータの性質、特徴 2.統計量を計測する 3.RAWデータを可視化し洞察を得る 11 | © 2022

データを眺めるテキストデータの内容を確認するコマンドは様々あります。 cat, head, tail, more … less コマンドを使えば、テキストを1画⾯ずつ表⽰することができます。また、ファイル全体をメモリに読み込みま

URLの構造 14 | © 2022 Noriaki HAYASHI URLは、スキーム、サブドメイン、セカンドレベルドメイン、トップレベルドメイン、サブディレクトリからなる5つの要素で構成されています。

URLからドメインを抽出対象のデータセットは URL で構成されています。そこで、ドメイン情報のみ抽出を⾏います。 awk コマンドを使って「”」と「/」を区切り⽂字として指定し、テキスト処理を⾏います。 $ awk

重複する⾏を削除する URLからドメイン情報を抽出し domain.txt を書き出しました。このファイルから重複しているドメインを削除します。 uniq コマンドを使って、重複⾏の削除を⾏います。 >_ ターミナル $

正規表現正規表現の検索パターンチェックには、「Regulex」や「Rubular」などのツールを使うことが有効です。 18 | © 2022 Noriaki HAYASHI アービトレーション

参考⽂献 • Janssens, Jeroen. Data Science at the Command Line.