Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習を活用したSEO対策
Search
Recruit Technologies
June 29, 2019
Technology
3
1.6k
機械学習を活用したSEO対策
2019/6/29 第37回 Machine Learning 15minutes!での松嵜の講演資料になります
Recruit Technologies
June 29, 2019
Tweet
Share
More Decks by Recruit Technologies
See All by Recruit Technologies
障害はチャンスだ! 障害を前向きに捉える
rtechkouhou
1
640
Flutter移行の苦労と、乗り越えた先に得られたもの
rtechkouhou
3
11k
ここ数年間のタウンワークiOSアプリのエンジニアのチャレンジ
rtechkouhou
1
1.5k
大規模環境をAWS Transit Gatewayで設計/移行する前に考える3つのポイントと移行への挑戦
rtechkouhou
1
1.9k
【61期 新人BootCamp】TOC入門
rtechkouhou
3
42k
【RTC新人研修 】 TPS
rtechkouhou
1
41k
Android Boot Camp 2020
rtechkouhou
0
41k
HTML/CSS
rtechkouhou
10
50k
TypeScript Bootcamp 2020
rtechkouhou
9
45k
Other Decks in Technology
See All in Technology
サイバー攻撃を想定したセキュリティガイドライン 策定とASM及びCNAPPの活用方法
syoshie
1
130
ガバメントクラウドのセキュリティ対策事例について
fujisawaryohei
0
320
10個のフィルタをAXI4-Streamでつなげてみた
marsee101
0
150
WACATE2024冬セッション資料(ユーザビリティ)
scarletplover
0
170
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
260
開発生産性向上! 育成を「改善」と捉えるエンジニア育成戦略
shoota
1
150
Wantedly での Datadog 活用事例
bgpat
1
230
GitHub Copilot のテクニック集/GitHub Copilot Techniques
rayuron
20
8.5k
目玉アップデート!のSageMaker LakehouseとUnified Studioは何たるかを見てみよう!
nayuts
0
250
成果を出しながら成長する、アウトプット駆動のキャッチアップ術 / Output-driven catch-up techniques to grow while producing results
aiandrox
0
120
Kubeshark で Kubernetes の Traffic を眺めてみよう/Let's Look at k8s Traffic with Kubeshark
kota2and3kan
3
370
実務につなげる数理最適化
recruitengineers
PRO
6
610
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
28
900
Code Reviewing Like a Champion
maltzj
520
39k
Practical Orchestrator
shlominoach
186
10k
How to train your dragon (web standard)
notwaldorf
88
5.7k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
GitHub's CSS Performance
jonrohan
1030
460k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.4k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Rails Girls Zürich Keynote
gr2m
94
13k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
Transcript
1 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
機械学習を活用したSEO対策 株式会社リクルートテクノロジーズ データテクノロジーラボ部 松嵜 祐樹 2019/06/29
2 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Agenda 自己紹介 所属会社/部署紹介 SEOって? SEO対策のタスク NLP活用によるSEO対策 おわりに
3 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
自己紹介 松嵜 祐樹(まつざき ゆうき) 出身:山形県 趣味:釣り、旅行 最近ハマっていること:ゴルフ、BBQ 経歴 - 早稲田大学大学院 創造理工学研究科 経営システム工学専攻 修士修了 - 2017年 新卒でリクルートホールディングス入社 - リクルートテクノロジーズのデータ活用組織に配属 - ビッグデータ分析/データ活用案件の推進を担当
4 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
会社紹介 ✔ リクルートの事業ドメイン ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行 ビジネス支援 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。」を実現する。
5 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
所属会社紹介 ✔ リクルートテクノロジーズの位置づけ リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートマーケティングパートナーズ リクルートテクノロジーズ リクルートスタッフィング スタッフサービス・ホールディングス リクルートコミュニケーションズ (株)リクルート 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ― 事業 RGF OHR USA, Inc. その他海外派遣グループ会社 Indeed,Inc. リクルートグループのIT・ネットマーケティング領域の テクノロジー開発を担う会社 価 値 を 提 供
6 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DTL部とは 〜 リクルートにおけるデータ活用 2008~2009 2010~2011 2012~2013 2014~2015 2016~2017 2018~ 組織なし ・ネットマーケの組織でロ グ分析や、売上の分析な ど ・HadoopのR&Dが開始 ・紙からネットへの移行、 ネット系の新卒/中途採用 が強まる 半組織化 ・アドホックな分析、個別 支援⇒アドテク、メール施 策、レコメンド施策 ・データ基盤の整備が勃 興しはじめる 組織化が進む ・レコメンド、メール施策 ・プッシュ施策 ・予測分析 ・リクルートが分社化、 ホールディング体制に ・グローバル視点が強ま り始める 各社でも組織化 ・各社で活用が開始 ・同時にID統合やデータ 集約が進む BD部がDTLとDIに分割 ・組織の拡大、データ活 用範囲の拡大に伴い組 織が分割 データ解析という言葉がバズる前から取り組み、現在の各事業会社にデータ活用の 重要性を浸透させてきた、データ解析におけるリクルートのルーツとなる組織
7 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DTL部とは 〜 組織としての機能 マッチング カスタマー クライアント 潜 在 層 検 討 層 成 約 層 探 客 層 検 討 層 潜 在 層 リクルート (例) 結婚を考えている人、美容室を 探している人、求職者、アルバイ ト探しをしている人、etc (例) 結婚式場、美容室、企業、アル バイトを募集している店舗、 etc (例) web画面、スマホアプリ、営業、 事業企画者、キャリアアドバイ ザー、ジョブコーディネーター、 コールセンター、etc リクルートのビジネスに関わるあらゆるステークホルダに対して、 様々な切り口で、ビッグデータを活用したソリューションを提供する MP 営業
8 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEO 弊社紹介もそこそこにして SEOの話!
9 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOって? ✔ Search Engine Optimization = 検索エンジン最適化 順位を上げて 流入を増やす
10 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOって? ✔ 日本では97%の検索シェアを占めるため、 Googleにサイトを適切に評価させることが重要 ※Yahoo Japanの検索アルゴリズムはGoogleのものを流用 Google Baidu Yahoo Bing Others Google Yahoo Bing Others Global Japan Google 69% Google 50% Yahoo 47%
11 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEO対策のタスク ✔ SEOの評価構造のなかで、コンテンツ部分に取り組む サイト 内部要因 SEO評価 サイト 外部要因 コンテンツ (中身) ストラクチャ (箱) 質 量 物理構造 論理構造 被リンク 質 量 カスタマ要因 検索行動 ブランド認知
12 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEO対策のタスク ✔ SEOの評価構造のなかで、コンテンツ部分に取り組む サイト 内部要因 SEO評価 サイト 外部要因 コンテンツ (中身) ストラクチャ (箱) 質 量 物理構造 論理構造 被リンク 質 量 カスタマ要因 検索行動 ブランド認知
13 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEO対策のタスク ✔ 検索エンジンは3つの要素から成り立つ クローラー サーチャー インデクサー Googlebotと呼ばれるプロ グラムが世界中のwebサイ トをクロールし、webページ を収集 ユーザの検索地や検索履歴 を踏まえ、検索KWDに応じ た最適なwebページを瞬時 に表示 クローラーが収集した膨大 な量のwebページ情報(や 画像、動画)を整形、蓄積、 一次評価 crawler Indexer Searcher html
14 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEO対策のタスク ✔ コンテンツを改善し、流入数を増やす インデクスURL数を増やす ①面を増やす ②順位を上げる コンテンツ改善によりSEO流入を増やす 直帰率を下げる インデクス数増加に寄与するページ作る
15 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEO対策のタスク ✔ ページを作る = キーワードを選ぶ キーワード キーワード キーワード 画像 テキスト 流入数が稼げるキーワードを見つける!
16 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOって? ✔ ページを作る = キーワードを選ぶ キーワード キーワード キーワード 画像 テキスト 流入数が稼げるキーワードを見つける! ようやく本題へ!
17 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ どうやって流入を稼ぐキーワードを抽出するのか キーワード キーワード キーワード 画像 テキスト
18 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ どうやって流入を稼ぐキーワードを抽出するのか キーワード キーワード キーワード 画像 テキスト 既存ページの流入数を学習データする!
19 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ 既存の流入数から学習し、高予測値なキーワードを抽出 学 習 キーワード 実流入数 ゴルフ 練習場 4342 ドライバー callaway 2197 シャフト ダイナミックゴールド 776 ゴルフウェア 冬 2036 hoge hoge 697 fuga fuga 178 foo foo 185 学習データ 予測ロジック キーワード 予測流入数 ゴルフ 冬 2369 ゴルフウェア callaway 1207 ドライバー シャフト 736 hoge fuga 421 予測結果 予 測 ※ あくまで単語はイメージです。
20 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ どうやって学習させるか 学習データ 商品名とか独自の 単語があるなあ 表記ゆれ 結構あるなあ キーワード 実流入数 ゴルフ 練習場 2175 ドライバー スライス 776 アプローチ 練習 4342 ゴルフウェア 冬 2036 hoge hoge 697 fuga fuga 178 foo foo 185
21 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ どうやって学習させるか 学習データ 商品名とか独自の 単語があるなあ 表記ゆれ 結構あるなあ 文字レベルで学習してみよう! キーワード 実流入数 ゴルフ 練習場 2175 ドライバー スライス 776 アプローチ 練習 4342 ゴルフウェア 冬 2036 hoge hoge 697 fuga fuga 178 foo foo 185
22 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ character-level CNN での処理フロー 1. テキストを文字に分解 2. それぞれの文字をUNICODEに変換 3. 固定長の配列に変換 (長い場合: 打ち切り、短い場合: 0埋め) 4. keras.layers.embeddings.Embedding UNICODEをベクトル化 5. ベクトルをCNNのインプットとする 6. 回帰の結果を返す
23 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
a1 b1 c1 d1 e1 f1 g1 a2 b2 c2 d2 e2 f2 g2 a3 b3 c3 d3 e3 f3 g3 a4 b4 c4 d4 e4 f4 g4 a5 b5 c5 d5 e5 f5 g5 a6 b6 c6 d6 e6 f6 g6 a7 b7 c7 d7 e7 f7 g7 a8 b8 c8 d8 e8 f8 g8 a9 b9 c9 d9 e9 f9 g9 a10 b10 c10 d10 e10 f10 g10 SEOにおけるNLP活用 ✔ character-level CNN での学習イメージ ※ 超概要です ゴ ル フ 練 習 場
24 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
a1 b1 c1 d1 e1 f1 g1 a2 b2 c2 d2 e2 f2 g2 a3 b3 c3 d3 e3 f3 g3 a4 b4 c4 d4 e4 f4 g4 a5 b5 c5 d5 e5 f5 g5 a6 b6 c6 d6 e6 f6 g6 a7 b7 c7 d7 e7 f7 g7 a8 b8 c8 d8 e8 f8 g8 a9 b9 c9 d9 e9 f9 g9 a10 b10 c10 d10 e10 f10 g10 SEOにおけるNLP活用 ✔ character-level CNN での学習イメージ ※ 超概要です ゴ こう畳み込む ル フ 練 習 場 畳み込みによって単語が考慮されることに期待
25 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ いざ実験! • 実験条件 データ数: 10,396件 train : val : test = 8 : 1 : 1 • モデル Character-level CNN による回帰 説明変数: キーワード 目的変数: 流入数実績 • 評価指標 MAE, RMSE, 上位n件PICK
26 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ 実運用シーンも考慮した上位n件PICK 流入実績ありURL (テストデータ) 実測値 ソート 実測上位n件 予測ソートの合計 / 実測ソートの合計を算出 → 100%に近いほどよい 予測値 ソート 予測上位n件
27 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ 思ったより良い結果に! MAE: 53.7 RMSE: 395.7 上位500件PICKすると80%超 → 大まかな流入数の大小は捉えられている印象
28 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
SEOにおけるNLP活用 ✔ 考察 • 部分的に単語を考慮できている 学習データで高流入だった単語を含む組み合わせの 予測値が高くなっている • 単語どうしの組み合わせが考慮できていない 強い単語が1つでも含まれると予測値が高くなる 類語が並んでしまう ※具体例出せないため、わかりにくいです…
29 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめ • やったこと • 既存LPのキーワードと流入数実績を学習データに 新規キーワードの流入数をc_CNNで予測 • 結果/考察 • テストデータを用いた検証を行い、ある程度 上位キーワードが抽出できていることを確認 • 今後の展開 • 予測モデルの磨き込みを実施 • 新規組み合わせキーワードの流入数を予測し、 LP生成してオンライン検証
30 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
最後に 我々は新しいアイディアを日々考えています。 ご興味あれば協業などできればと思いますので、 ぜひお声がけください!