Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Search and Ye Shall Find
Search
ChiaChia Lee
April 26, 2012
Technology
1
66
Search and Ye Shall Find
Information Architecture:Ch5 Search and Ye Shall Find+HPX SEO
ChiaChia Lee
April 26, 2012
Tweet
Share
More Decks by ChiaChia Lee
See All by ChiaChia Lee
Gloss-vector:semantic relatedness of concepts
chiachialee
0
50
Discovering Latent Factors from Movies Genres for Enhanced Recommendation
chiachialee
1
100
導覽之道 - 以iCook和Womany為例
chiachialee
4
170
Git 簡介 & Perfect commit before push (10 cases)
chiachialee
2
130
Other Decks in Technology
See All in Technology
プロダクト開発を加速させるためのQA文化の築き方 / How to build QA culture to accelerate product development
mii3king
1
270
PHPからGoへのマイグレーション for DMMアフィリエイト
yabakokobayashi
1
170
生成AIのガバナンスの全体像と現実解
fnifni
1
190
Qiita埋め込み用スライド
naoki_0531
0
5.1k
Oracle Cloud Infrastructure:2024年12月度サービス・アップデート
oracle4engineer
PRO
0
210
5分でわかるDuckDB
chanyou0311
10
3.2k
Amazon Kendra GenAI Index 登場でどう変わる? 評価から学ぶ最適なRAG構成
naoki_0531
0
120
AI時代のデータセンターネットワーク
lycorptech_jp
PRO
1
290
AWS re:Invent 2024で発表された コードを書く開発者向け機能について
maruto
0
200
Opcodeを読んでいたら何故かphp-srcを読んでいた話
murashotaro
0
270
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
170
サーバレスアプリ開発者向けアップデートをキャッチアップしてきた #AWSreInvent #regrowth_fuk
drumnistnakano
0
200
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2k
Visualization
eitanlees
146
15k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
49k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
2
290
Automating Front-end Workflow
addyosmani
1366
200k
For a Future-Friendly Web
brad_frost
175
9.4k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
4 Signs Your Business is Dying
shpigford
181
21k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.1k
It's Worth the Effort
3n
183
28k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Transcript
Ch5 Search and Ye Shall Find ChiaChia Lee Polydice, Inc.
1 12年4月26日星期四
全程嚴禁攝影、錄影、錄音 嚴禁Lawrence參加 2 12年4月26日星期四
為什麼要搜尋引擎? 3 12年4月26日星期四
搜尋啊! 4 12年4月26日星期四
不然咧? 5 12年4月26日星期四
幫助你找到 ⼀一、你已經知道的 二、你還不知道的 6 12年4月26日星期四
How to build a search engine? 7 12年4月26日星期四
posting 兩道食譜 兩個網址 8 12年4月26日星期四
posting 9 12年4月26日星期四
posting 字典排序 大寫優先於小寫 10 12年4月26日星期四
INDEX 11 12年4月26日星期四
“sheep milk cheese” order 12 12年4月26日星期四
stop words list • 太常用、無特殊語意,為節省搜尋的時間、空 間而被過濾掉 • (Some search engines
don’t record extremely commonwords in order to save space or to speed up searches. They are stop words.) 13 12年4月26日星期四
stop words list • ex: the, a, to, ...... •
“to be or not to be”, “the the” • Onix Stop Word List 14 12年4月26日星期四
evaluation • 查全率:相關的有多少被抓出來 • Recall = R/M • 查準率:抓出來的有多少相關 •
Precision = R/N 15 12年4月26日星期四
Question • 問題1. 我們無法算出Google的? • a) recall • b) precision
• 問題2. 如何達到最大recall? 16 12年4月26日星期四
improve precision • 字詞順序與查詢字詞的順序相同,優先 • 字詞出現在文件標題(h1)、網址,優先 • 比較多人連到的文件,優先 17 12年4月26日星期四
improve precision • 導入控制詞彙:搜尋IBM同時也要找 International Business Machines • salmorejo &
gazpacho都是西班牙蕃茄冷湯 • implicit feedback: user搜尋xx後點擊第三個網 址,此網址在下次可能移至第⼀一或二的位置(vs explicit feedback) 18 12年4月26日星期四
search should be fast 19 12年4月26日星期四
search should be easy 20 12年4月26日星期四
search should be magic 21 12年4月26日星期四
people take only one second to search • ⼀一定要快速取得結果 •
⼀一定要快速載入結果 • 快而醜比慢而美好很多 • ⼀一定要能粗略審視結果 • smell good • heat map fast 22 12年4月26日星期四
heat map fast 23 12年4月26日星期四
search length • 商業網站上搜尋平均為2.3 words • Google平均搜尋長度約為3 words • 1/3
users use one-word searches • 1/3 users use two-word searches, but often single concept, such as “New York” easy 24 12年4月26日星期四
Search must be easy for people to use • 搜尋建議工具
query suggesters • 垂直搜尋 vertical search • 人工消除歧異 human disambiguation • 首選 best bets easy 25 12年4月26日星期四
query suggesters • autofill, autocomplete • 「您是不是要查autocomplete」 • easy 26
12年4月26日星期四
quintura easy 27 12年4月26日星期四
vertical search • 特定子集(particular subset):人物搜 尋、購物搜尋、音樂搜尋、圖片搜尋 • 搜尋”New York”,是指⼀一個州、⼀一篇文 章、⼀一個旅遊網站、⼀一則新聞呢?
• 主題過濾器(topical filters):飛機班次、 飛機型號、百萬畫素...... easy 28 12年4月26日星期四
human disambiguation • 輸入”fuschia”得到的結果都不喜歡,什 麼都不點,接著輸入”fuchsia”並點選其 中⼀一項結果 • 很多人都有這樣的行為 • 納入演算法
• 下次有人搜尋”fuschia”,就問「嘿!您 是不是要搜尋”fuchsia”咧?」 easy 29 12年4月26日星期四
human disambiguation • 人工創造奇蹟 • 發音相近:soundex easy 30 12年4月26日星期四
soundex • 除第⼀一個字母以外,用以下規則替換 a e h i o u w
y -> 0 b f p v -> 1 c g j k q s x z -> 2 d t -> 3 l -> 4 m n -> 5 r -> 6 • 去除0,重復的只保留1個 • 取前4個,不足4位補0 • Example: • Knuth -> K5030 -> K53 -> K530 • Kant -> K053 -> K53 -> K530 easy 31 12年4月26日星期四
best bets • Zipf curve • 長尾 easy 32 12年4月26日星期四
analyze the head • 搜集最熱門搜尋 • 按照查詢類型分類 • 為它設計首選 easy
33 12年4月26日星期四
analyze the head • 如何呈現首選 • Yahoo!把運動資料製成圖表; Google在 影片結果附上截圖 •
用粗體字強調查詢詞彙,尤其在標題中 easy 34 12年4月26日星期四
search must be magic • 預言者、讀心者 • 搜尋是個問句,答案並非總是個連結而 已 magic
35 12年4月26日星期四
personalized search • 根據你的歷史、你做過的事、你曾留過 的資料(地址、打卡等) • 知道你的社交、地理、情境 • 推薦 •
搜尋pizza,找你家附近的pizza店給你 • Google號稱不用登入都知道你的偏好 magic 36 12年4月26日星期四
finally • 我們又不賣搜尋引擎 • 可是如果我們懂⼀一點search engine的原 理,可以做做運動、動動手腳,讓自己 的網頁更容易被搜尋引擎爬到,讓自己 的網站曝光更多,更多的客戶,更多的 食物
37 12年4月26日星期四
現學現賣加碼送 SEO 38 12年4月26日星期四
HPX - SEO • 避免重複性網頁:網頁title如果都⼀一樣會 沒有分辨性 • Florida Update •
台灣網站在google.com.tw搜尋會比較前 面?=>該網站要hosting在台灣 • 優質反向引擎:放連結在大站 39 12年4月26日星期四
HPX - SEO • 全站優化:搜尋前幾名全部囊括 • 多種類:不是只有優化文字搜尋,還有 影片、圖片(metadata, alt...) •
自然搜尋 • 關鍵字分級:建議做中後段,長尾不做 也會上,前段的太熱門做不來,經驗是 會水到渠成 • 認命吧,引擎有黑箱 40 12年4月26日星期四
HPX - SEO • 不要所有技術⼀一次用上,不要⼀一次做 足,Google希望看到⼀一個網站逐漸進步 • 被Google懲罰是很嚴重的,不要冒險, 會前功盡棄 •
如果有⼀一件事情是重要的:⼀一定要盡可 能全面地讓SE爬到你的網頁們 • 你現在看到的星空不是現在的星空:幾 個月前的演算機制,你追不上演算法 41 12年4月26日星期四
HPX - SEO • 愛料理 or 愛食譜? • 命名不要太專業,要貼近使用者:洗髮 系列?洗髮精?
• 比別人更快被搜尋,尤其是EC • 優化搜尋結果摘要 • ajax:塞純文字link • nofollow、pagerank • Florida Update, 2003 42 12年4月26日星期四
謝。 43 12年4月26日星期四