Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Introduction for Brownant
Search
Jiangge Zhang
April 11, 2014
Programming
4
140
Introduction for Brownant
Jiangge Zhang
April 11, 2014
Tweet
Share
Other Decks in Programming
See All in Programming
「影響が少ない」を自分の目でみてみる
o0h
PRO
2
1.1k
リアルタイムレイトレーシング + ニューラルレンダリング簡単紹介 / Real-Time Ray Tracing & Neural Rendering: A Quick Introduction (2025)
shocker_0x15
1
310
大LLM時代にこの先生きのこるには-ITエンジニア編
fumiyakume
7
3.1k
AWS で実現する安全な AI エージェントの作り方 〜 Bedrock Engineer の実装例を添えて 〜 / how-to-build-secure-ai-agents
gawa
8
840
プロダクト横断分析に役立つ、事前集計しないサマリーテーブル設計
hanon52_
2
450
Contribute to Comunities | React Tokyo Meetup #4 LT
sasagar
0
500
Youtube Lofier - Chrome拡張開発
ninikoko
0
2.4k
Dissecting and Reconstructing Ruby Syntactic Structures
ydah
1
760
Compose Hot Reload is here, stop re-launching your apps! (Android Makers 2025)
zsmb
1
530
RubyKaigi Dev Meeting 2025
tenderlove
1
210
「理解」を重視したAI活用開発
fast_doctor
0
150
The Efficiency Paradox and How to Save Yourself and the World
hollycummins
0
110
Featured
See All Featured
Unsuck your backbone
ammeep
670
57k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
5
560
The World Runs on Bad Software
bkeepers
PRO
67
11k
Being A Developer After 40
akosma
91
590k
Side Projects
sachag
452
42k
Product Roadmaps are Hard
iamctodd
PRO
52
11k
Automating Front-end Workflow
addyosmani
1369
200k
Building Applications with DynamoDB
mza
94
6.3k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
41
2.2k
What's in a price? How to price your products and services
michaelherold
245
12k
Transcript
(´ŋ_ŋ`)
贴⼀一个 URL,得到数据 “抓”
需要结构化的数据 • ⽤用统计学⽅方法猜测 —— Readability、Pocket、搜索引擎 • ⽤用约定的协议(如 schema.org、OpenGraph) —— Facebook、Twitter
Card、搜索引擎 • 抓取者定制规则 —— ⾖豆瓣东⻄西
⽐比较笨的实现 写⼀一个函数去匹配和分解 URL
⽐比较笨的实现 ⼜又写⼀一个函数去抽取信息
其实⼤大部分规则 都是可以 ⽤用配置⽂文件写出来的
配置⽂文件就是这样 。。。。。。
静态配置的问题 • 原来 title_pattern = `//*[@id=info]/h2/text()` • 后来这个⺴⽹网站改版了,需要请求另⼀一个 API 才能拿
到标题 • 我们就 。。。。。。
如果需要能伸能缩 DSL
最好的例⼦子 DSL with Ruby
既是语⾔言,也是配置
Brownant 基于 Python 的 descriptor 特性
Python 的 descriptor • 拦截 getattr、setattr、delattr • 能访问宿主对象 • “元属性”
None
Pipeline o.title o.etree o.text_response o.http_client o.url
Pipeline o.title o.etree o.text_response o.http_client o.ajax_response o.ajax_json o.price o.url o.ajax_url
借助了其他开源库 • Werkzeug —— URL 分发 • lxml 和 requests
—— 访问⺴⽹网络、解析 HTML • six —— 兼容 Python 2 / Python 3
接下来希望解决的问题 • ⽂文档太简陋 • 内置 PipelineProperty 类型太少 • 不会画蚂蚁,所以没 Logo
github.com:douban/brownant Waiting your pull request tonight~❤️