sobrecargar sitios ◦Extractor de links ◦DNS cache •Scheduler ◦que páginas visitar a continuación ◦que páginas re-visitar para descubrir cambios ◦Filtro de duplicados • Storage ◦donde se almacen las páginas crawleadas ◦eficiente para procesamiento bulk secuencial
de decoración de interior) •Requisitos: ◦poder escrapear 1000 sitios de forma eficiente ◦poder mantener el código de 1000 scrapers de forma productiva ◦Python •Alternativas evaluadas: ◦BeautifulSoup - muy verboso (demasiado código) ◦lxml - muy verde aún ◦mechanize - lento
HTML ◦Ejemplo: ▪//div[@class='price'] •Loaders ◦politicas de como procesar las regiones extraidas del HTML, según el campo que se vaya a popular ◦Ejemplo: ▪"List Price: $200" -> 200.0
mensajes por mes •Sitio web y documentación ◦500 visitas únicas diarias •Sala IRC ◦30-40 personas promedio (90% de la comunidad) •Twitter ◦ 310 seguidores (10% de Django) •Github ◦192 watchers, 28 forks •Bitbucket ◦19 watchers, 7 forks •StackOverflow ◦160 preguntas con tag "scrapy"