Crawlers - Coletando e transformando dados da web

*/omarkdev 2

O que é Crawler? 3

“ Crawler é uma ferramenta que navega entre páginas da
web utilizando uma regra especíﬁca. 4

Mas também existem os Scrappers 7

“ Scrapper é uma ferramenta que pega informações especíﬁcas de
páginas. 8

Eles podem trabalhar juntos ou separados! 9

Vamos imaginar um cenário real 10

TasteDive crawler ◉ Obter os resultados relacionados de uma busca;
◉ A busca pode conter os ﬁltros de categorias disponíveis no site; ◉ A resposta do Crawler deve estar em formato JSON; ◉ Os resultados devem ter seus nomes, categoria, likes e pontuação de classiﬁcação. 13

Trabalho do Crawler - Obter os resultados relacionados - Buscar
pelo ﬁltro de categoria TasteDive crawler Trabalho do Scrapper - Obter as propriedades do resultado - Retornar os resultados em JSON 14

Mas aqui, tudo vai ser Crawler. 15

Os crawlers podem ser divididos em 2 grupos 16 Baixo
Nível Alto Nível

Podemos fazer uma analogia com linguagens de baixo e alto
nível 17

Linguagem - Se aproxima com linguagem humana - Nível de
abstração que facilita o entendimento - Não tem necessidade de conhecer instruções dos processadores Alto nível Crawler - Se aproxima com a interação humana - Nível de abstração que facilita o entendimento - Não tem necessidade de conhecer as instruções para processar 18

Crawler - Se aproxima mais com a linguagem de desenvolvimento
- Compreende as características do alvo - Instruções que serão executadas apenas para processar Linguagem - Se aproxima com linguagem de máquina - Compreende as características do computador - Instruções que serão executadas apenas pelo processador Baixo nível 19

Crawlers de baixo nível 1 20

Características ◉ Utiliza menos recursos ◉ São mais rápidos ◉
Executa apenas as regras necessárias para o processamento ◉ Criado com engenharia reversa 21

“ O Crawler de baixo nível simula as instruções necessárias
para serem executadas do alvo 22

Vamos entender como a página mostra os resultados 23

24 Realizamos uma busca

26 Analisamos o DevTools

27 Conﬁrmamos se a página já vem com os dados
ou se obtém de outro lugar

28 Concluímos que a página já carrega as informações necessárias

29 Ok, identiﬁcamos o que precisamos fazer, apenas obter o
conteúdo desta página

30 Agora precisamos entender como chegar naquela página

31 Aparentemente a URL é formada apenas pelo slug da
pesquisa

32 Testamos nossa teoria

34 O necessário é apenas a url?

35 Existem mais coisas que vão nas requisições

36 Vamos por tentativa e erro

40 Se funcionar, quer dizer que todas as informações que
você precisa estão ali

42 Mas se o slug for algo inexistente?

45 Ok, conseguimos saber se uma busca é válida e
conseguimos reproduzi-lá

46 Agora o que falta apenas é poder realizar buscas
pelas categorias

47 Realizar a busca com o ﬁltro de categorias

48 Analisamos novamente o DevTools

49 Analisamos como chegar naquela página novamente Aparentemente agora a
URL é formada pela categoria

Entendemos qual o processo do alvo e o que precisamos
fazer para obter os resultados 50

Agora vamos criar o Crawler 51

Mas e para formatar a resposta? 53

55 Query’s com CSS Selector

“ Os crawlers de baixo nível são recomendados quando as
instruções são possíveis de serem reproduzidas e a taxa de erro da implementação seja baixo 58

2 59 Crawlers de alto nível

Características ◉ Utiliza muito recurso ◉ Executa as regras que
o usuário iria fazer ◉ Criado baseado na interação do usuário ◉ Pouco suscetível a problemas. 60

“ O Crawler de alto nível simula a interação do
usuário 61

Vamos entender o que o usuário faz 63

64 Usuário acessa a página inicial

65 Digita a pesquisa e clica em ‘Recommend’

Traduzindo isso para o puppeteer 67

70 Caso queira ver a interação com a página

“ Os crawlers de alto nível são recomendados quando é
necessário um browser por trás, o tempo e tamanho de processamento não importa ou as instruções de processamento são muitos complexas de serem reproduzidas 72

3 73 Projeto híbrido (baixo e alto nível)

Compartilhar os recursos de responsabilidade de cada nível 74

Compartilhamento de recursos 75 O alvo tem um validador de
javascript, para veriﬁcar se realmente está rodando no browser e esse validador gera uma sessão que é necessária para obter os resultados

Compartilhamento de recursos Gerar uma sessão Obter o resultado Continuar
o ﬂuxo com a sessão gerada 76 Alto nível Baixo nível

“ Os projetos com abordagem híbrida são recomendados quando você
consegue separar os processos para cada tipo de crawler com o objetivo de reduzir tempo e/ou processamento 77

Ok, gostei, como posso me aprofundar? 78

O mundo dos crawlers é um mundo sem regras. 79

O mundo sem regras ◉ Não tem muitas vagas para
desenvolvedores de Crawlers ◉ Não tem material de referência ◉ Não tem boas práticas ◉ Não tem muitos exemplos ◉ Não tem muitas ferramentas 80

Somos todos pioneiros! 81

Crawlers - Coletando e transformando dados da web

Crawlers - Coletando e transformando dados da web

More Decks by Marcos Felipe

Other Decks in Programming

Featured

Transcript