Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Web scraping, python, e ordem da câmara dos ver...
Search
Gabriela
November 02, 2020
1
47
Web scraping, python, e ordem da câmara dos vereadores
Gabriela
November 02, 2020
Tweet
Share
More Decks by Gabriela
See All by Gabriela
Python: O poder da linguagem, diversidade e mercado de trabalho
gabicavalcante
0
100
Desbravando Comunidades
gabicavalcante
0
28
Featured
See All Featured
Designing for humans not robots
tammielis
253
25k
Practical Orchestrator
shlominoach
187
11k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
The Language of Interfaces
destraynor
158
25k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
420
KATA
mclloyd
29
14k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.8k
BBQ
matthewcrist
88
9.6k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
32
5.6k
Building Applications with DynamoDB
mza
94
6.4k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
24
2.7k
Transcript
Web scraping, python, e ordem da câmara dos vereadores 01
Gabi Cavalcante 02 ❯ natalense ❯ 25 anos ❯ TI
❯ @stone-payments ❯ @twilio ❯ autenticação e autorização. e-commerce. chatbots. ❯ ciência de dados/ETL; QE; teste; arquitetura. ❯ PyLadies Natal
❯❯ Web scraping ❯ Python ❯ Ordem da câmara 03
04 a construção de um agente para baixar, analisar e
organizar dados da Web de maneira automatizada fonte: Practical Web Scraping for Data Science (Broucke and Baesens).
05
❯ Web scraping ❯❯ Python ❯ Ordem da câmara 06
❯ Web scraping ❯ Python ❯❯ Ordem da câmara 07
08
Título de CIDADÃO NATALENSE 09
RESULTADOS Total de pautas: Títulos: 1773 21 - 1.18% 10
11
RESULTADOS Total de pautas: Títulos: 1773 1080 - 60.91% 12
O QUE USEI PRA RASPAR 13 ❯ bs4 ❯ scrapy
❯ requests-html
14
15
16
O QUE USEI PRA EXTRAIR 17 ❯ PyPDF2 + regex
❯ pdfPlumber ❯ rows ++
DICAS [1] Python Assíncrono: tudo ao mesmo tempo agora -
Luciano Ramalho [2] rows [2] blog do scrapy 18 CONTRIBUA [1] Brasil.io [2] Querido diário [3] Dados Abertos de Feira
DÚVIDAS? me encontrem: Twitter: @_gabicavalcante Telegram: @gabrilas GitHub: gabicavalcante 19