Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Web scraping, python, e ordem da câmara dos ver...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Gabriela
November 02, 2020
61
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Web scraping, python, e ordem da câmara dos vereadores
Gabriela
November 02, 2020
More Decks by Gabriela
See All by Gabriela
Python: O poder da linguagem, diversidade e mercado de trabalho
gabicavalcante
0
110
Desbravando Comunidades
gabicavalcante
0
37
Featured
See All Featured
How to build a perfect <img>
jonoalderson
1
5.7k
Embracing the Ebb and Flow
colly
88
5.1k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
WENDY [Excerpt]
tessaabrams
11
38k
A Tale of Four Properties
chriscoyier
163
24k
The untapped power of vector embeddings
frankvandijk
2
1.8k
Crafting Experiences
bethany
1
190
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
330
The Pragmatic Product Professional
lauravandoore
37
7.3k
For a Future-Friendly Web
brad_frost
183
10k
Why Our Code Smells
bkeepers
PRO
340
58k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
170
Transcript
Web scraping, python, e ordem da câmara dos vereadores 01
Gabi Cavalcante 02 ❯ natalense ❯ 25 anos ❯ TI
❯ @stone-payments ❯ @twilio ❯ autenticação e autorização. e-commerce. chatbots. ❯ ciência de dados/ETL; QE; teste; arquitetura. ❯ PyLadies Natal
❯❯ Web scraping ❯ Python ❯ Ordem da câmara 03
04 a construção de um agente para baixar, analisar e
organizar dados da Web de maneira automatizada fonte: Practical Web Scraping for Data Science (Broucke and Baesens).
05
❯ Web scraping ❯❯ Python ❯ Ordem da câmara 06
❯ Web scraping ❯ Python ❯❯ Ordem da câmara 07
08
Título de CIDADÃO NATALENSE 09
RESULTADOS Total de pautas: Títulos: 1773 21 - 1.18% 10
11
RESULTADOS Total de pautas: Títulos: 1773 1080 - 60.91% 12
O QUE USEI PRA RASPAR 13 ❯ bs4 ❯ scrapy
❯ requests-html
14
15
16
O QUE USEI PRA EXTRAIR 17 ❯ PyPDF2 + regex
❯ pdfPlumber ❯ rows ++
DICAS [1] Python Assíncrono: tudo ao mesmo tempo agora -
Luciano Ramalho [2] rows [2] blog do scrapy 18 CONTRIBUA [1] Brasil.io [2] Querido diário [3] Dados Abertos de Feira
DÚVIDAS? me encontrem: Twitter: @_gabicavalcante Telegram: @gabrilas GitHub: gabicavalcante 19