Skip to content

Latest commit

 

History

History
16 lines (7 loc) · 1.77 KB

aula-03.md

File metadata and controls

16 lines (7 loc) · 1.77 KB

Aula 3 - Raspando várias página em html

Objetivos gerais

Nos 2 primeiros encontro vimos como fazer download de arquivos, extrair conteúdos de páginas de html e como construir um loop para extrair uma sequência de páginas de tabelas. No terceiro encontro seguiremos em nosso exemplo anterior com um portal de notícias para ver como extrair uma sequência de páginas de notícias cuja informação não esteja em uma tabela. Este problema é, sem dúvida, o mais representativo dos desafios de raspagem e nos ajudará a criar repertório para lidar com duversos tipos de problemas.

Roteiro

0 - Faremos nosso encontro virtual às 9h30. Discutiremos um pouco sobre xpath e sobre os exemplos do dia..

1 - Comece às 9h do ponto onde tiver parado (links para os tutoriais anteriores: Tutorial 1, Tutorial 2, Tutorial 3, Tutorial 4, Tutorial 5 e Tutorial 6)

2 - Quando tiver terminado o Tutorial 6, avance para o Tutorial 7 e Tutorial 8 na sequência. Os 3, em conjunto, tratam do mesmo assunto, que é a construção de um banco de dados de notícias.