Aula 3 - Raspando várias página em html

Objetivos gerais

Nos 2 primeiros encontro vimos como fazer download de arquivos, extrair conteúdos de páginas de html e como construir um loop para extrair uma sequência de páginas de tabelas. No terceiro encontro seguiremos em nosso exemplo anterior com um portal de notícias para ver como extrair uma sequência de páginas de notícias cuja informação não esteja em uma tabela. Este problema é, sem dúvida, o mais representativo dos desafios de raspagem e nos ajudará a criar repertório para lidar com duversos tipos de problemas.

Roteiro

0 - Faremos nosso encontro virtual às 9h30. Discutiremos um pouco sobre xpath e sobre os exemplos do dia..

1 - Comece às 9h do ponto onde tiver parado (links para os tutoriais anteriores: Tutorial 1, Tutorial 2, Tutorial 3, Tutorial 4, Tutorial 5 e Tutorial 6)

2 - Quando tiver terminado o Tutorial 6, avance para o Tutorial 7 e Tutorial 8 na sequência. Os 3, em conjunto, tratam do mesmo assunto, que é a construção de um banco de dados de notícias.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

aula-03.md

aula-03.md

Aula 3 - Raspando várias página em html

Objetivos gerais

Roteiro

Files

aula-03.md

Latest commit

History

aula-03.md

File metadata and controls

Aula 3 - Raspando várias página em html

Objetivos gerais

Roteiro