Projeto de script para web scraping da página de Anais da Associação Nacional de Pós-Graduação e Pesquisa em Educação - Anped.
Seu objetivo é compor a base de dados do Repositório Digital das Humanidades (pt-BR) e foi desenvolvida por Eric Brasil (IHLM/UNILAB) em parceria com o Laboratório de Humanidades Digitais da Ufba.
O script Anais-Anped realiza a raspagem dos papers em pdf dos encontros nacionais 38, 39 e 40, dos anos 2017, 2019 e 2021, respectivamente, (disponíveis atualmente na site).
A ferramenta foi desenvolvida apenas para pesquisas acadêmicas, sem fins lucrativos.
Para executar a ferramenta é preciso clonar ou fazer download do repositório para sua máquina. Antes de executar os scripts, é preciso preparar seu computador, como mostramos abaixo.
A ferramentas desse projeto foram escritas em Python 3.9.7. Portanto, para executar o arquivo .py é preciso instalar o Python3 em seu computador.
Clique aqui para acessar um tutorial de instalação do Python no Windows, clique aqui para Linux e clique aqui para Mac.
Após a instalação do Python é preciso instalar as bibliotecas necessárias para a ferramenta ser executada. Para isso, basta executar o comando pip install -r requirements.txt
no terminal, a partir da pasta onde está o arquivo. Para saber mais sobre instalação de bibliotecas com pip, veja essa lição do Programming Historian.
- Acesse o diretório em que o arquivo
requirements.txt
está salvo:$ cd <caminho para a pasta>
- Instale as bibliotecas requeridas com o seguinte comando:
pip install -r requirements.txt
Agora é possível executar a ferramenta direto do prompt de comando do Windows ou pelo terminal do Linux, ou utilizar as diversas IDE disponíveis.
Na pasta da ferramenta o arquivo scrape_anped.py
.
Esse script permite ao usuário selecionar qual evento pretende raspar (ou se pretende raspar todos de uma vez).
Para isso é preciso executar o seguinte comando, do interior da pasta onde o arquivo está localizado:
python scrape_anped.py
A seguinte mensagem será exibida:
-=-Definição do evento-=-
- Opções:
38 - 2017
39 - 2019
40 - 2021
Todos
Digite o número correspondente ao evento que deseja raspar:
O script retorna para o usuário todos os pdfs disponíveis em todas as páginas dos eventos selecionados. São criadas pastas com o número de cada evento para o armazenamento dos arquivos em PDF.
O script também gera um arquivo CSV (comma-separated values) contendo os seguintes valores para cada paper: Autores, Título, GT, Evento, Ano, Link.
O script está funcionando perfeitamente. Qualquer alteração no site percebida pelos usuários ou sugestões de aprimoramento são bem vindas.
Como citar essa ferramenta?
É possível clicar em Cite this repository
na aba à direita da página inicial do repositório no GitHub para acessar a citação nos formatos APA e BibTex, ou ainda acessar o arquivo da citação em formato .cff.
Abaixo a citação no formato BibTex:
@software{Brasil_Ferramenta_Anais_Anped_2022,
author = {Brasil, Eric},
month = {3},
title = {{Ferramenta Anais Anped}},
url = {https://github.com/ericbrasiln/anais_anped},
version = {1.0},
year = {2022}
}
MIT licensed
Copyright (C) 2022 Eric Brasil