Proyecto colaborativo para extraer un dataset desde el portal Springer, usando técnicas de Web Scraping. El dataset corresponde a datos bibliográficos de los libros publicados en el portal desde el 2015 al 2021, en la disciplina de Ciencias de la Computación.
Contribuciones | Firma |
---|---|
Investigación previa | Luis Arnaldo Torres González, Gabriel Patricio Bonilla Sanchez |
Redacción de las respuestas | Luis Arnaldo Torres González, Gabriel Patricio Bonilla Sanchez |
Desarrollo código | Luis Arnaldo Torres González, Gabriel Patricio Bonilla Sanchez |
La estructura general del proyecto es la siguiente:
- src: Esta carpeta contiene 3 archivos, según las siguientes indicaciones:
- owner.json: Respuesta JSON al momento de ejecutar el script
owner.py
- owner.py: Script que hace uso de la librería python-whois, lo que permite conocer el propietario de la página.
- scraper.py: Script que contiene toda la lógica de extracción de los datos del portal de Springer.
- owner.json: Respuesta JSON al momento de ejecutar el script
- data: Contiene el dataset books_data_springer.csv
- docs: Contiene la documentación referente al proyecto.
- LICENSE: Archivo que contiene la declaración de la licencia usada para este proyecto. En este caso se ha usado la licencia MIT.
- README.md: Archivo que contiene una breve descripción del proyecto
Para ejecutar los scripts del proyecto es necesario instalar las siguientes librerías:
pip install requests
pip install beautifulsoup4
pip install python-whois
Para mayor información del proyecto visite la Wiki Oficial