-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Añadir corpus original Spanish Dish Tiltle. #43
base: main
Are you sure you want to change the base?
Conversation
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Hola Fredy! Qué bien verte por aquí, gracias por la primera PR! 🎉
Un par de cositas:
- En este repo no vamos a subir los datasets como tal si no enlaces a ellos, puedes subir el dataset.csv y las imágenes a esta org de HF: https://huggingface.co/hacktoberfest-corpus-es
- Lo que sí que hay que subir a este repo son los scripts que has utilizado para crear el dataset, el boxplot, calcular distribuciones, perplejidad, ...
- Al README hay que anadirle un YAML header, la plantilla está aquí: https://github.com/somosnlp/corpus-es/blob/main/datasets/nuevo_dataset.md
Listo, ya se subieron las imagenes al respositorio de hugginface, queda pendiente hacer el readme del dataset. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Gran trabajo Fredy! Dejo un par de comentarios a continuación
Nota 1: El dataset se encuentra en formato csv. | ||
Nota 2: El nombre de las imagenes tambien va el titulo | ||
|
||
## Directorio |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Incluye por favor todos los ficheros y su explicación
``` | ||
## Análisis exploratorio de datos | ||
|
||
El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Incluye también una frase diciendo que el notebook está disponible con un enlace al notebook EDA.ipynb
@@ -0,0 +1,42 @@ | |||
# Platos de comida |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Propuesta para el estudio de sesgos: de dónde son las recetas? Incluyen recetas de diferentes países/continentes?
@@ -0,0 +1,42 @@ | |||
# Platos de comida | |||
## Descripción | |||
El siguiente dataset son imagenes con platos de comidas y su titulo. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente: |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
El siguiente dataset son imagenes con platos de comidas y su titulo. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente: | |
El siguiente dataset son imágenes con platos de comidas y su título. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente: |
1. Se obtiene el link de la página principal de la categoría de comida. | ||
2. Se obtiene el link de la página de cada receta. | ||
3. Se obtiene el link de la imagen de la receta. | ||
4. Se obtiene el titulo de la receta. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
4. Se obtiene el titulo de la receta. | |
4. Se obtiene el título de la receta. |
``` | ||
## Análisis exploratorio de datos | ||
|
||
El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones. | |
El ánilisis exploratorio se centra en el texto, para las imágenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones. |
from pathlib import Path | ||
|
||
|
||
def donwload(url, directory): |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Por favor incluye una pequeña descripción de las funciones en docstrings, p.ej:
def donwload(url, directory): | |
def donwload(url, directory): | |
""" | |
Descargar ... | |
""" |
@@ -0,0 +1,6 @@ | |||
{ |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Este fichero no hace falta que lo incluyas, incluye .ipynb_checkpoints en el .gitignore :)
Nota 1: El dataset se encuentra en formato csv. | ||
Nota 2: El nombre de las imagenes tambien va el titulo | ||
|
||
## Directorio |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Especifica por favor la función del notebook en el nombre de Untitled.ipynb
En la imagen podemos ver las palabras más frecuentes para el texto, tambien podemos ver un boxplot del texto | ||
<img src="box_plot.png"> | ||
Aquí podemos ver como existen palabras muy pequeñas y muy grandes, por lo que recomendamos al usario que se fije en el texto para ver si le sirve el tamaño del texto | ||
<img src="distribution.png"> |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
En este caso igual size_distribution.png
es un nombre más específico :)
Al README todavía hay que anadirle un YAML header, la plantilla está aquí: https://github.com/somosnlp/corpus-es/blob/main/datasets/nuevo_dataset.md |
Este es un repositorio, que contiene imagenes de platos y su respectivo nombre o title. Esto dataset se creó haciendo scrapy de https://www.recetasgratis.net. Se extreyeron las miniaturas de las images y su respectivo titulo