Añadir corpus original Spanish Dish Tiltle. #43

Frorozcoloa · 2023-10-04T01:44:16Z

Este es un repositorio, que contiene imagenes de platos y su respectivo nombre o title. Esto dataset se creó haciendo scrapy de https://www.recetasgratis.net. Se extreyeron las miniaturas de las images y su respectivo titulo

…sh_title

mariagrandury

Hola Fredy! Qué bien verte por aquí, gracias por la primera PR! 🎉

Un par de cositas:

En este repo no vamos a subir los datasets como tal si no enlaces a ellos, puedes subir el dataset.csv y las imágenes a esta org de HF: https://huggingface.co/hacktoberfest-corpus-es
Lo que sí que hay que subir a este repo son los scripts que has utilizado para crear el dataset, el boxplot, calcular distribuciones, perplejidad, ...
Al README hay que anadirle un YAML header, la plantilla está aquí: https://github.com/somosnlp/corpus-es/blob/main/datasets/nuevo_dataset.md

Frorozcoloa · 2023-10-06T14:57:39Z

Listo, ya se subieron las imagenes al respositorio de hugginface, queda pendiente hacer el readme del dataset.

mariagrandury

Gran trabajo Fredy! Dejo un par de comentarios a continuación

mariagrandury · 2023-10-17T17:34:20Z

datasets/spanish_dish_title/README.md

+Nota 1: El dataset se encuentra en formato csv.
+Nota 2: El nombre de las imagenes tambien va el titulo
+
+## Directorio


Incluye por favor todos los ficheros y su explicación

mariagrandury · 2023-10-17T17:34:57Z

datasets/spanish_dish_title/README.md

+```
+## Análisis exploratorio de datos
+
+El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.


Incluye también una frase diciendo que el notebook está disponible con un enlace al notebook EDA.ipynb

mariagrandury · 2023-10-17T17:35:58Z

datasets/spanish_dish_title/README.md

@@ -0,0 +1,42 @@
+# Platos de comida


Propuesta para el estudio de sesgos: de dónde son las recetas? Incluyen recetas de diferentes países/continentes?

mariagrandury · 2023-10-17T17:36:20Z

datasets/spanish_dish_title/README.md

@@ -0,0 +1,42 @@
+# Platos de comida
+## Descripción
+El siguiente dataset son imagenes con platos de comidas y su titulo. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente:


Suggested change

El siguiente dataset son imagenes con platos de comidas y su titulo. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente:

El siguiente dataset son imágenes con platos de comidas y su título. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente:

mariagrandury · 2023-10-17T17:36:32Z

datasets/spanish_dish_title/README.md

+1. Se obtiene el link de la página principal de la categoría de comida.
+2. Se obtiene el link de la página de cada receta.
+3. Se obtiene el link de la imagen de la receta.
+4. Se obtiene el titulo de la receta.


Suggested change

4. Se obtiene el titulo de la receta.

4. Se obtiene el título de la receta.

mariagrandury · 2023-10-17T17:38:10Z

datasets/spanish_dish_title/README.md

+```
+## Análisis exploratorio de datos
+
+El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.


Suggested change

El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.

El ánilisis exploratorio se centra en el texto, para las imágenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.

mariagrandury · 2023-10-17T17:39:54Z

datasets/spanish_dish_title/src/scraper_images_dish.py

+from pathlib import Path
+
+
+def donwload(url, directory):


Por favor incluye una pequeña descripción de las funciones en docstrings, p.ej:

Suggested change

def donwload(url, directory):

def donwload(url, directory):

"""

Descargar ...

"""

mariagrandury · 2023-10-17T17:41:51Z

datasets/spanish_dish_title/.ipynb_checkpoints/Untitled-checkpoint.ipynb

@@ -0,0 +1,6 @@
+{


Este fichero no hace falta que lo incluyas, incluye .ipynb_checkpoints en el .gitignore :)

mariagrandury · 2023-10-17T17:42:45Z

datasets/spanish_dish_title/README.md

+Nota 1: El dataset se encuentra en formato csv.
+Nota 2: El nombre de las imagenes tambien va el titulo
+
+## Directorio


Especifica por favor la función del notebook en el nombre de Untitled.ipynb

mariagrandury · 2023-10-17T17:43:50Z

datasets/spanish_dish_title/README.md

+En la imagen podemos ver las palabras más frecuentes para el texto, tambien podemos ver un boxplot del texto
+<img src="box_plot.png">
+Aquí podemos ver como existen palabras muy pequeñas y muy grandes, por lo que recomendamos al usario que se fije en el texto para ver si le sirve el tamaño del texto
+<img src="distribution.png">


En este caso igual size_distribution.png es un nombre más específico :)

mariagrandury · 2023-10-17T17:46:33Z

Al README todavía hay que anadirle un YAML header, la plantilla está aquí: https://github.com/somosnlp/corpus-es/blob/main/datasets/nuevo_dataset.md

Frorozcoloa added 6 commits October 3, 2023 17:19

PLUS: (datasets/platos) addes the dataset with image and title

ea8bd1f

PLUS: (datasets/platos) addes the litle eda

65a82df

BUG: changes the markdown images href by src

28ca071

PLUS: Addes the infro to dataset

9372ba7

REFACTOR: (datasets) changes the name from platos_title to spanisj_di…

1d6ebe3

…sh_title

PLUS: deletes the images that start by number

8639aba

mariagrandury requested changes Oct 5, 2023

View reviewed changes

Frorozcoloa added 2 commits October 6, 2023 09:49

Upload dataset to hugginface

836ae71

Update the datasets.csv

411e4bb

mariagrandury requested changes Oct 17, 2023

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Añadir corpus original Spanish Dish Tiltle. #43

Añadir corpus original Spanish Dish Tiltle. #43

Frorozcoloa commented Oct 4, 2023

mariagrandury left a comment

Frorozcoloa commented Oct 6, 2023

mariagrandury left a comment

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury Oct 17, 2023

mariagrandury commented Oct 17, 2023

	El siguiente dataset son imagenes con platos de comidas y su titulo. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente:
	El siguiente dataset son imágenes con platos de comidas y su título. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente:

	4. Se obtiene el titulo de la receta.
	4. Se obtiene el título de la receta.

	El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.
	El ánilisis exploratorio se centra en el texto, para las imágenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.

Añadir corpus original Spanish Dish Tiltle. #43

Are you sure you want to change the base?

Añadir corpus original Spanish Dish Tiltle. #43

Conversation

Frorozcoloa commented Oct 4, 2023

mariagrandury left a comment

Choose a reason for hiding this comment

Frorozcoloa commented Oct 6, 2023

mariagrandury left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

mariagrandury commented Oct 17, 2023