A partir de un dataset generado a partir de la extracción de características (features) de la base de datos de sonidos de RedPanal (desde junio 2013 hasta agosto del 2018), un sitio colaborativo que almacena y reproduce a demanda sonidos compartidos con licencias del tipo Creative Commons, se busca extraer conocimiento sobre la composición de la base de datos utilizando diferentes algoritmos de Machine Learning.
Para extraer features de los archivos de sonido se utilizo el Audio Commons Extractor que genera para cada sonido un archivo JSON con diferentes valores como: duración, tonalidad, rango dinámico, volumen, si es el sonido es "loopeable o no", si se trata de un "evento único" o no, entre otros.
Originalmente la idea era analizar aquellos cuya duración era menor a 5 segundos, ya que a priori se pensaba que de los mismos se podía extraer mejor información, ya que su contenido no varia tanto en el tiempo, pero se descartó, ya que se encontró que el dataset elegido contaba con muy pocas instancias de este tipo.
Consultar Dependencias.md
A toda la comunidad RedPanal.org y en especial a Xavier Gonzalez por el feedback.
Para más detalles, consultar los archivos .ipynb (jupyter notebooks). También se pueden ver online y navegar a través de los siguientes links:
- 0 - Introducción y construcción del Dataset
- 1 - Visualización y clustering
- 2a - Regresión Logística y análisis del dataset con R
- 2b - Predicción usando variables dicotómicas - regresión
- 3 - Reducción de la dimensionalidad SVD y PCA
- 4 - Conclusión parcial (primera parte)
- 5 - Reducción de la dimensionalidad con t-SNE
- 6 - DatasetParticionado - Predicción usando variables dicotómicas - regresión
- 7 - DatasetParticionado PCA y t-SNE
- 8 - Redes Neuronales GAN y reconstrucción de fase
- 9 - Conclusión final