O objetivo é criar grupos de produtos de forma não supervisionada, somente a partir do texto das suas descrições.
O trabalho envolve processamento de linguagem natural, redução de dimensionalidade e algoritmos de clusterização.
Explicação mais detalhada pode ser encontrada no power point "Identificando sobrepreço 5o seminário versão final.pptx".
Este é o repositório do treino do modelo.
Seguir os passos do arquivo principal.py, pasta /src/.
Dados devem estar na pasta /data/
Maiores informações sobre o modelo e como treiná-lo estão nos comentários de principal.py
Em caso de dúvidas, falar com o autor, Alexandre Gandini.
CREATIVE COMMONS Attribution-NonCommercial / CC BY-NC
-> Citar a autoria do projeto;
-> Proibido utilizar para fins comerciais.