Replicação do artigo 'From neighbors to strengths - the k-strongest strengths (kSS) classification algorithm', disponível em https://doi.org/10.1016/j.patrec.2020.06.020, para o projeto da cadeira de Aprendizagem de Máquina, com o professor George Darmiton da Cunha Cavalcanti.
Link para o relatório em LaTeX.
Grupo:
- Eduardo Barreto Brito (ebb2);
- Juliana do Nascimento Damurie da Silva (jnds);
- Lucas Augusto Mota de Alcantara (lama2);
- Natália Souza Soares (nss2).
Datasets retirados do UCI Repository:
Alguns datasets mudaram de número de features, assim como não estão mais disponíveis no site indicado pelo artigo (aqui indicados como os que não possuem links). Os modificados foram:
- Ecoli: 7 features (no artigo) -> 8 features (atualmente)
- Glass Identification: 9 features (no artigo) -> 10 features (atualmente)
- WDBC (Breast Cancer Wisconsin (Diagnostic)) -> 30 features (no artigo) -> 32 features (atualmente)
- Vehicle -> 846 instâncias (no artigo) -> 946 instâncias (atualmente)
Além disso, Thyroid possui mais de um dataset, e o escolhido foi o 'new-thyroid'.
Para avaliação, foi utilizado um K = 7 para o KSS (K Strongest Strengths) e o 10-Fold Cross-Validation.
Os algoritmos utilizados para comparação com o algoritmo do artigo são:
- kNN, com K = 7, da biblioteca SKLearn, documentado neste link;
- DWkNN (Distance Weighted kNN), com K = 7, da biblioteca SKLearn, documentado neste link, com o parâmetro weights = 'distance';
- DTree, com profundidade máxima = 7, da biblioteca SKLearn, documentado neste link;
- Gaussian Naive Bayes, da biblioteca SKLearn, documentado neste link;
- SVM, da biblioteca SKLearn, com kernel = RBF e C = 8.5, documentado neste link;
- MLP, com função de ativação = relu, 3 hidden layers de 12 perceptrons cada e no máximo 500 interações, da biblioteca SKLearn, documentado neste link;
O artigo ainda compara com outros algoritmos, que não possuem implementação em bibliotecas externas:
- WAF (Weighted Attraction Force), utilizando CC como função de massa.
- Aguilera, J., González, L.C., Montes-y Gómez, M., Rosso, P., 2018. A new weighted k-nearest neighbor algorithm based on newton’s gravitational force, in: Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, Springer International Publishing. pp. 305–313.
- WAF (Weighted Attraction Force), utilizando CD como função de massa.
- Aguilera, J., González, L.C., Montes-y Gómez, M., Rosso, P., 2018. A new weighted k-nearest neighbor algorithm based on newton’s gravitational force, in: Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, Springer International Publishing. pp. 305–313.
- Im-GFRNN (Improved Gravitational Fixed Radius Nearest Neighbor).
- Shabani-kordshooli, M., Nikpour, B., Nezamabadi-pour, H., 2017. An improvement to gravitational fixed radius nearest neighbor for imbalanced problem, in: 2017 Artificial Intelligence and Signal Processing Conference (AISP), pp. 262--267. doi:10.1109/AISP.2017.8324109.
- GFRNN (Gravitational Fixed Radius Nearest Neighbor).
- Zhu, Y., Wang, Z., Gao, D., 2015. Gravitational fixed radius nearest neighbor for imbalanced problem. Knowledge-Based Systems 90, 224 -- 238. URL: http://www.sciencedirect.com/science/article/pii/S0950705115003548, doi:https://doi.org/10.1016/j.knosys.2015.09.015.