La classification, dans le domaine de l'apprentissage automatique, implique le tri d'objets en catégories, définies par des propriétés communes. Cette discipline se scinde en deux approches principales : supervisée et non supervisée. Notre projet se concentre sur l'approche supervisée, où nous utilisons une base de données étiquetée pour former des modèles à distinguer les "Malwares" des "goodwares".
L'objectif principal de ce projet est d'identifier l'algorithme le plus efficace pour développer un modèle précis, capable de prédire si un logiciel est un "Malware" ou un "goodware". À cette fin, nous examinerons diverses techniques d'apprentissage,comme la Régression Logistique, les K-NN (K plus proches voisins), les Forêts Aléatoires, les SVM (Support Vector Machines) et les Arbres de Décision. Nous intégrerons également des stratégies d'ensemble telles que le Bagging et le Boosting. En parallèle, différentes méthodes d'échantillonnage, comme le NearMiss (sous-échantillonnage) et le SMOTE (sur-échantillonnage), seront testées pour optimiser la performa