(En supposant que vous parlez d'apprentissage supervisé)
Les fonctionnalités corrélées n'aggravent pas toujours votre modèle, mais ne l'améliorent pas toujours non plus.
Vous souhaitez supprimer les fonctionnalités corrélées pour trois raisons principales:
- Rendre l'algorithme d'apprentissage plus rapide
En raison de la malédiction de la dimensionnalité, moins de caractéristiques signifie généralement une amélioration importante en termes de vitesse.
Si la rapidité n’est pas un problème, ne supprimez peut-être pas ces fonctionnalités immédiatement (voir point suivant).
- Diminuer les biais nuisibles
Le mot clé étant nuisible. Si vous avez des entités corrélées mais qu'elles sont également corrélées à la cible, vous souhaitez les conserver. Vous pouvez voir les caractéristiques comme des indices pour bien deviner. Si vous avez deux astuces qui sont essentiellement les mêmes, mais ce sont de bonnes astuces, il peut être judicieux de les conserver.
Certains algorithmes comme Naive Bayes bénéficient en réalité directement de fonctionnalités corrélées "positives". Et d'autres, comme les forêts aléatoires, peuvent en bénéficier indirectement.
Imaginez que vous avez 3 caractéristiques A, B et C. A et B sont fortement corrélés à la cible et les uns aux autres, et C ne l’est pas du tout. Si vous échantillonnez parmi les 3 fonctionnalités, vous avez 2/3 chances d’obtenir une "bonne" fonctionnalité, tandis que si vous supprimez B par exemple, cette chance tombe à 1/2.
Bien sûr, si les caractéristiques corrélées ne sont pas super informatives en premier lieu, l'algorithme risque de ne pas trop en souffrir.
Donc, pour des raisons morales, il peut être nécessaire de supprimer ces fonctionnalités en raison de la rapidité, mais souvenez-vous que vous pourriez aggraver votre algorithme au cours du processus. De plus, certains algorithmes, tels que les arbres de décision, comportent une sélection de caractéristiques.
Un bon moyen de résoudre ce problème consiste à utiliser une méthode d'encapsulation pour la sélection des fonctionnalités. Les fonctionnalités redondantes ne seront supprimées que si elles ne contribuent pas directement à la performance. S'ils sont utiles, comme chez les naïfs bayes, ils seront conservés. (N'oubliez pas que les méthodes d'emballage sont coûteuses et peuvent entraîner un surajustement)
- Interprétabilité de votre modèle
Si votre modèle doit être interprétable, vous serez peut-être obligé de le simplifier. Assurez-vous également de vous souvenir du rasoir d'Occam. Si votre modèle n'empire pas trop avec moins de fonctionnalités, vous devriez probablement en utiliser moins.