Jusqu'à présent, j'ai supprimé les variables colinéaires dans le cadre du processus de préparation des données en examinant les tableaux de corrélation et en éliminant les variables qui dépassent un certain seuil. Existe-t-il une façon plus acceptée de procéder? De plus, je suis conscient que seule la corrélation entre 2 variables à la fois n'est pas idéale, des mesures comme VIF prennent en compte la corrélation potentielle entre plusieurs variables. Comment procéder pour choisir systématiquement des combinaisons de variables qui ne présentent pas de multicolinéarité?
J'ai mes données dans un cadre de données pandas et j'utilise les modèles de sklearn.