Je suis conscient du fait que les variables catégorielles avec k niveaux doivent être codées avec k-1 variables dans le codage factice (de même pour les variables catégorielles à valeurs multiples). Je me demandais combien de problème un codage à chaud (c'est-à-dire en utilisant k variables à la place) sur un codage factice pour différentes méthodes de régression, principalement la régression linéaire, la régression linéaire pénalisée (Lasso, Ridge, ElasticNet), basé sur les arbres (forêts aléatoires , amplificateurs de gradient).
Je sais que dans la régression linéaire, des problèmes de multi-colinéarité se produisent (même si dans la pratique j'ai ajusté la régression linéaire en utilisant OHE sans aucun problème).
Cependant, le codage factice doit-il être utilisé dans chacun d'eux et à quel point les résultats seraient-ils incorrects si l'on utilise un codage à chaud?
Je me concentre sur la prédiction dans les modèles de régression avec plusieurs variables catégorielles (à cardinalité élevée), donc je ne suis pas intéressé par les intervalles de confiance.