Les procédures courantes de sélection des variables basées sur les données (par exemple, avant, arrière, pas à pas, tous les sous-ensembles) ont tendance à produire des modèles avec des propriétés indésirables, notamment:
- Coefficients biaisés loin de zéro.
- Erreurs standard trop petites et intervalles de confiance trop étroits.
- Testez les statistiques et les valeurs de p qui n'ont pas la signification annoncée.
- Estimations de l'ajustement du modèle trop optimistes.
- Termes inclus qui peuvent être dénués de sens (par exemple, exclusion de termes d'ordre inférieur).
Pourtant, les procédures de sélection des variables persistent. Étant donné les problèmes de sélection des variables, pourquoi ces procédures sont-elles nécessaires? Qu'est-ce qui motive leur utilisation?
Quelques propositions pour entamer la discussion ....
- Le désir de coefficients de régression interprétables? (Mal orienté dans un modèle avec de nombreux IVs?)
- Éliminer la variance introduite par des variables non pertinentes?
- Éliminer les covariances / redondances inutiles parmi les variables indépendantes?
- Réduire le nombre d'estimations de paramètres (problèmes de puissance, taille d'échantillon)
Y en a-t-il d'autres? Les problèmes traités par les techniques de sélection des variables sont-ils plus ou moins importants que les problèmes posés par les procédures de sélection des variables? Quand devraient-ils être utilisés? Quand ne devraient-ils pas être utilisés?