En psychologie et dans d'autres domaines, une forme de régression par étapes est souvent employée et implique les éléments suivants:
- Examinez les prédicteurs restants (il n'y en a pas dans le modèle au début) et identifiez le prédicteur qui entraîne le plus grand changement du carré r;
- Si la valeur de p de la variation du carré r est inférieure à alpha (généralement 0,05), incluez ce prédicteur et revenez à l'étape 1, sinon arrêtez.
Par exemple, consultez cette procédure dans SPSS .
La procédure est régulièrement critiquée pour un large éventail de raisons (voir cette discussion sur le site Web de Stata avec des références ).
En particulier, le site Web de Stata résume plusieurs commentaires de Frank Harrell. Je suis intéressé par la réclamation:
[régression pas à pas] donne des valeurs R au carré qui sont fortement biaisées pour être élevées.
Plus précisément, certaines de mes recherches actuelles portent sur l'estimation du r-carré de la population . Par carré de population, je me réfère au pourcentage de variance expliqué par les données de population générant l'équation dans la population. Une grande partie de la littérature existante que j'examine a utilisé des procédures de régression pas à pas et je veux savoir si les estimations fournies sont biaisées et, dans l'affirmative, dans quelle mesure. En particulier, une étude typique aurait 30 prédicteurs, n = 200, un alpha d'entrée de 0,05 et des estimations du carré r autour de 0,50.
Ce que je sais:
- De manière asymptotique, tout prédicteur avec un coefficient non nul serait un prédicteur statistiquement significatif, et r carré serait égal à r carré ajusté. Ainsi, une régression asymptotiquement pas à pas devrait estimer l'équation de régression vraie et le vrai carré de la population.
- Avec des échantillons de plus petite taille, l'omission possible de certains prédicteurs se traduira par un carré r plus petit que si tous les prédicteurs avaient été inclus dans le modèle. Mais aussi le biais habituel du r-carré aux données d'échantillonnage augmenterait le r-carré. Ainsi, ma pensée naïve est que, potentiellement, ces deux forces opposées pourraient dans certaines conditions aboutir à un r-carré non biaisé. Et plus généralement, la direction du biais dépendrait de diverses caractéristiques des données et des critères d'inclusion alpha.
- La définition d'un critère d'inclusion alpha plus rigoureux (par exemple, 0,01, 0,001, etc.) devrait réduire le r-carré estimé attendu car la probabilité d'inclure tout prédicteur dans toute génération de données sera moindre.
- En général, le carré r est une estimation biaisée à la hausse du carré r de la population et le degré de ce biais augmente avec plus de prédicteurs et des échantillons de plus petite taille.
Question
Alors finalement, ma question:
- Dans quelle mesure le carré r de la régression pas à pas se traduit-il par une estimation biaisée du carré r de la population?
- Dans quelle mesure ce biais est-il lié à la taille de l'échantillon, au nombre de prédicteurs, au critère d'inclusion alpha ou aux propriétés des données?
- Y a-t-il des références sur ce sujet?