Je pense que cette approche est erronée, mais il sera peut-être plus utile d’expliquer pourquoi. Vouloir connaître le meilleur modèle étant donné certaines informations sur un grand nombre de variables est assez compréhensible. De plus, c'est une situation dans laquelle les gens semblent se retrouver régulièrement. En outre, de nombreux manuels (et cours) sur la régression couvrent les méthodes de sélection par étapes, ce qui implique qu'elles doivent être légitimes. Malheureusement, ils ne le sont pas et il est très difficile de concilier cette situation et cet objectif. Vous trouverez ci-dessous une liste de problèmes liés aux procédures automatisées de sélection de modèle pas à pas (attribuées à Frank Harrell et copiées à partir de là ):
- Cela donne des valeurs de R au carré qui sont fortement biaisées pour être élevées.
- Les tests F et chi-carré cités à côté de chaque variable de l’impression ne présentent pas la distribution revendiquée.
- La méthode donne des intervalles de confiance pour les effets et des valeurs prédites faussement étroites; voir Altman et Andersen (1989).
- Cela donne des valeurs de p qui n’ont pas la signification voulue, et leur correction est un problème difficile.
- Il donne des coefficients de régression biaisés nécessitant un retrait (les coefficients pour les variables restantes sont trop grands; voir Tibshirani [1996]).
- Il a de graves problèmes en présence de colinéarité.
- Il repose sur des méthodes (tests F pour les modèles imbriqués, par exemple) destinées à être utilisées pour tester des hypothèses préalablement spécifiées.
- L'augmentation de la taille de l'échantillon n'aide pas beaucoup; voir Derksen et Keselman (1992).
- Cela nous permet de ne pas penser au problème.
- Il utilise beaucoup de papier.
La question est de savoir en quoi ces procédures sont si mauvaises / pourquoi ces problèmes se produisent-ils? La plupart des personnes ayant suivi un cours de base sur la régression connaissent bien le concept de régression sur la moyenne . C’est ce que j’utilise pour expliquer ces problèmes. (Bien que cela puisse sembler hors sujet au début, soyez patient, je vous promets que c'est pertinent.)
Imaginez un entraîneur de piste de lycée le premier jour des essais. Trente enfants se présentent. Ces enfants ont un niveau de capacité intrinsèque sous-jacent auquel ni l'entraîneur, ni personne d'autre, n'a un accès direct. En conséquence, l’entraîneur fait ce qu’il peut faire, c’est qu’ils courent tous au 100m. Les temps sont vraisemblablement une mesure de leur capacité intrinsèque et sont pris en tant que tels. Cependant, ils sont probabilistes; une partie de ce que fait une personne est basée sur ses capacités réelles et une autre proportion est aléatoire. Imaginez que la situation vraie soit la suivante:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Les résultats de la première course sont affichés dans la figure suivante avec les commentaires de l'entraîneur aux enfants.
Notez que la partition des enfants en fonction de leurs temps de course laisse des chevauchements sur leurs capacités intrinsèques - ce fait est crucial. Après avoir loué certains joueurs et hurlé après d'autres (comme le font généralement les entraîneurs), il les fait courir à nouveau. Voici les résultats de la deuxième course avec les réactions de l'entraîneur (simulées à partir du même modèle ci-dessus):
Notez que leurs capacités intrinsèques sont identiques, mais que les temps changent par rapport à la première course. Du point de vue de l'entraîneur, ceux qu'il a criés ont tendance à s'améliorer et ceux qu'il a loués ont tendance à se dégrader (j'ai adapté cet exemple concret de la citation de Kahneman listée sur la page du wiki), bien que la régression vers la moyenne soit un simple calcul mathématique. conséquence du fait que l’entraîneur sélectionne des athlètes pour l’équipe sur la base d’une mesure partiellement aléatoire.
Maintenant, qu'est-ce que cela a à voir avec les techniques de sélection de modèles automatisées (par exemple, par étapes)? Développer et confirmer un modèle basé sur le même ensemble de données est parfois appelé dragage de données.. Bien qu'il existe une relation sous-jacente entre les variables, et que des relations plus fortes devraient générer des scores plus élevés (par exemple, des statistiques t plus élevées), il s'agit de variables aléatoires et les valeurs obtenues contiennent des erreurs. Ainsi, lorsque vous sélectionnez des variables basées sur des valeurs réalisées supérieures (ou inférieures), elles peuvent l'être en raison de leur valeur vraie sous-jacente, de leur erreur ou des deux. Si vous procédez de cette manière, vous serez aussi surpris que l’entraîneur l’était après la deuxième course. Cela est vrai que vous sélectionniez des variables basées sur des statistiques t élevées ou des intercorrélations faibles. Certes, l’utilisation de l’AIC est préférable à l’utilisation de valeurs p, car elle pénalise le modèle en termes de complexité, mais l’AIC est en soi une variable aléatoire (si vous exécutez une étude plusieurs fois et s’ajustez au même modèle, l’AIC rebondira comme tout le reste). Malheureusement,
J'espère que ceci est utile.