Qu'est-ce que la «sélection de modèle par étapes»?

Bien que les mérites de la sélection de modèle pas à pas aient été discutés précédemment, il devient peu clair pour moi ce qu'est exactement la " sélection de modèle pas à pas " ou la " régression pas à pas ". Je pensais l'avoir compris, mais je n'en suis plus si sûr.

Ma compréhension est que ces deux termes sont synonymes (au moins dans un contexte de régression) et qu'ils se réfèrent à la sélection du meilleur ensemble de variables prédictives dans un modèle "optimal" ou "meilleur" , compte tenu des données. (Vous pouvez trouver la page Wikipedia ici et un autre aperçu potentiellement utile ici .)

Sur la base de plusieurs threads précédents (par exemple ici: Algorithmes pour la sélection automatique de modèle ), il apparaît que la sélection de modèle pas à pas est considérée comme un péché cardinal. Et pourtant, il semble être utilisé tout le temps, y compris par des statisticiens qui semblent bien respectés. Ou est-ce que je mélange la terminologie?

Mes principales questions sont:

Par «sélection de modèle pas à pas» ou «régression pas à pas», entendons-nous:
A ) effectuer des tests d'hypothèse séquentiels tels que des tests de rapport de vraisemblance ou examiner des valeurs de p? (Il y a un article connexe ici: pourquoi les valeurs p sont-elles trompeuses après avoir effectué une sélection pas à pas? ) Est-ce ce que cela signifie et pourquoi est-ce mauvais?
Ou
B ) considérons-nous également que la sélection basée sur l'AIC (ou un critère d'information similaire) est également mauvaise? D'après la réponse d' Algorithmes pour la sélection automatique de modèle , il semble que cela aussi soit critiqué. D'un autre côté, Whittingham et al. (2006; pdf ) ¹ semble suggérer que la sélection de variables basée sur une approche de la théorie de l'information (TI) est différente de la sélection par étapes (et semble être une approche valide) ...?

Et c'est la source de toute ma confusion.

Pour le suivi, si la sélection basée sur AIC tombe sous "pas à pas" et est jugée inappropriée, voici d'autres questions:
Si cette approche est fausse, pourquoi est-elle enseignée dans les manuels, les cours universitaires, etc.? Est-ce que tout cela est faux?
Quelles sont les bonnes alternatives pour sélectionner les variables qui doivent rester dans le modèle? J'ai rencontré des recommandations pour utiliser des ensembles de données de validation croisée et de test de formation, et LASSO.
Je pense que tout le monde peut convenir qu'il est problématique de lancer sans discernement toutes les variables possibles dans un modèle, puis de faire une sélection par étapes. Bien sûr, un jugement sensé devrait guider ce qui se passe au départ. Mais que se passe-t-il si nous commençons déjà avec un nombre limité de variables prédictives possibles basées sur certaines connaissances (dites biologiques), et tous ces prédicteurs pourraient bien expliquer notre réponse? Cette approche de la sélection des modèles serait-elle toujours imparfaite? Je reconnais également que la sélection du «meilleur» modèle pourrait ne pas être appropriée si les valeurs AIC entre différents modèles sont très similaires (et l'inférence multimodèle peut être appliquée dans de tels cas). Mais le problème sous-jacent de l'utilisation de la sélection par étapes basée sur AIC est-il toujours problématique?

Si nous cherchons à voir quelles variables semblent expliquer la réponse et de quelle manière, pourquoi cette approche est-elle mauvaise, car nous savons que "tous les modèles sont faux, mais certains sont utiles"?

_{1. Whittingham, MJ, Stephens, PA, Bradbury, RB et Freckleton, RP (2006). Pourquoi utilisons-nous toujours la modélisation pas à pas en écologie et comportement? Journal of Animal Ecology, 75, p. 1182–1189.}

— Tilen
source

AIC et p-value sont trompeurs en utilisant une régression pas à pas! Vous pouvez trouver une explication intuitive ici avec un exemple de régression pas à pas en utilisant AIC ici: metariat.wordpress.com/2016/12/19/…

— Metariat

Pourriez-vous clarifier ce qui n'est pas clair pour vous dans le thème Algorithmes pour la sélection automatique de modèles auquel vous faites référence ...? Il semble qu'il réponde à toutes vos questions, donnant une réponse assez détaillée. Répondre à la question de base: la sélection de modèle par étapes consiste à effectuer une régression avec un certain nombre de prédicteurs puis à en supprimer un à la fois (ou à en ajouter un à la fois) en fonction de certains critères d'amélioration du modèle jusqu'à trouver le «meilleur» modèle.

— Tim

@Tim, excuses pour la réponse retardée. Eh bien non, je ne pense pas que cela réponde à toutes mes questions et plusieurs problèmes restent flous (pour moi). 1), je voulais clarifier la terminologie, car diverses sources utilisent des termes différents, je voulais donc bien comprendre si les termes auxquels je fais référence sont des synonymes ou non. 2) Bien que je puisse comprendre à partir de ce fil que les problèmes sont les mêmes quels que soient les critères utilisés, il y a des incohérences dans la littérature. 3) lors de la lecture d'articles et de livres, il semble y avoir désaccord sur ce qui est approprié et ce qui ne l'est pas (ou quand).

— Tilen

4) une de mes questions était aussi pourquoi alors cela est-il encore enseigné (par des noms apparemment bien informés), si cela est considéré comme faux. J'ai voulu comprendre s'il s'agit d'une chose du passé (mais ne semble pas l'être, étant donné le moment de la publication de certains livres), des différentes écoles de pensée, ou simplement de l'ignorance. 5) Je voulais comprendre si cette approche est erronée même si l'ensemble de départ des variables prédictives candidates est déjà limité. En d'autres termes, mon intérêt personnel est de trouver un meilleur ensemble de prédicteurs, étant donné un ensemble déjà réduit et bien pensé.

— Tilen

En fin de compte, même si le fil sur les algorithmes pour la sélection automatique des modèles était très instructif et utile, il m'a laissé encore beaucoup de questions et de confusion.

— Tilen

Réponses:

1) La raison pour laquelle vous êtes confus est que le terme "pas à pas" est utilisé de manière incohérente. Parfois, cela signifie des procédures assez spécifiques dans lesquelles $p$ -les valeurs des coefficients de régression, calculées de manière ordinaire, sont utilisées pour déterminer quelles covariables sont ajoutées ou supprimées d'un modèle, et ce processus est répété plusieurs fois. Il peut se référer à (a) une variation particulière de cette procédure dans laquelle des variables peuvent être ajoutées ou supprimées à n'importe quelle étape (je pense que c'est ce que SPSS appelle "pas à pas"), ou il peut se référer à (b) cette variation avec d'autres des variations telles que l'ajout ou la suppression de variables uniquement. Plus largement, "pas à pas" peut être utilisé pour désigner (c) toute procédure dans laquelle des fonctions sont ajoutées ou supprimées d'un modèle en fonction d'une valeur calculée chaque fois qu'une fonction (ou un ensemble de fonctions) est ajoutée ou supprimée.

Ces différentes stratégies ont toutes été critiquées pour diverses raisons. Je dirais que la plupart des critiques portent sur (b), l'élément clé de cette critique est que $p$ -les valeurs sont mal équipées pour la sélection des fonctionnalités (les tests de signification ici testent vraiment quelque chose de très différent de "dois-je inclure cette variable dans le modèle?"), et les statisticiens les plus sérieux le déconseillent en toutes circonstances. (c) est plus controversé.

2) Parce que l'enseignement des statistiques est vraiment mauvais. Pour ne donner qu'un exemple: pour autant que je puisse en juger par ma propre formation, il est apparemment considéré comme un élément clé de l'enseignement des statistiques pour les majors en psychologie de dire aux étudiants d'utiliser la correction de Bessel pour obtenir des estimations impartiales du DD de la population. Il est vrai que la correction de Bessel rend l'estimation de la variance non biaisée, mais il est facile de prouver que l'estimation de l'écart-type est toujours biaisée. Mieux encore, la correction de Bessel peut augmenter le MSE de ces estimations.

3) La sélection variable est pratiquement un domaine en soi. La validation croisée et le fractionnement des tests de train sont des moyens d'évaluer un modèle, éventuellement après la sélection des caractéristiques; ils ne proposent pas eux-mêmes les fonctionnalités à utiliser. Le lasso est souvent un bon choix. Il en va de même des meilleurs sous-ensembles.

4) Dans mon esprit, il n'y a toujours aucun sens à utiliser (b), surtout quand vous pourriez faire autre chose à la place (c), comme utiliser AIC. Je n'ai aucune objection à la sélection par étapes basée sur AIC, mais sachez qu'elle sera sensible à l'échantillon (en particulier, à mesure que les échantillons grandissent arbitrairement, AIC, comme le lasso, choisit toujours le modèle le plus complexe), alors ne le faites pas '' t présenter la sélection du modèle elle-même comme s'il s'agissait d'une conclusion généralisable.

Si nous cherchons à voir quelles variables semblent expliquer la réponse et de quelle manière

En fin de compte, si vous voulez regarder les effets de toutes les variables, vous devez inclure toutes les variables, et si votre échantillon est trop petit pour cela, vous avez besoin d'un plus grand échantillon. N'oubliez pas que les hypothèses nulles ne sont jamais vraies dans la vraie vie. Il ne va pas y avoir un tas de variables qui sont associées à un résultat et un tas d'autres variables qui ne le sont pas . Chaque variable sera associée au résultat - les questions sont de savoir dans quelle mesure, dans quelle direction, dans quelles interactions avec d'autres variables, etc.

— Kodiologue
source

Re (4): @gung a 220 votes positifs pour sa critique des procédures pas à pas dans stats.stackexchange.com/questions/20836 , mais je pense qu'une telle critique s'appliquerait aux procédures basées sur AIC de la même manière que pour la valeur de p- ceux basés.

— amoeba

Les points numérotés de @amoeba Frank Harrell semblent s'appliquer principalement à (b) (et son point 9 est un avantage, pas un inconvénient). La description de Gung sur la façon dont la sélection de modèle peut s'adapter est correcte, mais c'est à cela que sert la validation du modèle, et le problème s'applique à tous les scénarios de sélection de modèle

— Kodiologist

Je pense que la réponse de Gung ainsi que les points de Frank cités ici concernent la sélection par étapes sans validation de modèle externe. De toute évidence, si une sélection pas à pas est placée dans une boucle de validation croisée, elle ne pose aucun problème de principe, même si elle est basée sur des valeurs de p. S'il est trop adapté, nous le verrons dans les performances de validation croisée. Des critiques comme "Il donne des valeurs R au carré qui sont fortement biaisées pour être élevées" n'ont de sens que si elles sont effectuées sans validation croisée.

— amoeba

@amoeba, je suppose, mais conformément à ce que j'ai dit dans ma réponse, il semble peu probable que

p

$p$ -les méthodes basées sur la valeur surpasseraient les méthodes basées, par exemple, sur l'AIC. Il n'y a tout simplement aucune motivation mathématique pour eux.

— Kodiologist

@ Kodiologist, merci pour la réponse, c'est très utile. 1) Les commentaires qui ont suivi ont été une révélation pour moi: je n'avais pas réalisé que toute cette discussion dans l'autre fil était basée sur une prémisse de non validation du modèle. J'ai considéré la validation du modèle comme un élément essentiel dans tous les cas, quelle que soit la méthode de sélection des variables. 2) En ce qui concerne le mauvais enseignement, je suis toujours perplexe, car des personnes / universités / livres apparemment bien respectés semblent l'enseigner ou l'utiliser. Par exemple, Zuur et al. 2009 (Modèles d'effets mixtes et extensions en écologie avec R), ainsi que d'autres (Faraway 2005, 2006 si je ne me trompe pas).

— Tilen

En ce qui concerne pas à pas vs AIC

Pas à pas est un terme décrivant la manière dont une séquence de modèles est construite et éventuellement la façon dont un modèle est sélectionné dans la séquence.

Dans la construction du modèle pas à pas , les variables sont ajoutées ou supprimées une par une ou en groupes selon une règle pour définir laquelle des variables doit / doit être ajoutée / supprimée. Ceci est conforme au point (c) de Kodiologist.
Dans la sélection de modèle pas à pas , on compare les modèles voisins dans la séquence et s'arrêtera lorsque le modèle considéré apparaît supérieur à ses deux voisins (le précédent et le suivant). Cela peut être fait en examinant différentes propriétés des modèles, par exemple leurs valeurs AIC, valeurs p, etc.

Pendant ce temps,

L'AIC est une mesure de la qualité relative des modèles statistiques pour un ensemble de données donné. ( Wikipedia )

L'AIC peut être appliqué pour sélectionner un modèle dans un groupe de candidats. Il peut être utilisé comme critère de sélection dans la sélection pas à pas, mais pas seulement.

Ainsi , par étapes et AIC sont deux aspects différents de la sélection de modèles qui peuvent être utilisés ensemble ou séparément, et en fonction de cela et sur d' autres considérations peuvent ou peuvent ne pas être approprié.

— Richard Hardy
source

merci également pour votre réponse utile. Oui, je suis conscient que l'AIC peut être utilisé séparément de pas à pas. Dans mon domaine (biologie) cependant, je suis souvent confronté à plusieurs prédicteurs candidats pour la réponse. Par conséquent, il est souvent impossible de construire un petit ensemble de quelques modèles prédéterminés et de les comparer (sans faire de sélection pas à pas en avant ou en arrière, ou toutes les combinaisons possibles (drague)), même avec les meilleures connaissances biologiques disponibles et une réflexion approfondie. Avez-vous d'autres conseils sur la meilleure façon de procéder dans de tels cas?

— Tilen

@Tilen, L'estimation régularisée est souvent une bonne idée; par exemple un filet élastique ou ses cas particuliers (lasso et faîtage) peuvent être utiles. Les moindres carrés partiels sont une autre façon.

— Richard Hardy

Merci, je vais les examiner. Ces méthodes sont-elles beaucoup plus compliquées, par exemple, à partir de procédures par étapes basées sur AIC, ou sont-elles simplement plus récentes? La raison pour laquelle je demande est de comprendre pourquoi les cours et les livres de modélisation statistique (au moins ceux d'introduction ou de base, mais toujours appliqués) semblent contenir des procédures par étapes (à la fois p-value et AIC), plutôt que les méthodes que vous avez mentionnées.

— Tilen

@Tilen, probablement les deux.

— Richard Hardy

Je vois. Je me demande si vous avez des idées sur une question directement liée mais différente: stats.stackexchange.com/questions/265572/… ?

— Tilen