Approches conflictuelles de la sélection des variables: AIC, valeurs p ou les deux?

D'après ce que je comprends, la sélection de variables basée sur les valeurs de p (au moins dans le contexte de régression) est très imparfaite. Il semble que la sélection de variables basée sur AIC (ou similaire) soit également considérée comme imparfaite par certains, pour des raisons similaires, bien que cela semble un peu flou (par exemple, voir ma question et certains liens sur ce sujet ici: Qu'est - ce exactement que la "sélection de modèle par étapes"? ).

Mais supposons que vous optiez pour l'une de ces deux méthodes pour choisir le meilleur ensemble de prédicteurs dans votre modèle.

Burnham et Anderson 2002 (Sélection de modèles et inférence multimodèle: une approche théorique pratique de l'information, page 83) déclarent qu'il ne faut pas mélanger la sélection des variables basée sur l'AIC avec celle basée sur le test d'hypothèse : "Les tests d'hypothèses nulles et les approches théoriques de l'information devraient ne pas être utilisés ensemble, ce sont des paradigmes d'analyse très différents. "

En revanche, Zuur et al. 2009 (modèles à effets mixtes avec extensions en écologie avec R, page 541) semblent préconiser l'utilisation de l' AIC pour trouver d'abord le modèle optimal, puis effectuer un "réglage fin" à l'aide de tests d'hypothèse : "L'inconvénient est que l'AIC peut être conservateur , et vous devrez peut-être appliquer un réglage fin (en utilisant les tests d'hypothèses obtenus à partir de l'approche 1) une fois que l'AIC aura sélectionné un modèle optimal. "

Vous pouvez voir comment cela laisse le lecteur des deux livres confus quant à l'approche à suivre.

1) S'agit-il simplement de «camps» de pensée statistique différents et d'un sujet de désaccord entre statisticiens? L'une de ces approches est-elle simplement "dépassée" maintenant, mais a-t-elle été jugée appropriée au moment de la rédaction? Ou est-ce simplement faux dès le départ?

2) Y aurait-il un scénario dans lequel cette approche serait appropriée? Par exemple, je viens d'un milieu biologique, où j'essaie souvent de déterminer quelles variables, le cas échéant, semblent affecter ou conduire ma réponse. J'ai souvent un certain nombre de variables explicatives candidates et j'essaie de trouver celles qui sont «importantes» (en termes relatifs). Notez également que l'ensemble des variables candidates prédictives est déjà réduit à celles considérées comme ayant une certaine pertinence biologique, mais cela peut toujours inclure 5 à 20 candidats prédicteurs.

— Tilen
source

Je me demande quel serait l'argument statistique de Zuur pour un réglage fin avec des tests d'hypothèse après la sélection AIC. Cela ne semble pas être une stratégie cohérente de construction de modèles. Mais je n'en sais pas assez sur ces choses.

— Richard Hardy

Mon intuition est que la suggestion de Zuur et al. Est mauvaise (pourquoi utiliseriez-vous des tests de signification pour la sélection de modèles?), Bien que je ne suis pas sûr que la déclaration de Burnham et Anderson soit correcte non plus. C'est une bonne question, mais je devrais lire les détails techniques plus profondément que je ne l'ai lu jusqu'à présent pour y répondre.

— Kodiologist

J'ai utilisé les deux méthodes dans les modèles pour prédire les ventes de panneaux. La régression vers l'arrière basée sur AIC semble donner de meilleurs résultats de mon expérience.

— Souptik Dhar

@SouptikDhar, quand vous dites de "meilleurs" résultats, de quelle façon voulez-vous dire exactement?

— Tilen

Peut-être que la réponse dépend de l'objectif de l'analyse? Dans une étude observationnelle, il pourrait être souhaitable de trouver le modèle le plus parcimonieux compte tenu de l'ensemble de données, s'appuyant ainsi sur la "sélection de variables basée sur l'AIC" par exemple. Cependant, si le but est de mettre une hypothèse à l'épreuve, alors le modèle, étant une traduction de l'hypothèse en termes de proxys adéquats pour les variables d'intérêt pour notre hypothèse, est déjà spécifié dès le début donc il n'y a pas de place pour sélection de variables IMHO?

— Rodolphe

Réponses:

Une réponse courte.

L'approche consistant à effectuer une sélection ou un ajustement du modèle basé sur les données , puis à utiliser des méthodes inférentielles standard sur le modèle sélectionné / réglé (à la Zuur et al. , Et de nombreux autres écologistes respectés tels que Crawley), donnera toujours des résultats trop optimistes : une confiance trop étroite intervalles (couverture médiocre), valeurs de p trop petites (erreur de type I élevée). En effet, les méthodes inférentielles standard supposent que le modèle est spécifié a priori ; ils ne prennent pas en compte le processus de réglage du modèle.

C'est pourquoi des chercheurs comme Frank Harrell ( Regression Modeling Strategies ) désapprouvent fortement les techniques de sélection basées sur les données comme la régression pas à pas, et préviennent qu'il faut faire toute réduction de la complexité du modèle ("réduction de dimension", par exemple en calculant une PCA des variables prédictives). et sélectionner les premiers axes de l'ACP comme prédicteurs) en ne regardant que les variables prédictives.

Si vous êtes intéressé uniquement à trouver le meilleur modèle prédictif (et que vous n'êtes intéressé par aucune sorte d'estimation fiable de l'incertitude de votre prédiction, qui relève du domaine de l'inférence!), Alors le réglage du modèle basé sur les données est correct (bien que la sélection par étapes est rarement la meilleure option disponible); les algorithmes d'apprentissage automatique / d'apprentissage statistique font beaucoup de réglages pour essayer d'obtenir le meilleur modèle prédictif. L'erreur "test" ou "hors échantillon" doit être évaluée sur un échantillon séparé, ou toute méthode de réglage doit être intégrée dans une procédure de validation croisée.

Il semble qu'il y ait eu une évolution historique des opinions sur ce sujet; de nombreux manuels statistiques classiques, en particulier ceux qui se concentrent sur la régression, présentent des approches par étapes suivies de procédures inférentielles standard sans prendre en compte les effets de la sélection du modèle [citation nécessaire ...]

Il existe de nombreuses façons de quantifier l'importance des variables, et toutes ne tombent pas dans le piège de sélection post-variable.

Burnham et Anderson recommandent la somme des poids AIC; il y a pas mal de désaccord sur cette approche.
Vous pouvez adapter le modèle complet (avec des prédicteurs convenablement mis à l'échelle / sans unité) et classer les prédicteurs par magnitude estimée [taille de l'effet biologique] ou score Z [«clarté» / taille de l'effet statistique].

— Ben Bolker
source

Je viens d'un milieu biologique et je suis un biostatisticien engagé, travaillant dans un hôpital universitaire. J'ai lu beaucoup de choses à ce sujet, en particulier récemment, y compris en particulier les opinions de Harrell sur le www, et son livre Regression Modeling Strategies. Je ne le cite plus, mais je parle d'expérience: c'est très lié au domaine, je pense que c'est le premier niveau à prendre en compte. Le deuxième niveau serait d'obtenir une bonne approche rationnelle, ce qui signifie que vos prédicteurs devraient être essentiels pour exprimer ce que vous voulez prédire, par expérience scientifique. La troisième consisterait à prendre en compte les interactions, ce qui est super crucial, et peut être traité par l'approche statistique adoptée ou la perspicacité. Seulement 4ème est la méthode choisie, dans mon cas avec les données hospitalières, qui a assez souvent environ x * 10 ^ 3 points de données et x * 10 ^ 1 observations par exemple

— Nuke
source