Quand pouvez-vous utiliser des critères basés sur des données pour spécifier un modèle de régression?

20

J'ai entendu dire que lorsque de nombreuses spécifications de modèle de régression (par exemple, dans OLS) sont considérées comme des possibilités pour un ensemble de données, cela pose de multiples problèmes de comparaison et les valeurs de p et les intervalles de confiance ne sont plus fiables. Un exemple extrême de ceci est la régression pas à pas.

Quand puis-je utiliser les données elles-mêmes pour aider à spécifier le modèle, et quand n'est-ce pas une approche valide? Avez-vous toujours besoin d'une théorie basée sur le sujet pour former le modèle?

regression frequentist multiple-comparisons

— Statisfactions
source

9

Les techniques de sélection variables, en général (par étapes, en arrière, en avant, tous les sous-ensembles, AIC, etc.), tirent parti des modèles aléatoires ou aléatoires dans les données d'échantillon qui n'existent pas dans la population. Le terme technique pour cela est trop adapté et il est particulièrement problématique avec les petits ensembles de données, bien qu'il ne leur soit pas exclusif. En utilisant une procédure qui sélectionne les variables en fonction du meilleur ajustement, toute la variation aléatoire qui ressemble à l'ajustement dans cet échantillon particulier contribue aux estimations et aux erreurs types. C'est un problème à la fois pour la prédiction et l'interprétation du modèle.

Plus précisément, le carré r est trop élevé et les estimations des paramètres sont biaisées (elles sont trop éloignées de 0), les erreurs standard pour les paramètres sont trop petites (et donc les valeurs de p et les intervalles autour des paramètres sont trop petits / étroits).

La meilleure ligne de défense contre ces problèmes est de construire des modèles de manière réfléchie et d'inclure les prédicteurs qui ont du sens sur la base de la théorie, de la logique et des connaissances antérieures. Si une procédure de sélection des variables est nécessaire, vous devez sélectionner une méthode qui pénalise les estimations des paramètres (méthodes de retrait) en ajustant les paramètres et les erreurs standard pour tenir compte du sur-ajustement. Certaines méthodes de retrait courantes sont la régression de crête, la régression du moindre angle ou le lasso. De plus, la validation croisée à l'aide d'un ensemble de données d'apprentissage et d'un ensemble de données de test ou de la moyenne du modèle peut être utile pour tester ou réduire les effets du sur-ajustement.

Harrell est une excellente source pour une discussion détaillée de ces problèmes. Harrell (2001). «Stratégies de modélisation de la régression».

— Brett
source

Accepter, longtemps après! Merci pour cet aperçu détaillé des problèmes techniques, et je vais jeter un œil au livre de Harrell.

— Statisfactions

7

Dans le contexte des sciences sociales d'où je viens, la question est de savoir si vous êtes intéressé par (a) la prédiction ou (b) tester une question de recherche ciblée. Si le but est la prédiction, des approches basées sur les données sont appropriées. Si le but est d'examiner une question de recherche ciblée, il est important de considérer quel modèle de régression teste spécifiquement votre question.

Par exemple, si votre tâche consistait à sélectionner un ensemble de tests de sélection pour prédire le rendement au travail, l'objectif peut dans un certain sens être considéré comme l'un de maximiser la prédiction du rendement au travail. Ainsi, des approches basées sur les données seraient utiles.

En revanche, si vous vouliez comprendre le rôle relatif des variables de personnalité et des variables de capacité dans l'influence sur les performances, une approche de comparaison de modèle spécifique pourrait être plus appropriée.

Généralement, lors de l'exploration de questions de recherche ciblées, le but est d'élucider quelque chose sur les processus causaux sous-jacents qui fonctionnent plutôt que de développer un modèle avec une prédiction optimale.

Lorsque je suis en train de développer des modèles de processus basés sur des données transversales, je me méfierais: (a) d'inclure des prédicteurs qui pourraient théoriquement être considérés comme des conséquences de la variable de résultat. Par exemple, la croyance d'une personne qu'elle est un bon interprète est un bon prédicteur de la performance au travail, mais il est probable que cela soit au moins partiellement dû au fait qu'elle a observé sa propre performance. (b) comprenant un grand nombre de prédicteurs qui reflètent tous les mêmes phénomènes sous-jacents. Par exemple, comprenant 20 articles mesurant tous la satisfaction à l'égard de la vie de différentes manières.

Ainsi, les questions de recherche ciblées reposent beaucoup plus sur des connaissances spécifiques au domaine. Cela explique probablement en partie pourquoi les approches fondées sur les données sont moins souvent utilisées en sciences sociales.

— Jeromy Anglim
source

4

Je ne pense pas qu'il soit possible de faire Bonferoni ou des corrections similaires pour ajuster la sélection des variables en régression car tous les tests et étapes impliqués dans la sélection des modèles ne sont pas indépendants.

Une approche consiste à formuler le modèle en utilisant un seul ensemble de données et à faire des inférences sur un autre ensemble de données. Cela se fait en prévoyant tout le temps où nous avons un ensemble de formation et un ensemble de test. Elle n'est pas très courante dans d'autres domaines, probablement parce que les données sont si précieuses que nous voulons utiliser chaque observation pour la sélection du modèle et pour l'inférence. Cependant, comme vous le notez dans votre question, l'inconvénient est que l'inférence est en fait trompeuse.

Il existe de nombreuses situations où une approche fondée sur la théorie est impossible car il n'y a pas de théorie bien développée. En fait, je pense que c'est beaucoup plus courant que les cas où la théorie suggère un modèle.

— Rob Hyndman
source

4

Richard Berk a un article récent où il démontre, par simulation, les problèmes de l'espionnage de données et de l'inférence statistique. Comme Rob l'a suggéré, il est plus problématique que de simplement corriger plusieurs tests d'hypothèse.

Inférence statistique après la sélection du modèle par: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, Vol. 26, no 2. (1er juin 2010), p. 217-236.

Version PDF ici

— Andy W
source

(+1) Merci pour le lien! Vous pouvez être intéressé par cette question connexe, stats.stackexchange.com/questions/3200/… . N'hésitez pas à contribuer.

— chl

@chl, je ne pense pas pouvoir ajouter quoi que ce soit aux excellentes réponses à cette question. Je pense réellement que la réponse de Brendan est très poignante car je soupçonne que l'affiche originale s'intéresse vraiment à l'inférence causale et pas seulement à la prédiction basée sur le contexte de la question.

— Andy W

Oui, je pensais à sa réponse. J'ai initié une réflexion sur le problème du dragage de données (pas exactement sur les problèmes de sélection de modèle / variable ou d'inférence causale), mais jusqu'à présent, je reçois peu de réponses. Si vous souhaitez ajouter vos propres idées, ce serait intéressant: stats.stackexchange.com/questions/3252/…

— chl

2

Si je comprends bien votre question, la réponse à votre problème est de corriger les valeurs de p en fonction du nombre d'hypothèses.

Par exemple, les corrections Holm-Bonferoni, où vous triez l'hypothèse (= vos différents modèles) par leur valeur p et rejetez celles avec un samller supérieur à (valeur p / indice souhaité).

Plus d'informations sur le sujet peuvent être trouvées sur Wikipedia

— Peter Smit
source

1

Vous voudrez peut-être lire cette réponse à une question distincte et voir pourquoi l'ajustement des valeurs de p de cette manière peut ne pas être la meilleure solution, stats.stackexchange.com/questions/3200/…

— Andy W