Hurleurs causés par l'utilisation de la régression pas à pas


20

Je connais bien les problèmes de sélection pas à pas / avant / arrière dans les modèles de régression. Il existe de nombreux cas de chercheurs dénonçant les méthodes et pointant vers de meilleures alternatives. J'étais curieux de savoir s'il existe des histoires où une analyse statistique existe:

  • a utilisé une régression pas à pas;
  • tiré des conclusions importantes sur la base du modèle final
  • la conclusion était erronée, entraînant des conséquences négatives pour l'individu, sa recherche ou son organisation

Ma pensée à ce sujet si les méthodes par étapes sont mauvaises, alors il devrait y avoir des conséquences dans le "monde réel" pour les utiliser.


2
Si vous ne trouvez pas de telles histoires, c'est peut-être parce que la régression pas à pas est principalement utilisée dans la recherche fondamentale (ou du moins je le perçois). Les chercheurs de base n'ont généralement pas de problèmes pour avoir tort, tant qu'ils n'ont pas falsifié les données ou quelque chose.
Kodiologist

3
Il est beaucoup utilisé dans l'industrie et dans la salle de classe. Dans la recherche, les auteurs ne révéleront probablement pas qu'ils l'ont utilisé. Dans l'industrie, les deux principales raisons sont que a) ceux qui le font n'ont pas été formés à la recherche, par exemple, ont des diplômes de premier cycle ou b) ont obtenu leur diplôme il y a des décennies.
Aksakal

@Aksakal Le fait de ne pas apprendre au départ, mais de toute façon d'avoir une peau de mouton est le problème, et non le temps écoulé. Exemplis gratis , moi. J'ai suivi un cours de statistiques vers 1971 et j'ai d'abord utilisé les statistiques dans une publication vers 2006.
Carl

Réponses:


1

Il y a plus d'une question posée. Le plus étroit demande un exemple de cas où la régression pas à pas a causé un préjudice parce qu'elle a été réalisée pas à pas. Cela est bien sûr vrai, mais ne peut être établi sans équivoque que lorsque les données utilisées pour la régression pas à pas sont également publiées, et que quelqu'un les réanalyse et publie une correction évaluée par les pairs avec une rétraction des auteurs principaux publiée. Porter des accusations dans tout autre contexte risque d'engager une action en justice et, si nous utilisons un ensemble de données différent, nous pourrions soupçonner qu'une erreur a été commise, mais "les statistiques ne prouvent jamais rien" et nous ne serions pas en mesure d'établir qu'une erreur a été commise. fait; "au-delà de tout doute raisonnable".

En fait, on obtient souvent des résultats différents selon que l'on fait une élimination par étapes ou une construction par étapes d'une équation de régression, ce qui nous suggère qu'aucune des deux approches n'est suffisamment correcte pour recommander son utilisation. De toute évidence, quelque chose d'autre se passe, et cela nous amène à une question plus large, également posée ci-dessus, mais sous forme de puce, équivalant à "Quels sont les problèmes avec la régression pas à pas, de toute façon? C'est la question la plus utile pour répondre et a le avantage supplémentaire que je n'aurai pas de poursuite intentée contre moi pour y avoir répondu.

Le faire correctement pour la MLR par étapes, signifie utiliser 1) des unités physiquement correctes (voir ci-dessous), et 2) une transformation de variable appropriée pour les meilleures corrélations et le type de distribution d'erreur (pour l'homoscédasticité et la physicalité), et 3) en utilisant toutes les permutations de combinaisons de variables, non étape par étape, tous , et 4) si l'on effectue des diagnostics de régression exhaustifs, alors on évite de manquer des combinaisons de variables VIF (colinéarité) élevées qui seraient autrement trompeuses, alors la récompense est une meilleure régression.

Comme promis pour # 1 ci-dessus, nous explorons ensuite les unités correctes pour un système physique. Étant donné que les bons résultats de la régression dépendent du traitement correct des variables, nous devons être conscients des dimensions habituelles des unités physiques et équilibrer nos équations de manière appropriée. De plus, pour les applications biologiques, une prise de conscience et une prise en compte de la dimensionnalité de la mise à l'échelle allométrique sont nécessaires.

gFR=kW1/4V2/3gFRW1=1443+23gFR


2
Cela semble décrire un problème de régression en général, plutôt qu'une régression pas à pas en particulier.
Statisticien accidentel

2
Oui, ce sont des aspects de la régression à considérer en général. Si je comprends bien d'où vient la question, elle est motivée par une régression par étapes souvent dénoncée en faveur de l'utilisation de LASSO, ce qui ne répondrait pas aux préoccupations que vous exprimez ici.
Statisticien accidentel

4
J'apprécie votre franchise et votre bonne volonté en la matière, Carl. Je ne nierai pas que le vote a ses problèmes. Le seul moyen efficace que je connaisse pour changer le vote sur un message est de changer la réponse - soit pour l'améliorer techniquement, pour l'étendre, ou pour communiquer les idées différemment - et même alors, il n'y a aucune garantie qu'il obtiendra la réponse souhaitée (ou même n'importe quelle réponse!). Parfois, des efforts respectueux pour comprendre les downvoters susciteront des informations qui aideront tout le monde à apprécier (et à voter) de tels efforts pour améliorer un poste.
whuber

3
@Carl, je pense que si vous recevez régulièrement des downvotes, la première chose à faire est de réfléchir à la manière dont vous pourriez améliorer vos publications (et souvent vous avez des commentaires en dessous qui suggèrent des améliorations). Pour ma part, même lorsque je ne suis pas d'accord avec un intervenant, il s'avère qu'ils soulèvent souvent des problèmes qui conduisent à une meilleure réponse de toute façon. Je dirai que je constate régulièrement des problèmes avec vos réponses qui m'amèneraient presque à le voter moi-même. Lorsque j'ai le temps de le faire, j'essaie de laisser un commentaire.
Glen_b -Reinstate Monica

3
Notez que de nombreux problèmes de régression pas à pas - tels que les problèmes d'estimations biaisées à partir de 0, les erreurs standard biaisées vers 0, les taux d'erreur nominaux de type I beaucoup plus bas que les réels et une variété d'autres problèmes sont toujours présents avec tous les sous-ensembles - - en effet, c'est un problème avec presque toutes les formes d'optimisation (le chapitre 4 des stratégies de modélisation de régression de Frank Harrell est une référence utile). Le retrait / régularisation peut atténuer certains de ces problèmes (en particulier la tendance de la sélection à biaiser les estimations vers l'extérieur) et l'évaluation hors échantillon est un outil important pour beaucoup d'entre eux.
Glen_b -Reinstate Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.