Je ne sais pas à quoi appartient cette question: Cross Validated ou The Workplace. Mais ma question est vaguement liée aux statistiques.
Cette question (ou je suppose que des questions) a surgi pendant mon travail en tant que "stagiaire en science des données". Je construisais ce modèle de régression linéaire et examinais le tracé résiduel. J'ai vu un signe clair d'hétéroskédasticité. Je me souviens que l'hétéroscédasticité déforme de nombreuses statistiques de test telles que l'intervalle de confiance et le test t. J'ai donc utilisé le moins carré pondéré, en suivant ce que j'ai appris à l'université. Mon manager l'a vu et m'a conseillé de ne pas le faire car "je compliquais les choses", ce qui n'était pas du tout une raison très convaincante pour moi.
Un autre exemple serait de "supprimer une variable explicative car sa valeur de p est insignifiante". Pour être, ce conseil n'a tout simplement pas de sens d'un point de vue logique. D'après ce que j'ai appris, une valeur de p insignifiante pourrait être due à différentes raisons: hasard, utilisation du mauvais modèle, violation des hypothèses, etc.
Un autre exemple encore est que j'ai utilisé la validation croisée k-fold pour évaluer mon modèle. D'après le résultat, est bien meilleur que C V m o d e l 2 . Mais nous avons un R 2 inférieur pour le modèle 1, et la raison a quelque chose à voir avec l'interception . Mon superviseur, cependant, semble préférer le modèle 2 car il a un R 2 plus élevé . Ses raisons (telles que est robuste, ou la validation croisée est une approche d'apprentissage automatique, pas une approche statistique) ne semble tout simplement pas suffisamment convaincante pour changer d'avis.
En tant que quelqu'un qui vient de terminer ses études collégiales, je suis très confus. Je suis très passionné par l'application de statistiques correctes pour résoudre des problèmes du monde réel, mais je ne sais pas lequel des énoncés suivants est vrai:
- Les statistiques que j'ai apprises par moi-même sont fausses, donc je fais juste des erreurs.
- Il existe une énorme différence entre les statistiques théoriques et les modèles de construction dans les entreprises. Et bien que la théorie statistique soit juste, les gens ne la suivent tout simplement pas.
- Le gestionnaire n'utilise pas correctement les statistiques.
Mise à jour du 17/04/2017: J'ai décidé de poursuivre un doctorat. en statistiques. Merci à tous pour votre réponse.