Quels sont les péchés statistiques communs?


227

Je suis un étudiant diplômé en psychologie et, au fur et à mesure que je poursuis mes études indépendantes en statistique, je suis de plus en plus émerveillé par l'insuffisance de ma formation. Les expériences personnelles et de seconde main suggèrent que le manque de rigueur statistique dans la formation de premier et deuxième cycles est plutôt omniprésent en psychologie. En tant que tel, j’ai pensé qu’il serait utile pour les apprenants indépendants comme moi de dresser une liste de "péchés statistiques", en faisant la synthèse des pratiques statistiques enseignées aux étudiants des cycles supérieurs en tant que pratiques standard qui sont en fait remplacées par des méthodes supérieures (plus puissantes, ou flexibles, ou robustes, etc.) ou démontrés comme étant carrément invalides. Prévoyant que d'autres domaines pourraient également connaître une situation similaire, je propose un wiki de communauté sur lequel nous pouvons collecter une liste de péchés statistiques dans différentes disciplines.


5
Je suis conscient que le "péché" est peut-être inflammatoire et que certains aspects de l'analyse statistique ne sont pas en noir et blanc. Mon intention est de solliciter des cas où une pratique donnée communément enseignée est assez clairement inappropriée.
Mike Lawrence

5
Vous pouvez également ajouter des étudiants en biologie / sciences de la vie au mélange si vous le souhaitez;)
nico

1
Peut-être rebaptiser-t-il les péchés statistiques des sciences de la vie? ... ou autre chose de plus spécifique ...
John

1
@whuber Il y avait de bonnes réponses, alors je les ai fusionnées.

1
Bonjour @ Amanda, pourriez-vous donner quelques indications sur le contenu de la conversation? Personne n'aime la possibilité d'être roulé.
naught101

Réponses:



115

La plupart des interprétations des valeurs p sont des péchés! L'utilisation conventionnelle de p-values ​​est gravement défectueuse; un fait qui, à mon avis, remet en question les approches classiques de l’enseignement des tests d’hypothèses et des tests de signification.

Haller et Krause ont constaté que les professeurs de statistiques sont presque aussi susceptibles que les étudiants d'interpréter de manière erronée les valeurs p. (Faites le test dans leur document et voyez comment vous vous en tirerez.) Steve Goodman plaide bien en faveur du rejet de l'utilisation (erronée) conventionnelle de la valeur p en faveur des probabilités. Le papier Hubbard vaut également le détour.

Haller et Krauss. Mauvaise interprétation de l'importance: problème que les élèves partagent avec leurs enseignants . Methods of Psychological Research (2002), vol. 7 (1) pp. 1-20 ( PDF )

Hubbard et Bayarri. Confusion sur les mesures des preuves (p) par rapport aux erreurs (α) dans les tests statistiques classiques . Le statisticien américain (2003), vol. 57 (3)

Homme bon. Vers des statistiques médicales fondées sur des preuves. 1: L'erreur fallacieuse. Ann Intern Med (1999), vol. 130 (12) pages 995-1004 ( PDF )

Regarde aussi:

Wagenmakers, EJ. Une solution pratique aux problèmes omniprésents des valeurs p. Psychonomic Bulletin & Review, 14 (5), 779-804.

pour certains cas bien précis où même l'interprétation nominalement "correcte" d'une valeur p a été rendue incorrecte en raison des choix faits par l'expérimentateur.

Mise à jour (2016) : en 2016, l'American Statistical Association a publié une déclaration sur les valeurs p, voir ici . C'était en quelque sorte une réponse à "l'interdiction des valeurs p" publiée par un journal de psychologie environ un an plus tôt.


2
@Michael (+1) J'ai ajouté des liens vers des résumés et des PDF non agrégés. J'espère que ça ne vous dérange pas.
chl

7
+1, mais je voudrais faire quelques commentaires critiques. En ce qui concerne la première ligne, on pourrait tout aussi bien dire que "presque toutes" (au sens théorique de la mesure) les interprétations de tout concept bien défini sont incorrectes, car une seule est correcte. Deuxièmement, à quoi faites-vous référence lorsque vous parlez d '"utilisation conventionnelle" et d' "approches standard"? Ces références vagues sonnent comme un homme de paille. Ils ne concordent pas avec ce que l’on peut trouver dans la littérature sur l’éducation statistique, par exemple.
whuber

4
@Whuber Jetez un coup d'œil au papier de Goodman. Cela correspond assez bien à mon expérience dans le domaine de la pharmacologie. Les méthodes disent "Les résultats où p <0,05 ont été considérés comme statistiquement significatifs", puis les résultats sont présentés avec + pour p <0,05, ++ pour p <0,01 et +++ pour p <0,0001. La déclaration implique le contrôle des taux d'erreur à la Neyman et à Pearson, mais l'utilisation de différents niveaux de p suggère l'approche de Fisher où la valeur p est un indice de la force de la preuve par rapport à l'hypothèse nulle. Comme le souligne Goodman, vous ne pouvez pas contrôler simultanément les taux d'erreur et évaluer la force de la preuve.
Michael Lew

8
@Michael Il existe des interprétations alternatives, plus généreuses, de ce type de reportage. Par exemple, l'auteur peut être conscient du fait que les lecteurs peuvent vouloir appliquer leurs propres seuils de signification et par conséquent marquer les valeurs p pour les aider. Autrement, l’auteur pourrait être au courant des problèmes de comparaisons multiples possibles et utiliser les niveaux différents dans un ajustement de type Bonferroni. Peut-être qu'une partie de la responsabilité de l'utilisation abusive des valeurs p devrait être laissée aux pieds du lecteur, pas de l'auteur.
whuber

4
@Whuber Je suis tout à fait d'accord, mais seulement que ce que vous suggérez est vrai dans une petite fraction des cas (version restreinte de "entièrement"). Certains journaux spécifient que les valeurs p doivent être rapportées à un, deux ou trois niveaux d'étoiles plutôt que des valeurs exactes, de sorte que ces journaux partagent une partie de la responsabilité du résultat. Cependant, cette exigence inconsidérée et l'utilisation apparemment naïve des valeurs p pourraient résulter de l'absence d'explication claire des différences entre les taux d'erreur et les éléments de preuve dans les divers textes d'introduction aux statistiques qui se trouvent sur mes tablettes.
Michael Lew

73

Le piège le plus dangereux que j'ai rencontré lors de l'élaboration d'un modèle prédictif est de ne pas réserver tôt un jeu de données de test afin de le dédier à l'évaluation "finale" des performances.

Il est très facile de surestimer la précision prédictive de votre modèle si vous avez une chance d'utiliser les données de test lors du réglage des paramètres, de la sélection préalable, du critère d'arrêt de l'algorithme d'apprentissage ...

Pour éviter ce problème, avant de commencer votre travail sur un nouvel ensemble de données, vous devez fractionner vos données comme suit:

  • ensemble de développement
  • ensemble d'évaluation

Divisez ensuite votre ensemble de développement en "ensemble de développement de formation" et "ensemble de développement de test", dans lesquels vous utiliserez le kit de développement de formation pour former divers modèles avec différents paramètres et sélectionner les meilleurs résultats en fonction de leurs performances sur l'ensemble de développement de test. Vous pouvez également effectuer une recherche sur la grille avec validation croisée, mais uniquement sur le jeu de développement. Ne jamais utiliser l'ensemble d'évaluation tant que la sélection du modèle n'est pas effectuée à 100%.

Une fois que vous êtes sûr de la sélection du modèle et des paramètres, effectuez une validation croisée de 10 plis sur l'ensemble d'évaluation pour avoir une idée de la précision "réelle" de la précision du modèle sélectionné.

De plus, si vos données sont temporelles, il est préférable de choisir la division développement / évaluation sur un code temporel: "Il est difficile de faire des prédictions - en particulier pour l'avenir."


5
Je suis d'accord avec cela en principe mais dans le cas d'un petit ensemble de données (je n'ai souvent que 20 à 40 cas), l'utilisation d'un ensemble d'évaluation séparé n'est pas pratique. La validation croisée imbriquée peut contourner ce
problème,

11
En général, il faut un énorme ensemble de données pour que le fractionnement des données soit fiable. C'est pourquoi une validation interne stricte avec le bootstrap est si attrayante.
Frank Harrell

Surtout lorsque l'ensemble de développement est constitué de données antérieures et que l'évaluation définit de futures données. Pourquoi ne pas, après tout ajustement du modèle, former le modèle final avec ses paramètres fixes sur l'ensemble du développement et prédire l'ensemble de l'évaluation avec celui-ci. Dans un scénario réel, vous ne pourriez de toute façon pas effectuer de validation croisée dans les données futures de la manière que vous décrivez, vous utiliseriez donc toutes les données antérieures pertinentes.
David Ernst

64

Signaler les valeurs p lorsque vous avez exploré des données (découverte d'hypothèses) au lieu de statistiques (tests d'hypothèses).


2
Pouvez-vous (ou quelqu'un) élaborer?
antoine-sac


Qu'en est-il des valeurs p corrigées pour les tests d'hypothèses multiples (avec un peu de la méthode de Bonferroni ou une correction plus avancée)? J'aurais tendance à penser que tout va bien, même dans le contexte de l'exploration de données?
antoine-sac

J'aime l'idée générale, mais comparer les statistiques aux tests d'hypothèses est une distorsion lorsque le dernier est un sous-ensemble du premier.
rolando2

46

Tester les hypothèses versus H 1 : μ 0 (par exemple en gaussien)H0:μ=0H1:μ0

justifier que dans un modèle (c'est-à-dire que le mélange " H 0 n'est pas rejeté" et " H 0 est vrai").μ=0H0H0

Un très bon exemple de ce type de (très mauvais) raisonnement consiste à vérifier si les variances de deux Gaussiennes sont égales (ou non) avant de tester si leur moyenne est égale ou non avec l'hypothèse d'une variance égale.

Un autre exemple se produit lorsque vous testez la normalité (par rapport à la non normalité) pour justifier la normalité. Chaque statisticien a fait cela dans sa vie? c'est baaad :) (et devrait pousser les gens à vérifier la robustesse à la non gaussianité)


6
La même logique (prenant "absence de preuve en faveur de H1" comme "preuve de l'absence de H1") est à la base de tous les tests de validité de l'ajustement. Le raisonnement survient aussi souvent lorsque les gens disent "le test était non significatif, on peut donc en conclure qu'il n'y a pas d'effet du facteur X / pas d'influence de la variable Y". Je suppose que le péché est moins grave s’il est accompagné d’un raisonnement sur la puissance du test (par exemple, estimation a priori de la taille de l’échantillon pour atteindre une certaine puissance compte tenu d’une certaine taille d’effet pertinente).
Caracal

Si vous ne vous inquiétez pas du pouvoir, je dirais que clamer est vrai quand il n'est pas rejeté est très très mauvais alors que clamer est vrai alors que est rejeté est juste un peu faux :). H 1 H 0H0H1H0
robin girard

Génial!! Oui, cela me rend fou ..
jpillow

3
J'essaie d'être alphabète sur le plan statistique et j'adore toujours celui-ci de temps en temps. Quelles sont les alternatives? Changez votre modèle pour que l'ancien null devienne ? La seule autre option à laquelle je peux penser est d’alimenter suffisamment votre étude pour qu’un échec du rejet de la valeur null soit en pratique suffisamment proche pour confirmer cette valeur. Par exemple, si vous voulez vous assurer que l'ajout d'un réactif à vos cellules n'en éliminera pas plus de 2%, vous obtiendrez un taux de faux négatifs satisfaisant. H1
DocBuckets

Le test d'équivalence @DocBuckets avec deux tests unilatéraux est plus rigoureux que l'approche basée sur la puissance. Mais vous devez définir une taille d'effet minimale pertinente en dessous de laquelle vous pouvez parler d'équivalence pratique.
David Ernst

46

Quelques erreurs qui me dérangent:

  1. En supposant que les estimateurs non biaisés soient toujours meilleurs que les estimateurs biaisés.

  2. En supposant qu'un élevé implique un bon modèle, un inférieur implique un mauvais modèle.R 2R2R2

  3. Interprétation / application incorrecte de la corrélation.

  4. Rapport des estimations ponctuelles sans erreur type.

  5. Utilisation de méthodes qui supposent une sorte de normalité multivariée (telle que l’analyse discriminante linéaire) lorsque des méthodes plus robustes, plus performantes et non / semi-paramétriques sont disponibles.

  6. Utilisation de la valeur p comme mesure de la force entre un prédicteur et la réponse, plutôt que comme mesure du nombre de preuves d’ une relation.


5
Souhaitez-vous les séparer en différentes options?
russellpierce

41

Dichotomisation d'une variable prédictive continue pour "simplifier" l'analyse ou pour résoudre le "problème" de non-linéarité de l'effet du prédicteur continu.


18
Je ne pense pas que ce soit vraiment un "péché" car les résultats obtenus ne sont pas faux. Cependant, il jette beaucoup d'informations utiles et n'est donc pas une bonne pratique.
Rob Hyndman

2
Dans cet ordre d'idées, l'utilisation de groupes de facteurs extrêmes surestime la taille des effets, tandis que l'utilisation d'une taille moyenne ou médiane divise les tailles d'effet.
russellpierce

2
Ce n'est même pas un péché s'il y a deux ou plusieurs populations distinctes. Supposons que vous ayez des classes ou des sous-populations séparables, il peut alors être judicieux de discrétiser. Un exemple très trivial: est-ce que je préférerais utiliser des indicateurs de site / lieu / ville / pays ou lat / long?
Itérateur

3
+1 et cela devient un grave péché quand ils commencent à choisir le seuil de dichotomisation de manière à optimiser une différence qui est ensuite testée.
Erik

5
@Iterator, vous commencez à comprendre la véritable raison de l'agrégation (en deux catégories ou plus), car vous avez des raisons a priori théoriques de croire que la variance est compartimentée de manière significative dans ces catégories . Par exemple, nous le faisons tout le temps en supposant que les collections d'environ un billion de cellules comprennent un individu , ou qu'une période contiguë de 24 heures ici sur Terre est interprétée de manière significative comme une unité. Mais une agrégation arbitraire ne "jette" pas simplement des informations (par exemple, un pouvoir statistique), mais peut conduire à des biais (graves) concernant les relations entre les phénomènes.
Alexis

41

Pas vraiment répondre à la question, mais il y a un livre entier sur ce sujet:

Phillip I. Good, James William Hardin (2003). Erreurs courantes dans les statistiques (et comment les éviter). Wiley. ISBN 9780471460688


6
Je me suis assuré de lire ce livre peu de temps après sa publication. J'ai beaucoup d'occasions de faire des erreurs statistiques, je suis donc toujours reconnaissant de les signaler avant de les commettre!
whuber


41

Statistiques ritualisées.

Ce "péché" se produit lorsque vous appliquez tout ce qui vous a été enseigné, quelle que soit sa pertinence, car c'est ainsi que les choses se font. Ce sont des statistiques par cœur, un niveau au-dessus, permettant à la machine de choisir vos statistiques pour vous.

Exemples: les étudiants de niveau statistique essayant de tout adapter à leur modeste test t et ANOVA, ou chaque fois que l’on se retrouve "Oh, j’ai des données catégoriques, je devrais utiliser X" sans jamais arrêter de regarder les données, ou considérez la question posée.

Une variante de ce péché implique l'utilisation d'un code que vous ne comprenez pas pour produire une sortie que vous comprenez seulement, mais que vous connaissez "la cinquième colonne, environ 8 lignes vers le bas" ou la réponse que vous êtes censé rechercher.


6
Malheureusement, si vous n'êtes pas intéressé par l'inférence statistique, ou si vous manquez de temps et / ou de ressources, le rituel semble très attrayant ...
probabilitéislogic

Pour moi, Epigrad décrit quelqu'un qui se soucie excessivement de l'inférence et néglige des choses telles que la réflexion, la découverte et la considération de la causalité.
rolando2

35

Peut-être une régression pas à pas et d’autres formes de test après la sélection du modèle.

La sélection de variables indépendantes pour la modélisation sans aucune hypothèse a priori derrière les relations existantes peut conduire à des erreurs logiques ou à des corrélations fallacieuses, entre autres erreurs.

Références utiles (du point de vue biologique / biostatistique):

  1. Kozak, M. et Azevedo, R. (2011). L'utilisation de la sélection de variables par étapes pour créer des modèles d'analyse de chemin séquentiel est-elle utile? Physiologia plantarum, 141 (3), 197-200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB et Freckleton, RP (2006). Pourquoi utilisons-nous toujours la modélisation par étapes en écologie et en comportement? The Journal of animal ecology, 75 (5), 1182-189. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Stratégies de modélisation de régression , Springer 2001.


32

Une chose qui me surprend dans les documents de conférence et même dans les journaux est de faire de multiples comparaisons (par exemple des corrélations bivariées) puis de rapporter tous les p <0,05 comme "significatifs" (en ignorant le bien ou le mal de cela pour le moment).

Je sais aussi ce que vous voulez dire à propos des diplômés en psychologie - j'ai terminé un doctorat en psychologie et je suis encore en train d'apprendre vraiment. C'est assez mauvais, je pense que la psychologie doit prendre plus au sérieux l'analyse de données quantitatives si nous allons l'utiliser (ce qui, clairement, devrait l'être)


9
Ceci est particulièrement important. Je me souviens d'avoir lu une étude sur le ramadan pour les bébés dont la mère était à jeun. Cela semblait plausible (moins de nourriture, moins de poids à la naissance), mais j'ai ensuite regardé l'annexe. Des milliers d'hypothèses, et quelques pour cent d'entre elles, se situaient dans la plage "significative". Vous obtenez des "conclusions" bizarres du type "c'est mauvais pour l'enfant si Ramadan est le deuxième, le quatrième ou le sixième mois".
Carlos le

29

Être exploratoire mais prétendre être confirmatoire. Cela peut se produire lorsque l’on modifie la stratégie d’analyse (ajustement du modèle, sélection de variable, etc.) en fonction des données ou des résultats, mais sans le déclarer ouvertement et en ne rapportant que les "meilleurs" résultats (c.-à-d. Avec les plus petites valeurs p) comme si c'était la seule analyse. Cela concerne également le point si plusieurs tests ont été effectués par Chris Beeley et conduit à un taux de faux positifs élevé dans les rapports scientifiques.


26

Ce que je vois assez souvent et qui me dérange toujours, c’est l’hypothèse qu’un effet principal statistiquement significatif dans un groupe et un effet principal non statistiquement significatif dans un autre groupe impliquent une interaction effet x groupe significative.


24

Surtout en épidémiologie et en santé publique - utiliser l’arithmétique au lieu de l’échelle logarithmique pour rapporter des graphiques de mesures d’association relatives (ratio de risque, odds ratio ou ratio de risque).

Plus d'informations ici .


5
Sans parler de ne pas les étiqueter tout xkcd.com/833
radek

23

La corrélation implique une causalité, ce qui n’est pas aussi grave que d’accepter l’hypothèse nulle.


mais parfois ... parfois les directions potentielles de causalité ont des probabilités très disparates. Je ne vais certainement pas penser qu'une corrélation entre l'âge et la taille pourrait être causée par la taille ... ou par une variable intermédiaire non plus. De plus, je pense que la formation en sciences du comportement y est généralement très sensible.
Jean

en effet, en déduisant quelque chose d' A and B are correlatedordinaire seulement voir A causes Bmais pas B causes A... (et oublier Cquelles causes Aet B)
Andre Holzner

12
google gagne 65 milliards de dollars par an sans se soucier de la différence ...
Neil McGuigan

5
Je suis d'accord avec vos points et ils sont tous valables. Mais le profit de Google implique-t-il: corrélation => causalité?
suncoolsu

3
Google gagne tout cet argent sans se soucier de la causalité. En effet, pourquoi le ferait-il? La prédiction est la chose ...
conjugateprior

23

Analyse des données de débit (précision, etc.) à l'aide d'une ANOVA, en supposant que les données de débit présentent une erreur distribuée gaussienne alors qu'elles sont effectivement distribuées de manière binomiale. Dixon (2008) analyse les conséquences de ce péché et explore des approches d'analyse plus appropriées.


4
Combien cela diminue-t-il la puissance de l'analyse? Dans quelles conditions est-ce le plus problématique? Dans de nombreux cas, les écarts par rapport aux hypothèses de l’ANOVA n’affectent pas de manière substantielle les résultats.
Michael Lew

Quelle est l'alternative à la procédure ANOVA?
Henrik

@Michael Lew & Henrik: Je viens de mettre à jour cette entrée pour inclure un lien vers Dixon (2008)
Mike Lawrence

2
En bref, il est particulièrement problématique que les probabilités observées soient faibles ou élevées, dans la mesure où la plage de valeurs est réduite et incapable de respecter les hypothèses gaussiennes.
russellpierce

C’est aussi grave que l’approximation normale du binôme - cela devrait aller, à condition que chaque cas soit pondéré par le dénominateur utilisé dans le calcul du taux. On s’attendrait à ce que son rendement soit médiocre pour des taux inférieurs à 10% et supérieurs à 90%.
probabilitéislogique

18

Un exemple courant consiste à tracer des intervalles de confiance de 95% autour des valeurs de performance brutes dans les conceptions à mesures répétées, lorsqu'elles ne concernent que la variance d'un effet. Par exemple, une représentation graphique des temps de réaction dans un plan de mesures répétées avec des intervalles de confiance où le terme d'erreur est dérivé de la MSE d'une ANOVA à mesures répétées. Ces intervalles de confiance ne représentent rien de raisonnable. Ils ne représentent certainement rien du temps de réaction absolu. Vous pouvez utiliser le terme d'erreur pour générer des intervalles de confiance autour de l'effet, mais cela est rarement fait.


Existe-t-il un article standard qui peut être cité pour dissuader les relecteurs d’exiger cette pratique trop courante?
russellpierce

La seule critique que je connaisse est Blouin & Riopelle (2005), mais ils ne vont pas au fond des choses. En général, je n'insiste pas pour ne pas les montrer, mais pour faire quelque chose de correct, comme dans les graphiques d'effets de Masson & Loftus (2003, voir figure 4, panneau de droite ... s'ils avaient été supprimés du graphique de gauche, vous l'auriez bien fait. ).
Jean

Pour être clair, le problème avec ces CI est qu’ils sont utilisés uniquement pour des raisons inférentielles en ce qui concerne les différences entre les conditions et sont donc pires même que les PLSD ... en fait, je les préfère. Au moins ils sont honnêtes.
Jean

17

Même si je peux comprendre une bonne partie de ce que dit Michael Lew, abandonner les valeurs p au profit des ratios de vraisemblance omet toujours un problème plus général - celui de mettre trop l’accent sur les résultats probabilistes plutôt que sur la taille des effets, qui sont nécessaires pour donner une signification réelle au résultat. Ce type d’erreur se présente sous toutes les formes et tailles et j’estime qu’il s’agit de l’erreur statistique la plus insidieuse. S'inspirant de J. Cohen, M. Oakes et d'autres, j'ai écrit un article à ce sujet sur http://integrativestatistics.com/insidious.htm .


3
En fait, je ne vois pas vraiment comment un rapport de vraisemblance (RL) n'atteint pas tout ce qu'une taille d'effet permet d'obtenir, tout en utilisant une échelle facilement interprétable (les données contiennent X fois plus de preuves pour Y que pour Z). Une taille d'effet est généralement juste une forme de ratio de la variabilité expliquée à la variabilité inexpliquée, et (dans le cas imbriqué), le RC est le ratio de la variabilité inexpliquée entre un modèle qui a un effet et un qui ne l'est pas. Ne devrait-il pas au moins exister une forte corrélation entre la taille de l'effet et la LR, et si oui, que perd-on en passant à l'échelle du rapport de vraisemblance?
Mike Lawrence

Mike - Vous m'avez intéressé, mais vos points vont-ils jusqu'à des tailles d'effet aussi simples que des différences moyennes entre les groupes? Ceux-ci peuvent être facilement interprétés par un profane et peuvent également se voir attribuer des intervalles de confiance.
rolando2

Ah, donc, par taille d'effet, vous entendez la taille d'effet absolue, une valeur qui n'a pas de sens en soi, mais cela peut être rendu significatif en le transformant en taille d'effet relative (en divisant par une mesure de la variabilité, comme je l'ai mentionné), ou en calculant un intervalle de confiance pour la taille de l'effet absolu. L'argument présenté ci-dessus concerne le bien-fondé des LR par rapport aux tailles d'effet relatives. Il peut être utile de calculer les CI d'effet dans les cas où la valeur réelle de l'effet est intéressante (par exemple, une prédiction), mais je reste néanmoins convaincu que la LR est une échelle plus intuitive pour parler des preuves pour / contre les effets.
Mike Lawrence

Je suppose que l’utilisation des rapports de corrélation par rapport aux indicateurs variables variera probablement en fonction du contexte, ce qui peut être utilement résumé: Des étapes plus exploratoires de la science, dans lesquelles les théories sont caractérisées en gros par l’existence ou l’absence de phénomènes, peuvent préférer les rapports de quantification. D'un autre côté, les IC peuvent être préférés aux stades plus avancés de la science, où les théories sont suffisamment raffinées pour permettre une prédiction nuancée comprenant des fourchettes d'effets attendus ou, inversement, lorsque des fourchettes d'amplitudes d'effet différentes appuient différentes théories. Enfin, les prédictions générées à partir de tout modèle nécessitent des CI.
Mike Lawrence

0|β|=1|β|>1|β|1β=0β0

15

Ne pas tester l'hypothèse selon laquelle l'erreur est normalement distribuée et présente une variance constante entre les traitements. Ces hypothèses n'étant pas toujours vérifiées, l'ajustement du modèle des moindres carrés est probablement souvent utilisé lorsqu'il est en réalité inapproprié.


11
Qu'est-ce qui ne convient pas à l'estimation des moindres carrés lorsque les données sont non normales ou hétéroskédastiques? Ce n'est pas totalement efficace, mais il reste impartial et cohérent.
Rob Hyndman

3
Si les données sont hétéroscédastiques, vous risquez de vous retrouver avec des prédictions d'échantillons très inexactes, car le modèle de régression s'efforcera trop de minimiser l'erreur sur les échantillons dans les zones à forte variance et insuffisamment sur les échantillons provenant de zones à faible variance. Cela signifie que vous pouvez vous retrouver avec un modèle très préjudiciable. Cela signifie également que les barres d'erreur sur les prédictions seront fausses.
Dikran Marsupial

6
Non, c'est impartial, mais la variance est plus grande que si vous utilisiez une méthode plus efficace pour les raisons que vous expliquez. Oui, les intervalles de prédiction sont faux.
Rob Hyndman

4
Oui (j’utilisais partialement dans un sens familier plutôt que statistique pour signifier que le modèle était systématiquement biaisé en faveur des observations dans les régions à forte variance de l’espace caractéristique - mea culpa!) - il serait plus exact de dire que la variance supérieure signifie il y a une chance accrue d'obtenir un modèle médiocre en utilisant un jeu de données fini. Cela semble une réponse raisonnable à votre question. Je ne considère pas vraiment l'impartialité comme une source de réconfort - ce qui est important, c'est que le modèle donne de bonnes prédictions sur les données dont je dispose et que la variance est souvent plus importante.
Dikran Marsupial

14

Mon cours de psychométrie d'introduction au premier cycle a duré au moins deux semaines pour apprendre à effectuer une régression par étapes. Existe-t-il une situation où la régression par étapes est une bonne idée?


6
"Bonne idée" dépend de la situation. Lorsque vous souhaitez optimiser les prévisions, ce n'est pas une idée horrible - bien que cela puisse conduire à un ajustement excessif. Il existe de rares cas où cela est inévitable - où il n'y a pas de théorie pour guider la sélection du modèle. Je ne considérerais pas la régression par étapes comme un "péché", mais son utilisation lorsque la théorie suffit à piloter la sélection du modèle l'est.
russellpierce

20
Peut-être que le péché fait des tests statistiques sur un modèle obtenu par régression pas à pas.
Rob Hyndman

3
C'est bien si vous utilisez la validation croisée et n'extrapolez pas. Ne publiez pas les valeurs-p, car elles n'ont pas de sens.
Neil McGuigan

Je travaille sur un projet qui utilise la régression par étapes. La raison en est que j'ai D >> N, où D est la dimensionnalité et N la taille de l'échantillon (excluant ainsi l'utilisation d'un modèle avec toutes les variables), les sous-ensembles de caractéristiques sont fortement corrélés les uns aux autres. Je souhaite une méthode fondée sur des principes statistiques. de sélectionner peut-être 2-3 "meilleures" fonctionnalités, et je n'ai pas l'intention de signaler les valeurs de p, du moins sans une sorte de correction assez conservatrice.
Dsimcha

12

Mon ancien prof de statistiques avait une "règle de base" pour traiter les valeurs aberrantes: Si vous voyez une valeur aberrante sur votre diagramme de dispersion, couvrez-le avec votre pouce :)


Cela s'apparente à une vinification qui n'est pas trop terrible.
Ari B. Friedman

12

C’est peut-être plus une réponse pop-stats que ce que vous recherchez, mais:

Utilisation de la moyenne comme indicateur de localisation lorsque les données sont fortement asymétriques .

Ce n'est pas nécessairement un problème si votre public et vous savez de quoi vous parlez, mais ce n'est généralement pas le cas et la médiane est souvent susceptible de donner une meilleure idée de ce qui se passe.

Mon exemple préféré est le salaire moyen, généralement qualifié de "salaire moyen". En fonction de l'inégalité de revenu / richesse dans un pays, celle-ci peut être très différente du salaire médian, ce qui donne un bien meilleur indicateur de la situation réelle des personnes. Par exemple, en Australie, où l’inégalité est relativement faible, la médiane est inférieure de 10 à 15% à la moyenne . Aux États-Unis, la différence est beaucoup plus marquée , la médiane étant inférieure à 70% de la moyenne et l'écart se creuse.

Rendre compte du salaire "moyen" donne une image plus rose que ce qui est justifié, et pourrait également donner à un grand nombre de personnes la fausse impression qu'elles ne gagnent pas autant que des personnes "normales".


Il y a une discussion semi-liée à cela car elle s'applique à l'analyse des tendances ici: tamino.wordpress.com/2012/03/29/…
naught101

2
Cela n’est pas simplement lié à l’asymétrie, mais c’est un problème général: la moyenne, ou toute autre mesure de la tendance centrale, ne suffit pas sans tenir compte de la dispersion. Par exemple, si les médianes de deux groupes étaient égales, mais l'intervalle inter quartile était 100 fois plus grand pour une population. En regardant la médiane, vous diriez qu’elles ont la même répartition de la population, alors qu’en réalité, elles seraient très différentes. Sans parler de plusieurs modes créant des problèmes ...
probabilitéislogic

Mais, à certaines fins , le mot est pertinent: le salaire est une variable extensive , ce qui signifie que les sommes de salaire ont un sens. Pour les questions où le revenu salarial total de certains (sous) groupes est pertinent, les moyens sont la bonne chose: le total peut être récupéré à partir de la moyenne et non de la médiane.
kjetil b halvorsen

@kjetilbhalvorsen: Pourquoi ne pas simplement utiliser le total alors?
naught101

n

10

Que la valeur p soit la probabilité que l'hypothèse nulle soit vraie et que (1-p) soit la probabilité que l'hypothèse alternative soit vraie, que le fait de ne pas rejeter l'hypothèse nulle signifie que l'hypothèse alternative est fausse, etc.


1
1

Intéressant, pouvez-vous me donner une référence à lire à ce sujet?
Dikran Marsupial

2
(ici) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] personnellement, même si je trouve cela intéressant, je me demande pourquoi la distribution a posteriori du rapport de vraisemblance est la quantité de l'intérêt.
probabilityislogic

10

Dans la même veine que @dirkan - L’utilisation des valeurs p comme mesure formelle de la preuve que l’hypothèse nulle est vraie. Il a quelques bonnes caractéristiques heuristiques et intuitivement bonnes, mais il s'agit essentiellement d'une mesure incomplète de la preuve, car il ne fait aucune référence à l'hypothèse alternative. Alors que les données peuvent être improbables sous la valeur nulle (conduisant à une petite valeur p), les données peuvent être encore plus improbables sous l'hypothèse alternative.


Je ne réponds pas parce que je ne veux pas me donner la peine d'en imaginer un, mais aussi de parcourir tous ceux que nous avons déjà donnés pour m'assurer de ne pas en répéter un! Mais je pense que je peux être utile. Il existe un livre de Good et Hardin intitulé "Erreurs courantes dans les statistiques et comment les éviter". Vous pouvez trouver beaucoup d'excellents exemples ici. C'est un livre populaire qui entre déjà dans sa quatrième édition.
Michael Chernick

Le livre d'Altman avec Chapman & Hall / CRC "Statistiques pratiques dans la recherche médicale" contient un chapitre sur la littérature médicale où de nombreux péchés statistiques ont été révélés et ont été rapportés dans des articles publiés.
Michael Chernick

9

Utilisation de camemberts pour illustrer les fréquences relatives. Plus ici .


2
Ce serait bien d'inclure du raisonnement sur place.
naught101

9

Utilisation de statistiques / probabilités dans les tests d’hypothèses pour mesurer la "vérité absolue". Les statistiques ne peuvent simplement pas le faire, elles ne peuvent être utiles que pour choisir entre des alternatives , qui doivent être spécifiées de "en dehors" du paradigme statistique. Des affirmations telles que "l'hypothèse nulle est vérifiée par les statistiques" sont tout simplement incorrectes; les statistiques ne peuvent que vous dire que "l'hypothèse nulle est favorisée par les données, par rapport à l'hypothèse alternative". Si vous supposez alors que l'hypothèse nulle ou l'alternative doit être vraie, vous pouvez dire "la valeur prouvée nulle", mais il ne s'agit que d'une conséquence triviale de votre hypothèse, et non de ce que les données démontrent.


9

α=0.05

Et similaire (ou presque identique) à la réponse de @ ogrisel , effectuez une recherche sur la grille et ne signalez que le meilleur résultat.


Je pense que vous vouliez créer un lien vers une autre bande dessinée, même si elle est immortelle.
rolando2

Peut-être, si je me souviens bien de ce que j'avais en tête à l'époque: xkcd.com/882
Andrew

8

(Avec un peu de chance, ce sera controversé.)

Utiliser une approche de Neyman-Pearson pour l'analyse statistique d'expériences scientifiques. Ou, pire, en utilisant un hybride mal défini de Neyman-Pearson et Fisher.


désolé d'être ignorant, mais qu'est-ce qui ne va pas avec une construction Neyman-Pearson pour l'analyse des résultats d'expériences scientifiques?
Andre Holzner

@Andre Je pense que cette remarque peut être étroitement liée à une autre proposée par @Michael Lew ailleurs dans cette discussion ( stats.stackexchange.com/questions/4551/… ).
whuber

8

Demander et peut-être obtenir The Flow Chart : Ce graphique où vous indiquez le niveau de vos variables et le type de relation que vous recherchez, et vous suivez les flèches vers le bas pour obtenir un test de nom de marque ou une statistique de nom de marque . Parfois offert avec des chemins mystérieux «paramétriques» et «non paramétriques».

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.