Comment embêter un arbitre statistique?


102

J'ai récemment posé une question sur les principes généraux régissant l' examen des statistiques dans les journaux . Ce que je voudrais maintenant demander, c’est ce qui vous énerve particulièrement lorsque vous examinez un document, c’est-à-dire quel est le meilleur moyen d’ennuyer vraiment un arbitre de statistique!

Un exemple par réponse, s'il vous plaît.


S'applique-t-il aux justifications reçues en réponse à un examen initial (lorsqu'une révision mineure ou majeure a été demandée)?
chl

@chl: Oui, pourquoi pas.
csgillespie

Réponses:


69

Ce qui m'irrite particulièrement, ce sont les gens qui utilisent clairement des progiciels écrits pour les logiciels statistiques mais qui ne les citent pas correctement, voire pas du tout, omettant de ce fait tout crédit aux auteurs. Cela est particulièrement important lorsque les auteurs sont universitaires et que leur travail dépend de la publication des articles cités . (Peut-être que je devrais ajouter que, dans mon domaine, de nombreux coupables ne sont pas des statisticiens.)


2
+1 pour moi. Cela me frustre, surtout quand ils citent la mauvaise chose et que j'ai fourni les détails pertinents sur la façon de citer les paquets
Gavin Simpson

3
Question: lorsque vous citez un paquet, citez-vous la vignette (s'il en existe une) ou le paquet lui-même?
Brandon Bertelsen

7
@Brandon: si l'auteur du package se soucie suffisamment de vous guider, il a donné la réponse sous une forme qui sera reprise par une citation ("un_package")
Ben Bolker

2
En plus d'avoir un papier de référence, ce qui n'est pas si facile à faire, le moyen le plus simple d'obtenir des citations est de laisser au moins une erreur dans votre document. Ensuite, vous pouvez publier une correction, qui cite le document original. Laissez une erreur dans la correction, et vous pouvez publier une correction qui fait référence à la correction originale et au document original (j’ai vu un étudiant de 1ère année). Le nombre de citations augmente en tant que processus O (N ^ 2), N étant le nombre de corrections.
Mark L. Stone

67

Bon Dieu, tant de choses me viennent à l'esprit ...

  • Régression pas à pas

  • Division de données continues en groupes

  • Donner des valeurs p mais aucune mesure de la taille de l'effet

  • Décrire les données en utilisant la moyenne et l'écart type sans indiquer si les données étaient plus ou moins symétriques et unimodales

  • Chiffres sans libellés clairs (ces barres d'erreur sont-elles des erreurs-types de la moyenne ou des écarts-types au sein de groupes, ou quoi?)


5
Je suis un peu curieux de la solution de régression par étapes. Qu'est-ce qui rend la régression par étapes si grave? Est-ce le problème du dragage des données et des comparaisons multiples?
Christopher Aden

17
Le problème est que les procédures par étapes invalident complètement toutes les hypothèses et conditions préalables pour les statistiques inférentielles "normales" basées sur les valeurs de p, qui sont alors fortement biaisées (à la baisse pour devenir "plus significatives"). Donc, fondamentalement, la réponse est "oui", avec l’avertissement que l’on pourrait en principe corriger pour toutes ces comparaisons multiples (mais que je n’ai jamais vu faire). Je crois fermement que c'est la raison la plus importante pour laquelle je vois tant de recherches en psychologie impossibles à reproduire, ce qui entraîne un énorme gaspillage de ressources.
S. Kolassa - Réintégrer Monica

10
@Stephan: Je suis d'accord, pas à pas, c'est une mauvaise idée. Bien que, même s’ils n’aient pas encore adopté les méthodes psychologiques, il existe diverses procédures de sélection qui corrigent les biais liés au surajustement en ajustant les estimations et les erreurs types. Cela n’est généralement pas considéré comme un problème de comparaisons multiples. Ils sont connus comme méthodes de rétrécissement. Voir ma réponse dans ce fil de discussion < stats.stackexchange.com/questions/499/… > et "Stratégies de modélisation de régression" de Harrell ou Tibshirani on the lasso.
Brett

5
@Brett Magill: +1 à ce sujet, et oui, je connais le retrait et le lasso. Maintenant, tout ce dont j'ai besoin, c'est d'un moyen de convaincre les psychologues que cela a un sens ... mais les gens se sont battus avec un succès très limité, juste pour que les psychologues rapportent les intervalles de confiance. vingt ans.
S. Kolassa - Réintégrer Monica

10
Je soutiendrais également qu'en psychologie, maximiser la prédiction n'est généralement pas un objectif théorique, mais la régression par étapes consiste essentiellement à maximiser la prédiction, bien que de manière quasi parcimonieuse. Ainsi, il existe généralement un décalage entre la procédure et la question.
Jérémie Anglim


32

Le code utilisé pour générer les résultats simulés n'est pas fourni. Après avoir demandé le code, il nécessite un travail supplémentaire pour le faire fonctionner sur un jeu de données généré par un arbitre.


2
Et il est mal formaté, non commenté et utilise des noms de variables et de fonctions indéchiffrables. Ooooh ouais.
naught101

30

Plagiat (théorique ou méthodologique). Ma première critique concernait en effet un article contenant de nombreux copier / coller non référencés d’un article méthodologique bien établi publié il ya 10 ans.

Je viens de trouver quelques articles intéressants sur ce sujet: la paternité et le plagiat dans la science .

Dans le même esprit, la falsification (de données ou de résultats) est la pire de toutes.


20
Ca me rappelle que , dans mes débuts comme arbitre i passé loin l' examen trop longtemps un document statistique qui a finalement été rejeté par ce journal particulier, mais les autres arbitres et j'ai proposé une application plus utile pour la méthode, et j'ai aussi esquissé une preuve algébrique pour remplacer une étude de simulation insatisfaisante dans le manuscrit. Les auteurs en ont depuis publié deux articles. Cela ne me contrarie pas , mais une reconnaissance telle que "nous remercions les arbitres d'une version antérieure du document pour leurs commentaires utiles" aurait été une bonne manière de procéder.
onestop

1
Oui, j'imagine à quel point une telle situation pourrait être décevante ...
chl

24
Il y a quelques semaines, j'ai reçu un article à réviser et découvert que 85% de celui-ci avait été publié dans une autre revue ... par les mêmes auteurs. Cela aussi est encore considéré comme du plagiat. Au cours des dernières années, j'ai régulièrement soumis des morceaux de documents, en particulier des résumés, des introductions et des conclusions, aux moteurs de recherche Web avant toute révision. Je veux être sûr que le travail est original avant d’investir n'importe quel moment dans sa lecture.
whuber

7
+1, @ whuber. En tant que rédacteur en chef d’une revue méthodologique, j’ai souvent la tâche difficile de déterminer si la contribution (en règle générale d’auteurs bien établis; les auteurs plus jeunes n’ont pas encore atteint cette trajectoire) justifie la publication, étant donné que tous ' Ce que nous avons fait est de réassembler différemment les huit blocs Lego qui composaient leurs cinq documents précédents. Cela m'amène à remettre en question la contribution des cinquante articles précédents que ces auteurs ont également publiés :(.
StasK

26

Quand on demande aux auteurs

  1. commentaire mineur sur une idée que nous avons (en ce sens, cela n'est pas considéré comme une raison de rejeter le document mais juste pour être sûr que les auteurs sont en mesure de discuter d'un autre POV), ou
  2. résultats peu clairs ou contradictoires,

et que les auteurs ne répondent pas vraiment dans le cas (1) ou que les résultats incriminés dans (2) disparaissent de la mémoire de messages.


7
Les résultats qui disparaissent mystérieusement devraient être un rejet automatique, imo. Je suis sûr que cela se produit souvent "dans les coulisses" (c'est-à-dire avant que le document ne soit soumis), mais il s'agit d'une preuve évidente de la "sélection sélective" que les lecteurs normaux du journal ne sauraient jamais.
Macro

3
Une autre raison pour un système ouvert d'examen par les pairs.
Mark

24

Confondre les valeurs p et la taille de l’effet (c’est-à-dire que mon effet est important parce que j’ai une valeur p très petite).

Légèrement différent de la réponse de Stephan, qui exclut la taille des effets mais donne des valeurs p. Je suis d'accord que vous devriez donner les deux (et si tout va bien comprendre la différence!)


23

Non compris les tailles d'effet.

P-ing partout dans la recherche (je dois créditer mon professeur préféré d'études supérieures pour cette ligne).

Donner un nombre absurde de chiffres (les hommes gagnaient 3.102019 livres de plus que les femmes)

N'incluant pas les numéros de page (cela rend plus difficile la révision)

Des chiffres et des tableaux erronés

(comme déjà mentionné - étape par étape et catégorisation des variables continues)


7
(+1) se moqua de "Donner un nombre absurde de chiffres (les hommes gagnaient 3.102019 livres de plus que les femmes)".
Macro

19

Lorsqu'ils n'expliquent pas suffisamment leur analyse et / ou incluent des erreurs simples qui rendent difficile la détermination de ce qui a réellement été fait. Cela implique souvent de jongler avec beaucoup de jargon, à titre d’explication, ce qui est plus ambigu que l’auteur ne semble le penser et peut aussi être mal utilisé.


D'accord - avoir du mal à comprendre ce que l'auteur (s) voulait dire avant même d'évaluer le contenu scientifique est vraiment ennuyeux.
Laurent

5
Je suis d’accord mais je trouve cela encore plus ennuyeux quand un critique vous dit d’omettre (ou de passer à du matériel supplémentaire) ce qui est, de façon réaliste, des détails très cruciaux à propos de l’analyse. Ce problème fait en sorte que beaucoup d'articles de science / sciences sociales qui font même l'analyse la plus légèrement compliquée sont assez cryptiques à cet égard.
Macro

16

L'utilisation d'un langage de causalité pour décrire les associations dans les données d'observation lorsque des variables omises sont presque certainement une préoccupation sérieuse.


3
Je conviens que les chercheurs devraient comprendre les responsabilités des modèles de recherche observationnelle, en particulier ceux liés aux variables omises, mais je ne pense pas que le fait d'éviter le langage causal le fasse. Voir le travail de Hubert Blalock, notamment son livre Causal Inferences in Non-Experiment Research, pour un argument plus détaillé en faveur de l'utilisation du langage causal.
Andy W

3
(+1) Cela pourrait être mon plus gros problème avec la recherche épidémiologique.
Macro

14

Lorsque les auteurs utilisent le seul test statistique qu'ils connaissent (dans mon domaine, généralement un test t ou une ANOVA), à l'infini, que cela soit approprié ou non. J'ai récemment passé en revue un article dans lequel les auteurs voulaient comparer une douzaine de groupes de traitement différents. Ils avaient donc effectué un test t sur deux échantillons pour chaque paire de traitements possible ...


13

Trouver de nouveaux mots pour les concepts existants ou, inversement, utiliser les termes existants pour désigner quelque chose de différent.

Certains des différentiels de terminologie existants sont établis depuis longtemps dans la littérature: données longitudinales en biostatistique par opposition à des données de panel en économétrie; indicateurs de cause à effet en sociologie contre indicateurs de formation et de réflexion en psychologie; etc. Je les hais toujours, mais au moins vous pouvez trouver quelques milliers de références à chacune d’elles dans leurs littératures respectives. Le plus récent est l'ensemble de ce travail sur les graphes acycliques dirigés dans la littérature causale: la plupart, sinon la totalité, de la théorie de l'identification et de l'estimation dans celles-ci a été développée par les économétriciens dans les années 1950 sous le nom d'équations simultanées.

Le terme qui a un sens double, voire triple, est "robuste" et les différentes significations sont souvent contradictoires. Les erreurs types "robustes" ne sont pas robustes pour les valeurs éloignées les plus éloignées; de plus, ils ne sont robustes que contre l'écart supposé par rapport au modèle et ont souvent des performances médiocres sur de petits échantillons. Les erreurs standard de White ne sont pas robustes par rapport aux corrélations de série ou de cluster; Les erreurs-types "robustes" dans les SEM ne sont pas robustes par rapport aux erreurs de spécification de la structure du modèle (chemins ou variables omis). Tout comme avec l'idée du test de signification de l'hypothèse nulle, il est impossible de pointer du doigt quelqu'un et de dire: "Vous êtes responsable de confondre plusieurs générations de chercheurs pour avoir inventé ce concept qui ne représente pas vraiment son nom".


1
Je dois admettre avoir commis les deux péchés: je décris mes données comme "ayant une structure hiérarchique: quand j'ai des niveaux avec des relations 1: n (plusieurs mesures de chaque échantillon, plusieurs échantillons par patient). A un moment donné, j'ai plutôt appris accidentellement que cela s'appelle une structure de données "en cluster" - maintenant, j'utilise les deux termes. Mais je ne sais toujours pas comment j'aurais pu trouver ce terme, je cherchais désespérément le mot pour décrire ma structure de données ... Inversement: J'utilise des techniques dites de classification douce en télédétection. Mon domaine (chimiométrie) l'utilise avec une signification très différente.
cbeleites

2
Tout va bien. Vous pouvez également ajouter "multiniveau" à votre liste de façons de faire référence à cette structure. "Cluster" signifie généralement que les observations sont connues pour être corrélées, mais personne ne se soucie de modéliser cette corrélation car elle n'est pas d'un intérêt primordial et écarte les méthodes qui sont robustes à une telle corrélation, telles que GEE. Ce que vous avez est quelque chose comme des mesures répétées MANOVA. Un package Stata gllammconsidère vos données comme des données multi-niveaux / hiérarchiques, mais la plupart des autres packages considèrent plusieurs mesures comme des variables / colonnes et des échantillons comme des observations / lignes.
mardi

Merci pour la contribution. Eh bien, de nos jours, je demanderais bien ici comment on l’appelle ... Ce n’est pas exactement des mesures répétées: en général, je mesure un nombre (ordre de grandeur: entre 10 ^ 2 et 10 ^ 4), différents points sur l’échantillon pour produire des cartes en fausses couleurs de différents constituants, et chaque mesure comporte déjà 10 ^ 2 - 10 ^ 3 observations (longueurs d'onde dans le spectre). Au sein de chaque échantillon, de nombreux spectres sont fortement corrélés, mais pas tous: les échantillons ne sont pas homogènes. ...
cbeleites

1
... Votre description de "clustered" ressemble beaucoup à ce que nous faisons. Mais je prends soin de scinder les échantillons pour la validation, je dis que je n’ai aucune idée de la taille effective de l’échantillon (à part que c’est au moins le nombre d’échantillons réels impliqués), et je montre parfois que toutes ces mesures ont été mesurées. échantillon aide réellement pour la formation de modèle.
cbeleites

1
Des données intéressantes et stimulantes, à coup sûr.
StasK

11

Zéro prise en compte des données manquantes.

De nombreuses applications pratiques utilisent des données pour lesquelles il manque au moins certaines valeurs. C’est certainement très vrai en épidémiologie. Les données manquantes posent des problèmes pour de nombreuses méthodes statistiques, y compris les modèles linéaires. Les données manquantes avec des modèles linéaires sont souvent traitées en supprimant les observations avec les données manquantes sur les covariables. Ceci est un problème, à moins que des données ne soient manquantes, en supposant que les données sont manquantes complètement au hasard (MCAR).

Il y a peut-être 10 ans, il était raisonnable de publier les résultats de modèles linéaires sans tenir compte de l'absence de données manquantes. Je suis certainement coupable de cela. Cependant, de très bons conseils sur la manière de traiter les données manquantes avec une imputation multiple sont maintenant largement disponibles, de même que les progiciels, modèles, bibliothèques, etc. faciliter des analyses plus appropriées sous des hypothèses plus raisonnables en cas d'absence.


1
Dans l’esprit d’essayer d’éduquer, peux-tu mieux élaborer? Que considérez-vous comme considération - admettre qu’elle existe ou ajuster l’analyse statistique (p. Ex. Imputation). Le cas échéant, j'essaie d'inclure supp. tables de valeurs manquantes par covariables d'intérêt, mais il n'est pas clair si cela est suffisant pour "prise en compte" par cette remarque.
Andy W

8

Le signalement d'effets qui "s'approchent de la signification (p <0,10 par exemple) et les écrivant à leur sujet comme s'ils avaient atteint la signification à un niveau plus strict et acceptable. Exécuter plusieurs modèles d'équations structurelles non imbriquées puis les écrire comme s'ils Prendre une stratégie analytique bien établie et la présenter comme si personne n’avait jamais pensé à l’utiliser auparavant, ce qui est peut-être qualifié de plagiat au nième degré.


Peut-être que c'est réinventer la roue plutôt que le plagiat?
Gerrit

7

Je recommande les deux articles suivants:

Martin Bland:
Comment contrarier l'arbitre statistique
Cet article est basé sur une série de conférences données par Martin Bland, ainsi que sur des données provenant d'autres arbitres statistiques («un échantillon de commodité avec un faible taux de réponse»). Il se termine par une liste de 11 points de «[b] ow pour ne pas contrarier l'arbitre statistique».

Stian Lydersen:
Revue statistique : commentaires fréquemment formulés
Cet article récent (publié en 2014/2015) énumère les 14 commentaires critiques les plus fréquents de l'auteur, basés sur un total d'environ 4 000 $. 200 revues statistiques d'articles scientifiques (dans une revue particulière). Chaque commentaire contient une brève explication du problème et des instructions sur la manière de procéder correctement à l'analyse / au reporting. La liste des références citées est un trésor de papiers intéressants.


La liste de Lydersen est intéressante. Je pense que je suis en désaccord avec une poignée d'entre eux. . .
StatsStudent

6

Je suis le plus (et le plus souvent) ennuyé par la "validation" visant à l'erreur de généralisation des modèles prédictifs dans lesquels les données de test ne sont pas indépendantes (par exemple, plusieurs mesures par patient dans les données, validation hors validation ou croisée, mesures de fractionnement non patients ).

Encore plus ennuyeux, des articles qui donnent de tels résultats de validation croisée erronés plus un ensemble de tests indépendant qui démontre le biais excessif de la validation croisée, mais pas un seul mot pour indiquer que la conception de la validation croisée est erronée ...

(Je serais parfaitement heureux si les mêmes données seraient présentées "nous savons que la validation croisée devrait diviser les patients, mais nous sommes bloqués avec un logiciel qui ne le permet pas. Par conséquent, nous avons testé un ensemble vraiment indépendant de patients soumis au test ")

(Je suis également conscient que bootstrapping = ré-échantillonnage avec remplacement fonctionne généralement mieux que la validation croisée = ré-échantillonnage sans remplacement. Cependant, nous avons trouvé des données spectroscopiques (spectres simulés et modèle légèrement artificiel mais des spectres réels) qui valident / répétent la validation croisée et répétée -of-bootstrap avait une incertitude globale similaire; oob avait plus de biais mais moins de variance - pour rewieving, j’envisage la question sous un angle très pragmatique: la validation croisée répétée par rapport à la méthode out-bootstrap n’a aucune importance tant que de nombreux articles ni scinder le patient, ni signaler / discuter / mentionner une incertitude aléatoire en raison de la taille réduite de l’échantillon de test.)

En plus d'avoir tort, cela a également pour effet secondaire que les personnes qui effectuent une validation correcte doivent souvent expliquer pourquoi leurs résultats sont tellement pires que tous les autres résultats de la littérature.


1
Vous n'êtes pas sûr de vouloir dire cela, mais le boot "optimisme" est l'un des meilleurs moyens de valider un modèle, et ses échantillons d'apprentissage et de test se chevauchent.
Frank Harrell

1
@ Frank Harrell - Je ne suis pas sûr d'avoir compris votre argument. La difficulté réside peut-être dans le fait que, dans la chimiométrie, la "validation d'un modèle prédictif" concerne toujours la performance de nouveaux cas inconnus et futurs (dans l'exemple: diagnostiquer de nouveaux patients). J'utilise une validation croisée out-of-bootstrap ou répétée / itérée tout le temps. Pouvez-vous expliquer ce qui présente l'avantage de superposer les ensembles de tests et ensembles par rapport au fractionnement au niveau du patient (je suppose que "superposer" signifie fractionner les mesures, de sorte que les mesures de test et d'entraînement peuvent appartenir au même patient, en parlant toujours d'un modèle inter-patient )?
cbeleites

... Et oui, certains points de la validation du modèle peuvent être résolus sans fractionner les données dans des cas de test et de formation distincts (par exemple, la stabilité du modèle en termes de coefficients). Mais déjà la stabilité du modèle par rapport. Les prévisions doivent être mesurées sur des patients inconnus (inconnu: jamais apparu dans le processus de construction du modèle, y compris tout prétraitement basé sur les données qui prend en compte tous les cas). En fait, pour une quantification traditionnelle en chimiométrie, la validation comporte des étapes qui nécessitent des données de test mesurées indépendamment: ...
cbeleites

Les bonnes pratiques exigent un opérateur inconnu de l'instrument et une caractéristique importante de la méthode analytique à déterminer lors de la validation est la fréquence à laquelle l'étalonnage doit être refait (ou montrant que la dérive instrumentale est négligeable pendant un certain temps) - certains Les auteurs parlent même d'un "abus de rééchantillonnage" qui conduit à négliger de tels ensembles de tests indépendants .
cbeleites

1
Si l'équipement ou les techniques de mesure nécessitent une validation, un échantillon indépendant est requis. Cependant, une erreur courante consiste à utiliser le fractionnement des données pour tenter de simuler une validation indépendante. Ceci est toujours une validation interne. Pour répondre à la question @cbeleites ci-dessus, les échantillons superposés impliqués dans l'amorçage permettront d'obtenir des estimations plus précises des performances du modèle futur que le fractionnement des données dans la majorité des jeux de données susceptibles d'être observés. Le fractionnement des données s'est mal déroulé avec un taux d'événements n = 17 000 et 0,30.
Frank Harrell

4

Utiliser "données" dans un sens singulier. Les données sont, elles ne sont jamais.


2
Probablement un statisticien français;)
Stéphane Laurent

9
Je dois admettre que j’ai récemment abandonné l’utilisation plurielle des données après y avoir adhéré pendant environ 10 ans. J'écris généralement pour un public non technique et j'avais peur de tomber sur des pompes. L’APA semble toujours avoir une lecture stricte du pluriel, mais il est intéressant de noter que la Société royale de statistique ne semble pas avoir d’avis particulier. Il y a une discussion intéressante ici: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley

1
Je ne parle pas anglais, mais le problème avec des ouvrages tels que "data" ou "media" au singulier est que l'anglais a emprunté de nombreux autres mots latins et que vous devez utiliser tous les mots latins de manière cohérente. Et après? "Curricula is" ou "Curriculum are"? "Sont moyen"? Si "données" est latin, il est pluriel. Fin de la discussion Peu importe combien de personnes veulent l'ignorer maintenant.
Fran

Peut-être que je m'en sers, mais je passe du singulier au pluraire en fonction du contexte.
StatsStudent

L'utilisation du mot "donnée" étant faible et uniquement dans des circonstances particulières, je pense que le mot "données" est équivalent au mot "meute" en ce qui concerne "loups". Il est certainement acceptable d'utiliser le mot "pack" au singulier pour décrire plusieurs loups. Le mot 'Data' se transforme progressivement en son propre nom collectif ...
Robert de Graaf

3

Pour moi, de loin, attribuer la cause sans analyse causale appropriée ou en cas de déduction causale inappropriée.

Je déteste aussi qu'on ne prête aucune attention à la manière dont les données manquantes ont été traitées. Je vois aussi beaucoup d'articles dans lesquels les auteurs se contentent d'analyser des cas complets sans indiquer si les résultats peuvent être généralisés à la population avec des valeurs manquantes ou comment la population avec des valeurs manquantes pourrait être systématiquement différente de la population avec des données complètes.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.