«Exploration» des données vs «fouiner» / «torturer» les données?


30

Plusieurs fois, j'ai rencontré des avertissements informels contre "l'espionnage des données" (voici un exemple amusant ), et je pense avoir une idée intuitive de ce que cela signifie, et pourquoi cela peut être un problème.

D'un autre côté, l '"analyse exploratoire des données" semble être une procédure parfaitement respectable en statistique, du moins à en juger par le fait qu'un livre avec ce titre est toujours révérencieusement cité comme un classique.

Dans mon domaine de travail, je tombe souvent sur ce qui me semble être un "espionnage des données" rampant, ou peut-être serait-il mieux décrit comme une " torture des données ", bien que ceux qui le font semblent voir la même activité comme une exploration tout à fait raisonnable et sans problème " ".

Voici le scénario typique: une expérience coûteuse est réalisée (sans beaucoup de réflexion sur l'analyse subséquente), les chercheurs originaux ne peuvent pas facilement discerner une "histoire" dans les données recueillies, quelqu'un est amené à appliquer une certaine "sorcellerie statistique", et qui , après avoir découpé et découpé les données dans tous les sens, parvient finalement à en extraire une "histoire" publiable.

Bien sûr, il y a généralement une certaine "validation" dans le rapport / document final pour montrer que l'analyse statistique est à la hausse, mais l'attitude flagrante de publication à tout prix derrière tout cela me laisse douteux.

Malheureusement, ma compréhension limitée des choses à faire et à ne pas faire de l'analyse des données m'empêche d'aller au-delà de ces doutes vagues, donc ma réponse conservatrice est de ne pas tenir compte de ces résultats.

J'espère que non seulement une meilleure compréhension de la distinction entre l'exploration et l'espionnage / la torture, mais aussi et surtout une meilleure compréhension des principes et des techniques pour détecter quand cette ligne a été franchie, me permettra d'évaluer de telles découvertes dans une manière qui peut raisonnablement expliquer une procédure analytique moins qu'optimale, et donc pouvoir aller au-delà de ma réponse actuelle plutôt simple d'esprit incrédule.


EDIT: Merci à tous pour les commentaires et réponses très intéressants. À en juger par leur contenu, je pense que je n'ai peut-être pas suffisamment expliqué ma question. J'espère que cette mise à jour clarifiera les choses.

Ma question ici ne concerne pas tant ce que je dois faire pour éviter de torturer mes données (bien que ce soit une question qui m'intéresse également), mais plutôt: comment dois-je considérer (ou évaluer) les résultats que je connais de fait ont été obtenus une telle «torture des données».

La situation devient plus intéressante dans les cas (beaucoup plus rares) dans lesquels, en outre, je suis en mesure d'exprimer une opinion sur ces "conclusions" avant qu'elles ne soient soumises pour publication.

À ce stade, le plus que je puisse faire est de dire quelque chose comme «Je ne sais pas combien de crédit je peux donner à ces résultats, compte tenu de ce que je sais des hypothèses et des procédures qui ont permis de les obtenir». C'est trop vague pour valoir la peine d'être dit. Vouloir aller au-delà d'un tel flou était la motivation de mon poste.

Pour être juste, mes doutes ici reposent sur des méthodes statistiques plus que douteuses. En fait, je vois ce dernier plus comme la conséquence du problème plus profond: une combinaison d'une attitude cavalière envers la conception expérimentale couplée à un engagement catégorique à publier les résultats tels quels (c'est-à-dire sans autres expériences). Bien sûr, des projets de suivi sont toujours envisagés, mais il est tout simplement hors de question qu'aucun papier ne sorte, disons, "d'un réfrigérateur rempli de 100 000 échantillons".

Les statistiques n'entrent en jeu que comme un moyen d'atteindre cet objectif suprême. La seule justification de l'accrochage aux statistiques (secondaires comme elles le sont dans l'ensemble du scénario) est qu'un défi frontal à l'hypothèse de «publication à tout prix» est tout simplement inutile.

En fait, je ne peux penser qu'à une seule réponse efficace dans de telles situations: proposer un test statistique (ne nécessitant pas d'expérimentation supplémentaire) qui teste vraiment la qualité de l'analyse. Mais je n'ai tout simplement pas les statistiques nécessaires. Mon espoir (naïf rétrospectivement) était de découvrir ce que je pouvais étudier qui pourrait me permettre de proposer de tels tests ...

Au moment où j'écris ceci, je me rends compte que, s'il n'existe pas déjà, le monde pourrait utiliser une nouvelle sous-branche de la statistique, consacrée aux techniques de détection et de dénonciation de la "torture des données". (Bien sûr, je ne veux pas me laisser emporter par la métaphore de la "torture": le problème n'est pas en soi la "torture des données", mais les "conclusions" fallacieuses auxquelles il peut conduire.)


1
@BabakP Cette citation apparaît dans six réponses ici, y compris dans les blagues de statistiques et les fils de citations de statistiques. (Ce dernier est une bonne source de citations pertinentes si vous en cherchez un jour.)
whuber

7
Je ne pense pas qu'il y ait de distinction entre les techniques utilisées dans le `` snooping des données '' et dans `` l'analyse exploratoire des données '' - l'utilisation péjorative de l'ancien terme est pour une analyse exploratoire présentée à tort comme une analyse de confirmation.
Scortchi - Réintégrer Monica

8
Feynman, dans le livre que vous citez, répond déjà à cette question: "S'il veut tester cette hypothèse [trouvée par l'exploration], ... il doit faire une autre expérience." Ce que vous semblez demander, c'est si Feynman a pu être trop extrême ("exagérer un peu"): dans quelle mesure, le cas échéant, les tests formels d'hypothèses peuvent-ils être justifiés lorsqu'ils ont été développés en explorant les mêmes données ?
whuber

2
@whuber: dans la pratique, c'est encore plus dramatique, car souvent des tests avec des données différentes, mais la même configuration expérimentale ou le même type d'expérience conduiront par inadvertance à des résultats similaires.
Janvier

1
@Janvier: cela dépend de vos données / expériences je pense. Prenons par exemple la recherche biologique / médicale. Pour les données que je vois, la plus grande variation se situe généralement entre les patients (sujets). Il est à espérer que la répétition de l'expérience avec de nouveaux patients conduira à des résultats similaires, mais en pratique, ce n'est souvent pas le cas (c'est-à-dire que les résultats de prédiction des modèles développés sur le premier ensemble de patients sont bien pires que prévu, ce qui signifie qu'il y a eu surapprentissage, donc le les données de la première expérience ont été "torturées")
cbeleites soutient Monica

Réponses:


22

Il existe une distinction qui n'attire parfois pas suffisamment l'attention, à savoir la génération d'hypothèses par rapport aux tests d'hypothèse , ou l'analyse exploratoire par rapport aux tests d'hypothèse. Vous avez le droit à tous les sales trucs du monde de proposer votre idée / hypothèse. Mais lorsque vous le testerez plus tard, vous devrez tuer impitoyablement vos chéris.

Je suis un biologiste qui travaille tout le temps avec des données à haut débit, et oui, je fais ce "découpage et découpage" assez souvent. La plupart des cas que l'expérience a réalisés n'ont pas été soigneusement conçus; ou peut-être que ceux qui l'ont planifié n'ont pas expliqué tous les résultats possibles. Ou l'attitude générale lors de la planification était "voyons ce qu'il y a là-dedans". Nous nous retrouvons avec des ensembles de données chers, précieux et en eux-mêmes intéressants que je retourne ensuite pour proposer une histoire.

Mais alors, ce n'est qu'une histoire (coucher possible). Après avoir sélectionné quelques angles intéressants - et voici le point crucial - vous devez le tester non seulement avec des ensembles de données indépendants ou des échantillons indépendants, mais de préférence avec une approche indépendante , un système expérimental indépendant.

L'importance de cette dernière chose - une configuration expérimentale indépendante, pas seulement un ensemble indépendant de mesures ou d'échantillons - est souvent sous-estimée. Cependant, lorsque nous testons 30 000 variables pour une différence significative, il arrive souvent que, même si des échantillons similaires (mais différents) de la même cohorte et analysés avec la même méthode ne rejetteront pas l'hypothèse que nous avons basée sur l'ensemble précédent. Mais ensuite, nous nous tournons vers un autre type d'expérience et une autre cohorte, et nos résultats s'avèrent être le résultat d'un biais méthodologique ou sont limités dans leur applicabilité.

C'est pourquoi nous avons souvent besoin de plusieurs articles de plusieurs chercheurs indépendants pour vraiment accepter une hypothèse ou un modèle.

Je pense donc que de telles tortures de données sont très bien, tant que vous gardez cette distinction à l'esprit et que vous vous souvenez de ce que vous faites, à quelle étape du processus scientifique vous vous trouvez. Vous pouvez utiliser les phases de lune ou redéfinir 2 + 2 tant que vous disposez d'une validation indépendante des données. Pour le mettre sur une photo:

entrez la description de l'image ici

Malheureusement, il y a ceux qui commandent un microréseau pour rassembler un document après plusieurs expériences et aucune histoire n'a émergé, dans l'espoir que l'analyse à haut débit montre quelque chose. Ou ils sont confus à propos de l'ensemble du test d'hypothèse par rapport à la génération.


Je suppose que l'on pourrait interpréter ce que j'ai vu comme une "génération d'hypothèses", mais le but des manipulations dont je parle est très certainement de publier les résultats obtenus à partir des données "torturées", et de le faire au plus haut -impact journal qui acceptera l'article. Inutile de dire que de tels documents ne portent jamais la moindre indication de l'origine torturée de leurs conclusions. En fait, AFAICT, les auteurs ne s'en inquiètent pas du tout. Et pourtant, je pense que la majorité des lecteurs de ces journaux réduiraient fortement les résultats s'ils savaient exactement combien de torture de données a été
nécessaire

1
@kjo: la génération d'hypothèses fait partie du processus scientifique qui peut définitivement être publiée. Ce n'est donc pas une raison.
cbeleites prend en charge Monica le

@Janvier: vous avez oublié de mentionner le DoE "prenez tous les échantillons que nous pouvons obtenir - ils seront de toute façon trop peu nombreux" - qui est le DoE le plus fréquent que je rencontre.
cbeleites prend en charge Monica le

@cbeleites: eh bien, je ne rêverais pas de critiquer cette attitude en général; généralement, les expériences pourraient bénéficier d'un plus grand nombre de répétitions. Mais je conviens que souvent les expérimentateurs ont tendance à inclure autant de conditions (types d'échantillons, souches, variantes, classes, etc.) que physiquement possible, faisant de l'analyse un cauchemar et parfois totalement obscurcissant la question.
Janvier

12

Herman Friedman, mon professeur préféré au lycée, disait que

"si vous n'êtes pas surpris, vous n'avez rien appris"

L'évitement strict de quoi que ce soit, à l'exception des tests les plus rigoureux d'hypothèses définies a priori, limite considérablement votre capacité à être surpris.

Je pense que l'élément clé est que nous sommes honnêtes dans ce que nous faisons. Si nous sommes dans un mode hautement exploratoire, nous devons le dire. À l'opposé, un professeur que je connais a dit à son élève de changer ses hypothèses, car les premières n'étaient pas significatives.


4
Il n'y a rien de mal à tester rigoureusement des hypothèses définies a priori et à fouiner les mêmes données pour suggérer que les prochaines hypothèses définies a priori doivent être rigoureusement testées. Et si nous sommes dans un mode encore légèrement exploratoire, nous devrions le dire - dites simplement ce que nous avons vraiment fait - et laissez les autres décider exactement de la taille d'une pincée de sel qu'ils veulent prendre nos résultats, même s'ils sont convaincus de leur validité, nous pouvons être nous-mêmes. Je voudrais donner à cette réponse plus d'un vote pour souligner l'honnêteté.
Scortchi - Réintégrer Monica

7

Permettez-moi d'ajouter quelques points:

  • tout d'abord, la génération d'hypothèses est un élément important de la science. Et des résultats non prédictifs (exploratoires / descriptifs) peuvent être publiés.

  • À mon humble avis, le problème n'est pas en soi que l'exploration des données est utilisée sur un ensemble de données et seules des parties de ces résultats sont publiées. Les problèmes sont

    • ne décrivant pas combien a été essayé
    • tirer ensuite des conclusions comme si l'étude était une étude de validation pour un modèle prédictif / une étude de test d'hypothèse
  • La science et le développement de méthodes sont des processus itératifs d'une manière beaucoup plus générale que la simple génération d'hypothèses - tests - génération de nouvelles hypothèses - tests ... au dessous de).

Ce que je fais:

  • essayer de sensibiliser les gens au biais optimiste qui en résulte
    Lorsque j'ai une chance, je montre également aux gens à quel point la différence fait (faisable principalement avec un niveau inférieur du même problème, par exemple comparer les données validées indépendamment du patient avec les performances internes des estimations de routines d'optimisation d'hyper-paramètres, telles que la recherche dans la grille pour les paraters SVM, des "modèles combinés" tels que PCA-LDA, et ainsi de suite. Pas vraiment faisable pour le dragage de données réelles, car jusqu'à présent, personne ne m'a donné l'argent pour gagner une vraie réplique d'une étude de taille raisonnable ...)
  • pour les articles dont je suis coauteur: insister sur une discussion des limites des conclusions. Assurez-vous que les conclusions ne sont pas formulées d'une manière plus générale que l'étude ne le permet.
  • Encouragez vos collègues à utiliser leurs connaissances spécialisées sur le sujet de l'étude et le processus de génération de données pour décider comment traiter les données au lieu d'effectuer des opérations coûteuses (en termes de taille d'échantillon dont vous auriez besoin pour le faire correctement). modèle - paramètres "hyper" (comme le type de prétraitement à utiliser).
  • en parallèle: essayez de sensibiliser les gens au coût de cette activité d'optimisation si elle est effectuée correctement (que cela soit appelé exploration ou non n'est pas pertinent, si elle est mal effectuée, elle aura des résultats similaires comme le dragage de données), par exemple Beleites, C. et Neugebauer , U. et Bocklitz, T. et Krafft, C. et Popp, J .: Planification de la taille de l'échantillon pour les modèles de classification. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
    manuscrit accepté sur arXiv: 1211.1323
  • Voici une étude qui trouve que cet essai aveugle est également souvent futile, par exemple
    J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: rompre avec les tendances du prétraitement ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
    (ils ont essayé un grand nombre de combinaisons d'étapes de prétraitement et ont constaté que très peu conduisaient à de meilleurs modèles que pas de prétraitement du tout)

  • Soulignez que je ne torture pas mes données plus que nécessaire:
    exemple :

    Tout le prétraitement a été décidé exclusivement à l'aide de connaissances spectroscopiques et aucun prétraitement basé sur les données n'a été effectué.

    Un article de suivi utilisant les mêmes données que l'exemple pour le développement (différent) de la théorie se lit

    Tout le prétraitement a été décidé par connaissance spectroscopique, aucune étape basée sur les données n'a été incluse et aucune optimisation des paramètres n'a été effectuée. Cependant, nous avons vérifié qu'une projection PLS [45] des spectres sur 25 variables latentes en tant que prétraitement pour la formation LR n'a pas entraîné plus que de légers changements dans la prédiction (voir figure supplémentaire S.2).

    Car en attendant, on m'a explicitement demandé (lors d'une conférence par un éditeur de la revue CILS) de comparer les modèles avec le prétraitement PLS.

  • Prenez un point de vue pratique: par exemple, dans l'étude des astrocytomes liée ci-dessus, j'ai bien sûr décidé certains points après avoir examiné les données (comme quel seuil d'intensité correspond aux mesures prises de l'extérieur de l'échantillon - qui ont ensuite été rejetées). D'autres décisions que je sais être non critiques (ligne de base linéaire ou quadratique: mon expérience avec ce type de données suggère que cela ne change pas grand-chose - ce qui est également en parfait accord avec ce que Jasper Engel a trouvé sur différentes données de type similaire, donc Je ne m'attendrais pas à ce qu'un biais important découle du choix du type de référence en examinant les données (le document explique pourquoi cela est raisonnable).
    Sur la base de notre étude, nous pouvons maintenant dire ce qui devrait être abordé ensuite et ce qui devrait être changé. Et parce que nous sommes encore à un stade relativement précoce de développement de la méthode (en examinant des échantillons ex-vivo ), cela ne vaut pas la peine de parcourir tous les "devoirs" qui seront finalement nécessaires avant que la méthode puisse être utilisée in vivo . Par exemple, au stade actuel du classement des astrocytomes, la validation du rééchantillonnage est un choix plus judicieux que l'ensemble de test externe. J'insiste encore sur le fait qu'une étude de validation véritablement externe sera nécessaire à un moment donné, car certaines caractéristiques de performance ne peuvent être mesurées que de cette façon (par exemple, les effets de la dérive de l'instrument / prouvant que nous pouvons les corriger). Mais en ce moment, alors que nous jouons toujours avec ex-vivoéchantillons et résolvent d'autres parties du grand problème (dans les articles liés: comment traiter les cas limites), le gain en connaissances utiles d'une étude de validation ex vivo appropriée est trop faible pour valoir la peine (IMHO: sauf si qui ont été effectuées afin de mesurer le biais dû au dragage des données).

  • J'ai lu une fois un argument sur les normes statistiques et de rapport, et si elles devaient être jugées nécessaires pour une revue (je ne me souviens pas laquelle) qui m'a convaincu: l'idée exprimée était que les rédacteurs n'avaient pas besoin d'essayer convenir et appliquer une norme (ce qui provoquera beaucoup de discussions futiles) parce que:

    • qui utilise les techniques appropriées en est généralement très conscient / fier et rapportera (et devrait) donc en détail ce qui a été fait.
    • Si un certain point (par exemple, dragage de données, validation non indépendante au niveau du patient) n'est pas clairement énoncé, l'hypothèse par défaut pour les examinateurs / lecteurs est que l'étude n'a pas adhéré aux principes appropriés de cette question (peut-être parce qu'ils ne l'ont pas fait). je sais pas mieux)

4

Parfois, les choses que vous voyez comme une «torture des données» ne le sont pas vraiment. Il n'est pas toujours clair au préalable exactement ce que vous allez faire des données pour donner ce que vous pensez être les résultats réels de l'expérience jusqu'à ce que vous le voyiez.

Par exemple, avec les données de temps de réaction pour une tâche de décision, vous voulez souvent rejeter les temps qui ne concernent pas la décision (c.-à-d., Quand ils vont si vite, ils ne font que deviner et ne prennent pas de décision). Vous pouvez tracer la précision de la décision par rapport à RT pour voir où la supposition se produit généralement. Mais tant que vous n'avez pas testé ce paradigme particulier, vous n'avez aucun moyen de savoir où se trouvent les seuils (dans le temps, pas la précision). Pour certains observateurs, une telle procédure ressemble à torturer les données, mais tant qu'elle n'a rien à voir directement avec les tests d'hypothèse (vous ne l'ajustez pas en fonction des tests), elle ne torture pas les données.

L'espionnage des données pendant une expérience est correct tant qu'il est fait de la bonne façon. Il est probablement contraire à l'éthique de coller votre expérience dans une boîte noire et de faire l'analyse uniquement lorsque le nombre prévu de sujets a été exécuté. Parfois, il est difficile de dire qu'il y a des problèmes avec l'expérience tant que vous n'avez pas consulté les données et que vous devez les consulter le plus tôt possible. L'aperçu des données est fortement décrié, car cela équivaut à voir si p <0,05 et à décider de continuer. Mais il existe de nombreux critères selon lesquels vous pouvez décider de continuer à collecter qui ne font rien de préjudiciable à vos taux d'erreur.

Supposons que vous souhaitiez vous assurer que votre estimation de la variance se situe dans une fourchette probable connue. Les petits échantillons peuvent avoir des estimations de variance assez éloignées, donc vous collectez des données supplémentaires jusqu'à ce que vous sachiez que l'échantillon est plus représentatif. Dans la simulation suivante, je m'attends à ce que la variance dans chaque condition soit 1. Je vais faire quelque chose de vraiment fou et échantillonner chaque groupe indépendamment pour 10 échantillons, puis ajouter des sujets jusqu'à ce que la variance soit proche de 1.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Donc, je viens de devenir fou avec l'échantillonnage et de rendre mes variances proches des attentes et je n'affecte toujours pas beaucoup l'alpha (c'est un peu moins de 0,05). Quelques contraintes supplémentaires comme les N doivent être égales dans chaque groupe et ne peuvent pas dépasser 30 et alpha est à peu près juste sur 0,05. Mais qu'en est-il de SE? Et si j'essayais plutôt de faire du SE une valeur donnée? C'est en fait une idée vraiment intéressante car je règle à mon tour la largeur de CI à l'avance (mais pas l'emplacement).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Encore une fois, l'alpha a changé un peu, même si j'ai autorisé les N à parcourir jusqu'à 46 par rapport aux 10 d'origine en fonction de l'espionnage des données. Plus important encore, les SE se situent tous dans une plage étroite dans chacune des expériences. Il est facile de faire un petit ajustement alpha pour résoudre ce problème s'il s'agit d'un problème. Le fait est que certaines recherches de données ne nuisent pas ou peu et peuvent même apporter des avantages.

(BTW, ce que je montre n'est pas une solution miracle. En fait, vous ne réduisez pas le nombre de sujets à long terme parce que la puissance pour la simulation des N variables est à peu près la même que pour une simulation des N moyens. )

Rien de ce qui précède ne contredit la littérature récente sur l'ajout de sujets après le début d'une expérience. Dans ces études, ils ont examiné des simulations dans lesquelles vous avez ajouté des sujets après avoir fait un test d'hypothèse afin d'obtenir une valeur de p inférieure. C'est encore mauvais et peut gonfler extraordinairement l'alpha. De plus, j'aime beaucoup les réponses de janvier et de Peter Flom. Je voulais juste souligner que regarder des données pendant que vous les collectez, et même changer un N planifié pendant la collecte, ne sont pas nécessairement de mauvaises choses.


Aucun de ces éléments n'est «correct» dans le sens où il n'affecte pas la distribution d'échantillonnage de vos statistiques de test. Des réponses parfaitement sensées aux surprises bien sûr (cf. réponse de Peter), mais elles diluent quelque peu la nature confirmatoire de votre expérience, augmentant les «degrés de liberté du chercheur». C'est précisément pour éviter les surprises que nous réalisons des études pilotes pour fixer le protocole, & définir au préalable des règles d'arrêt, en les prenant en compte dans l'analyse. L'objectif est une procédure bien définie qui peut être reproduite indépendamment pour démontrer la validité de vos résultats.
Scortchi - Réintégrer Monica

Vous pouvez vous sentir libre d'exécuter les simulations vous-même, mais le fait d'avoir une règle d'arrêt basée sur la variance (sur un N minimum raisonnable) n'aura aucun impact sur l'alpha et générera une puissance attendue. Vous pouvez même avoir une règle d'arrêt basée sur SE et obtenir des SE cohérentes et celles-ci n'affecteront pas alpha ou bêta. Vous ne pouvez tout simplement pas avoir de prègle d'arrêt basée. Toutes les critiques de la modification de N concernent le fait après un test d'hypothèse (il devrait également y avoir d'autres choses incluses). Il y a le potentiel que cela provoque la tentation ... mais je l'ignore.
John

En ce qui concerne la distribution du temps de réaction, vous suggérez qu'il est préférable de choisir un point de coupure fixe basé sur un pilote plutôt que de déterminer quand chaque sujet devine en fonction de la régression logistique et d'utiliser son propre point de coupure? (bien sûr, le point de coupure de précision est fixe, mais pas le temps de réaction).
John

(1) Règle d'arrêt basée sur la variance: elle affecte l'estimation de la variance et peut donc affecter les taux d'erreur lorsque l'analyse est analysée comme si la taille de l'échantillon avait été fixée au préalable. Il y a une tension entre la mise en garde «au-delà d'un N minimum raisonnable» donnée dans votre commentaire et les «petits échantillons» mentionnés dans votre réponse; vous avez sans doute le statistique nécessaire pour savoir quelles approximations sont suffisamment bonnes quand, mais pas tout le monde. Plus généralement, une approche irréprochable consiste à définir clairement la règle d'arrêt avant l'expérience.
Scortchi - Réintégrer Monica

(2) Distribution du temps de réaction: Non (bien que j'aie certes pensé à quelque chose comme ça); Je suggérais que quelle que soit la méthode utilisée pour supprimer les observations non fiables, elle serait mieux développée à partir d'une étude pilote, puis appliquée dans une expérience de confirmation.
Scortchi - Réintégrer Monica

0

Il s'agit vraiment d'un problème culturel de pensée déséquilibrée, où le biais de publication conduit à favoriser des résultats positifs et notre nature concurrentielle exige que les éditeurs et les chercheurs produisent des résultats d'intérêt qui sont nouveaux ou litigieux, par exemple, dans le sens de réfuter les résultats de quelqu'un d'autre. Dans le domaine de la recherche médicale, des progrès considérables ont été accomplis pour remédier à ce problème par l'enregistrement obligatoire des essais et la publication des résultats avec les enregistrements des essais abandonnés qui doivent également être rendus publics. Je comprends que la publication dans des revues pour des recherches infructueuses pouvant ne pas être réalisable, il est prévu de conserver une base de données publiquement disponible. Les résultats inhabituels qui ne peuvent pas être reproduits ne sont pas nécessairement le résultat d'un délit, comme peut-être avec 50,

L'utilisation de méthodes différentes n'est pas non plus nécessairement une solution. Par exemple, quel chimiste mélangerait les réactifs de différentes manières dans différentes conditions et s'attendrait naturellement aux mêmes résultats?

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.