Pièges de la conception expérimentale: éviter les expériences mortes


27

J'ai rencontré cette citation à plusieurs reprises:

Consulter le statisticien après la fin d'une expérience revient souvent à lui demander de procéder à un examen post mortem. Il peut peut-être dire de quoi l'expérience est morte. - Ronald Fisher (1938)

Cela me semble peut-être un peu présomptueux. Les seuls exemples que j'ai jamais trouvés décrivant comment les expériences meurent sans une bonne conception sont autour du manque de contrôles ou de mauvais contrôles. Par exemple, des expériences qui contrôlent l'application d'un engrais, mais ne contrôlent pas l'environnement requis pour l'application. C'est peut-être juste moi, mais il semble qu'une lecture rapide de la section Wikipedia sur les principes de conception de Fisher couvrirait la plupart des bases.

En tant que statisticien, à quelle fréquence voyez-vous la conception de problèmes liés aux expériences avec les données? Sont-ils toujours liés aux quelques facteurs mentionnés par Fisher, ou y a-t-il d'autres pièges graves que nous, scientifiques non qualifiés en statistique, devrions rechercher?


4
Combien de fois: très souvent. Appeler l'expérience «morte» va généralement trop loin, mais de nombreuses expériences que je vois auraient pu être bien meilleures avec seulement de légers changements dans la conception.
mark999

3
J'en ai vu quelques-uns. Bien que cela puisse être présomptueux maintenant , rappelez-vous que lorsque Fisher l'a dit, vous ne pouviez pas simplement rechercher wikipedia. Le taux a peut-être été beaucoup plus élevé au début.
Glen_b -Reinstate Monica

4
Ravi que vous souleviez ce point. Je suis également curieux de savoir ce qui pourrait être la première fois que je vois un quadruple qualificatif: "Pour moi, cela semble peut-être un peu présomptueux." :-)
rolando2

1
@ rolando2: Hé, bien c'est Fisher. Il a gagné tous ces qualificatifs: D
naught101

5
J'ai vu - littéralement - plusieurs milliers d'ensembles de données au cours de ma carrière (et pratiquement aucun d'entre eux n'a été collecté selon un plan révisé par un statisticien). La plupart d'entre elles ont été collectées à des fins formelles, telles que la satisfaction des exigences réglementaires. Je ne me souviens pas d' un seul qui n'ait pas eu de problèmes liés à la conception (même si parfois ils étaient mineurs). Cela ne veut pas dire que les ensembles de données étaient inutiles ou "morts": mais dans presque tous les cas, ma tâche consistait (à poursuivre l'analogie médicale) à ressusciter d'abord l'ensemble de données, puis à l'appliquer à sa destination, si possible.
whuber

Réponses:


14

Je crois que ce que Fisher a voulu dire dans sa célèbre citation va au-delà de dire "Nous ferons une conception factorielle complète pour notre étude" ou une autre approche de conception. Consulter un statisticien lors de la planification de l'expérience signifie penser à tous les aspects du problème de manière intelligente, y compris l'objectif de la recherche, quelles variables sont pertinentes, comment les collecter, la gestion des données, les écueils, l'évaluation intermédiaire du déroulement de l'expérience et bien plus encore plus. Souvent, je trouve important de voir concrètement tous les aspects de l'expérience proposée pour vraiment comprendre où se situent les difficultés.

Mon expérience provient principalement des applications médicales. Certains des problèmes que j'ai rencontrés qui auraient pu être évités en consultant un statisticien au préalable:

  • La taille insuffisante de l'échantillon est bien sûr le numéro un sur cette liste. Souvent, les données d'études antérieures auraient été disponibles et il aurait été facile de donner une estimation raisonnable de la taille de l'échantillon nécessaire. Dans ces cas, le seul recours est souvent de faire une analyse purement descriptive des données et de promettre des recherches plus approfondies dans le document (ne pas publier n'est généralement pas une option après que les médecins aient investi un temps précieux).
  • L'exécution des expériences est laissée à la convenance et au hasard au lieu de la conception. Un exemple sur lequel je travaille actuellement a des mesures recueillies au fil du temps. Les temps de mesure, la fréquence de mesure et la fin de la période de surveillance varient énormément entre les individus. Augmenter le nombre de mesures par individu et fixer les dates de mesure et la fin de la période de surveillance aurait été assez peu de travail supplémentaire (dans ce cas) et aurait été très bénéfique pour l'étude.
  • Mauvais contrôle des facteurs de nuisance qui auraient pu être facilement contrôlés. Par exemple, des mesures ont parfois été effectuées le jour de la collecte des échantillons et parfois plus tard, laissant la possibilité que l'échantillon se soit dégradé.
  • Mauvaise gestion des données, y compris mon préféré "J'ai arrondi les données avant de les mettre dans l'ordinateur, car la machine est inexacte dans ses mesures". Souvent, les données pertinentes ne sont tout simplement pas collectées et il est impossible de les obtenir après coup.

Souvent, les problèmes d'une étude remontent encore plus loin, à la conception initiale de la recherche:

  • Les données sont parfois collectées sans objectif clair et juste l'hypothèse qu'elles seront utiles d'une manière ou d'une autre. La production d'hypothèses et de «résultats significatifs» est laissée au statisticien.
  • Et le contraire: les données sont grattées ensemble dans le but de prouver un point spécifique que l'IP a dans sa tête, quelles que soient les données et ce qui peut réellement être prouvé avec. Cette fois, le statisticien est simplement censé mettre son empreinte sur les conclusions pré-écrites sans que les conclusions soient ajustées face aux données.

Jusqu'à présent, cela ressemble principalement à la souffrance du statisticien et peut-être à l'intégrité scientifique lorsque le PI essaie de pousser des conclusions non étayées par les données (toujours une discussion amusante). Mais l'équipe expérimentale souffre également, car elle fait un travail supplémentaire inutile (tout en ne faisant pas le travail nécessaire) pendant la phase expérimentale et doit passer beaucoup plus de temps à discuter avec son statisticien après coup, car elle n'a pas obtenu ses conseils avant. Et bien sûr, le document final sera pire, aura moins de conclusions (et plus de "conjectures") et ne fera probablement pas partie de la revue à fort impact que l'IP voulait.


En ce qui concerne le deuxième de votre deuxième ensemble de puces, je pense que la logique normale d'une étude est de recueillir des données dans le but de prouver des points spécifiques.
Robert Jones

1
Vous avez bien sûr tout à fait raison. J'étais un peu trop petit là-bas. Ce que je voulais mentionner était un scénario où un PI très déterminé à prouver un point et des données de mauvaise qualité qui ne peuvent pas prouver ce point (souvent en raison de problèmes de conception fondamentaux) se réunissent.
Rob Hall

12

Deux mots: Taille de l'échantillon ... Une analyse de puissance est un must. En incluant un statisticien compétent dans votre équipe dès le départ, vous vous épargnerez probablement beaucoup de frustration lorsque vous rédigez les résultats et les sections de discussion de votre manuscrit ou rapport.

Il est bien trop courant qu'un chercheur principal recueille des données avant de consulter un statisticien dans l'attente d'un «modèle prédictif» ou d'une «relation causale» à partir d'un échantillon de moins de 30 sujets. Si l'IP avait consulté un statisticien avant de recueillir des données, le statisticien aurait pu informer l'IP, après des analyses appropriées, de recueillir davantage de données / sujets ou de restructurer les objectifs de son plan / projet d'analyse.


1
Je ne suis pas d'accord avec "Une analyse de puissance est un must". Je pense que beaucoup de gens surestiment l'importance de l'analyse de puissance.
mark999

3
@ mark999: Peut-être, mais cela ne nie pas l'importance d'effectuer une sorte d'analyse de puissance avant de faire l'expérience, ce que je comprends être le point de Matt.
Scortchi - Réintégrer Monica

3
@ mark999: Ils peuvent se révéler utiles, bien sûr. Mais dans quelles circonstances ne recommanderiez-vous pas d'effectuer une sorte d'analyse de puissance (j'inclus l'estimation de la largeur attendue des intervalles de confiance) avant de faire une expérience? Je ne peux penser qu'à (1) une étude pilote, où vous êtes uniquement intéressé à parcourir le protocole et à estimer grossièrement l'erreur, et (2) une expérience pour laquelle vous ne pouvez pas choisir une taille d'échantillon pour une raison quelconque, en faisant analyse de puissance redondante.
Scortchi - Réintégrer Monica

2
@ mark999: Je pense que oui. Pour votre cas (B), je suggère une étude pilote -> une analyse de puissance -> une expérience pour tester des hypothèses ou estimer la taille des effets comme un plan irréprochable.
Scortchi - Réintégrer Monica

3
Même si vous avez une taille d'échantillon fixe, je ne vois aucune raison de vous enfouir la tête dans le sable et d'éviter une analyse de puissance (à part les réponses raisonnables aux contraintes de ressources et l'ignorance).
Andy W

11

Je suppose que cela dépend de la façon dont vous interprétez strictement le mot «conception». Il est parfois considéré comme signifiant des blocs complètement randomisés contre des blocs randomisés, etc. Je ne pense pas avoir vu une étude qui en soit morte. De plus, comme d'autres l'ont mentionné, je soupçonne que «mort» est trop fort, mais cela dépend de la façon dont vous interprétez le terme. J'ai certainement vu des études qui étaient «non significatives» (et que les chercheurs n'ont pas essayé de publier par la suite); dans l'hypothèse que ces études auraient pu être «significatives» si elles avaient été menées différemment (selon des conseils évidents que j'aurais donnés), et donc publiées, pourraient être qualifiées de «décédées». À la lumière de cette conception, le problème de puissance soulevé par @RobHall et @MattReichenbach est assez simple, mais la puissance de l'échantillon est plus importante que la taille de l'échantillon, et celles-ci pourraient s'inscrire dans une conception plus souple du «design». Voici quelques exemples:

  • Ne recueillant / enregistrant / ni ne jetant pas d'informations,
    j'ai travaillé sur une étude où les chercheurs souhaitaient savoir si un trait particulier était lié à un cancer. Ils ont obtenu des souris à partir de deux lignées (c.-à-d., Des lignées génétiques, les souris ont été élevées pour certaines propriétés) où une lignée devait avoir plus du trait que l'autre. Cependant, le trait en question n'a pas été réellement mesuré, même s'il aurait pu l'être. Cette situation est analogue à la dichotomisation ou au regroupement d'une variable continue, ce qui réduit la puissance. Cependant, même si les résultats étaient «significatifs», ils seraient moins instructifs que si nous connaissions l'ampleur du trait pour chaque souris.

    Un autre cas dans cette même rubrique n'est pas de penser et de rassembler des covariables évidentes.

  • Mauvaise conception du questionnaire
    J'ai récemment travaillé sur une étude où une enquête de satisfaction des patients était administrée sous deux conditions. Cependant, aucun des éléments n'a fait l'objet d'une notation inversée. Il est apparu que la plupart des patients venaient de descendre la liste et marquaient tous les 5 ( fortement d'accord ), peut-être même sans lire les articles. Il y avait d'autres problèmes, mais c'est assez évident. Curieusement, le boursier chargé de mener l'étude m'a dit que sa participation l'avait explicitement encouragée à ne pas examiner d'abord l'étude avec un statisticien, même si nous sommes libres et facilement disponibles pour une telle consultation.


Whoa ... avec le premier, que mesuraient- ils? cela semble un peu, euh, évident. Ou leur a-t-on donné au préalable l'assurance que les traits étaient différents dans les différentes lignées? Le deuxième exemple est cool, une sorte de randomisation à laquelle la plupart des gens ne penseraient pas.
naught101

5
Il testait juste 1 souche contre l'autre. Le trait en question a vraiment tendance à être plus élevé pour l'une des lignes, mais il y a un certain chevauchement - les distributions ne sont pas totalement séparées.
gung - Rétablir Monica

J'ai eu une expérience similaire au point 1: un dispositif microfluidique a été installé pour reconnaître un certain type de cellule. Un mélange de cellules à reconnaître et de cellules témoins a été injecté et un flux vidéo + flux de signaux à utiliser pour la reconnaissance ont été acquis. Malheureusement, bien que le flux vidéo puisse être utilisé comme référence pour savoir s'il y avait une cellule sur le détecteur à un moment donné, il n'y avait aucun moyen de dire de quel type il s'agissait réellement, donc aucun moyen de déterminer si un signal était vraiment positif ou faux négatif ou aucun signal était vrai négatif ou faux positif ...
cbeleites soutient Monica

8

J'ai vu ce genre de problème dans des expériences de type enquête et psychologiques.

Dans un cas, l'expérience entière a dû être mise à la craie pour une expérience d'apprentissage. Il y a eu des problèmes à plusieurs niveaux qui ont abouti à une confusion de résultats, mais des résultats qui semblaient étayer quelque peu l'hypothèse. Finalement, j'ai pu aider à planifier une expérience plus rigoureuse, qui avait essentiellement assez de pouvoir pour rejeter l'hypothèse.

Dans l'autre cas, on m'a remis une enquête qui avait déjà été conçue et exécutée, et il y avait plusieurs problèmes qui ont eu pour conséquence que plusieurs domaines d'intérêt ont été affectés. Dans un domaine clé, par exemple, ils ont demandé combien de fois les clients ont été renvoyés d'un événement parce qu'il était plein à leur arrivée. Le problème est qu'il n'y a pas d'intervalle de temps sur la question, vous ne pouvez donc pas faire la différence entre quelqu'un qui a essayé d'assister 4 fois et qui s'est vu refuser 4 fois et quelqu'un qui a essayé d'assister 40 fois et qui n'a été refusé que 4 fois .

Je ne suis pas un statisticien qualifié, de la capitale, mais s'ils m'avaient contacté au préalable, j'aurais pu les aider à résoudre ces problèmes et à obtenir de meilleurs résultats. Dans le premier cas, cela aurait quand même été décevant, "Désolé, votre hypothèse semble extrêmement improbable", mais cela aurait pu leur faire économiser une seconde expérience. Dans le second cas, cela leur aurait donné des réponses à certaines questions importantes et aurait rendu les résultats plus nets. (Un autre problème qu'ils ont rencontré est qu'ils ont enquêté sur plusieurs sites au fil du temps et qu'au moins certaines personnes ont donc été interrogées plusieurs fois, sans poser de question comme "Avez-vous mené cette enquête ailleurs?")

Peut-être pas des problèmes statistiques en soi, mais dans ces deux cas, des experts du domaine intelligents et bien formés ont créé des instruments qui étaient défectueux, et les résultats ont été une expérience morte et une expérience avec des membres amputés.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.