Texas sophisme tireur d'élite dans l'analyse exploratoire des données

23

Je lisais cet article dans Nature dans lequel certaines erreurs sont expliquées dans le contexte de l'analyse des données. J'ai remarqué que l'erreur du tireur d'élite au Texas était particulièrement difficile à éviter:

Un piège cognitif qui attend pendant l'analyse des données est illustré par la fable du tireur d'élite du Texas: un tireur inepte qui tire un motif aléatoire de balles sur le côté d'une grange, dessine une cible autour du plus gros amas de balles et pointe fièrement son succès.

Son oeil de boeuf est évidemment risible - mais le sophisme n'est pas si évident pour les joueurs qui croient en une `` main chaude '' lorsqu'ils ont une séquence de victoires, ou pour les personnes qui voient une signification surnaturelle lorsqu'un tirage au sort apparaît comme tous les nombres impairs.

Ce n'est pas toujours évident pour les chercheurs. "Vous obtenez simplement des encouragements à partir des données, puis pensez, eh bien, c'est la voie à suivre", explique Pashler. «Vous ne réalisez pas que vous aviez 27 options différentes et vous avez choisi celle qui vous a donné les résultats les plus agréables ou les plus intéressants, et maintenant vous êtes engagé dans quelque chose qui n'est pas du tout une représentation impartiale des données. "

Je pense que ce type de travail d'exploration est courant et souvent, des hypothèses sont construites à partir de cette partie de l'analyse. Il existe toute une approche ( EDA ) dédiée à ce processus:

L'analyse exploratoire des données a été promue par John Tukey pour encourager les statisticiens à explorer les données et à formuler éventuellement des hypothèses qui pourraient conduire à de nouvelles collectes de données et à de nouvelles expériences.

Il semble que tout processus exploratoire effectué sans hypothèse préalable soit susceptible de générer de fausses hypothèses.

Notez que la description d'EDA ci-dessus parle réellement new data collection and experiments. Je comprends qu'après la collecte de nouvelles données, une analyse de données de confirmation (CDA) est appropriée. Cependant, je ne pense pas que cette distinction soit faite très clairement, et bien qu'une séparation de l'EDA et de l'ADC soit idéale, il y a sûrement des circonstances dans lesquelles cela n'est pas possible. J'irais jusqu'à dire que suivre strictement cette séparation est rare et la plupart des pratiquants ne souscrivent pas du tout au paradigme de l'EDA.

Ma question est donc la suivante: l'EDA (ou tout autre processus informel d'exploration de données) rend-il plus susceptible de tomber dans l'erreur du tireur d'élite du Texas?

eda fallacy

— Robert Smith
source

3

Je ne sais pas exactement ce que vous entendez par "hypothèse fallacieuse". L'esprit de l'analyse exploratoire des données est d'examiner les données et d'être ouvert à une variété de modèles, y compris des modèles auxquels vous ne vous attendiez pas. Pas moins et pas beaucoup plus. Rien dans l'analyse exploratoire des données ne garantit de bonnes idées et rien n'exclut ou vous permet de vous passer d'une réflexion critique ou de lier ce que vous faites à la science sous-jacente (sens large). Donc, il y a un certain risque ici de critiquer l'EDA pour des choses que personne n'a nié. ou personne ne prend en charge.

— Nick Cox

3

Ce qui est le plus difficile à apprendre et à enseigner dans l'EDA, c'est précisément sur quoi les tests de signification sont censés aider (dans les comptes les plus optimistes): prendre l'habitude de ne pas surinterpréter les détails des données qui ne sont pas suffisamment importants pour mériter l'attention . Je dirais que de nombreux comptes de l'EDA ne poussent pas assez fort l'idée que pour qu'un modèle soit pris au sérieux, il doit être identifiable dans différents ensembles de données, mais cette négligence est courante dans la science statistique.

— Nick Cox

1

Merci. Le problème est que générer de nombreuses hypothèses et les tester dans le même ensemble de données est vraiment dangereux car vous êtes susceptible de confirmer l'une d'entre elles même si elle est fausse. Comme le décrit Creosote, une correction des valeurs de p serait nécessaire. Malheureusement, je n'ai jamais vu cela se faire dans la pratique.

— Robert Smith,

2

En apprenant l'EDA (français) au début des années 1980, j'ai eu l'impression qu'il était en réalité beaucoup plus facile de plier votre analyse vers la ou les conclusions escomptées qu'avec une structure statistique plus solide ...

— Xi'an

12

Si l'on considère le rôle de l'EDA strictement comme générant des hypothèses, alors l'erreur de tireur d'élite ne s'applique pas. Cependant, il est très important que les essais de confirmation ultérieurs soient en effet indépendants. De nombreux chercheurs tentent de «réconcilier les différences» avec des choses comme les analyses groupées, les méta-analyses et les méthodes bayésiennes. Cela signifie qu'au moins certaines des preuves présentées dans une telle analyse incluent "le cercle autour des trous de balles aléatoires".

— AdamO
source

5

Exactement. Le problème avec tant d'analyses exploratoires des données est que le même ensemble est utilisé à la fois pour la formation (identifier où les balles ont atterri) et pour tester (en dessinant le cercle autour d'eux).

— Michael K

11

Cela donne une vision très négative de l'analyse exploratoire des données. Bien que l'argument ne soit pas faux, il dit vraiment "qu'est-ce qui peut mal tourner quand j'utilise un outil très important de la mauvaise manière?"

L'acceptation de valeurs de p non ajustées à partir des méthodes EDA entraînera des taux d'erreur de type I considérablement gonflés. Mais je pense que Tukey ne serait pas content que quelqu'un fasse ça. Le but de l'EDA n'est pas de tirer des conclusions définitives sur les relations dans les données, mais plutôt de rechercher de nouvelles relations potentielles dans les données à suivre.

Oublier cette étape dans le processus scientifique plus large est essentiellement un obstacle à la science pour ne jamais être en mesure de trouver de nouveaux aspects intéressants de nos données, en dehors de la déduction logique pure. Avez-vous déjà essayé de déduire logiquement comment la surexpression d'un ensemble de gènes affecterait la survie d'une cellule? Astuce: ce n'est pas très facile (l'une de nos blagues préférées parmi le personnel de bioinformatique à mon travail était quand un physicien a demandé "Pourquoi ne simulez-vous pas simplement les propriétés physiques de différentes interactions géniques? C'est un espace de paramètres finis.")

Personnellement, je pense que la confusion à ce sujet peut entraîner un grand ralentissement des progrès scientifiques. Je connais trop de chercheurs non statistiques qui diront qu'ils ne veulent pas faire de procédures d'EDA sur des données préliminaires , car ils "savent que l'EDA peut être mauvaise".

En conclusion, il est absolument vrai que l'utilisation de méthodes EDA et leur traitement comme des méthodes d'analyse de données de confirmation conduiront à des résultats invalides. Cependant, le manque d'utilisation appropriée de l'EDA peut conduire à presque aucun résultat.

— Cliff AB
source

Merci. Je ne m'inquiéterais pas trop d'avoir peu de personnes engagées dans une sorte d'analyse exploratoire. Je pense que le contraire est vrai; beaucoup de gens font ce travail exploratoire, mais probablement sans prendre les précautions adéquates pour éviter les erreurs de type I comme vous l'avez décrit. Cependant, il est intéressant que vous connaissiez des gens qui ont une opinion négative sur EDA. S'ils ne veulent pas le faire dans les données préliminaires, alors quand se sentent-ils à l'aise de travailler avec l'EDA (ou similaire à l'EDA)?

— Robert Smith

D'après mon expérience, les chercheurs non statistiques sont habitués à entendre "les comparaisons multiples sont problématiques" et donc quand ils me viennent avec des données, ils ont hâte de dire qu'ils veulent éviter de faire des comparaisons multiples, même avec des données préliminaires. Bien sûr, une compréhension plus complète du problème serait que vous souhaitez éviter les comparaisons multiples dans une étude CDA.

— Cliff AB

Je comprends. Cela a plus de sens.

— Robert Smith

5

Il semble que tout processus exploratoire effectué sans hypothèse préalable soit susceptible de générer de fausses hypothèses.

Je tempérerais cette affirmation et l'exprimerais un peu différemment: le choix d'une hypothèse à tester sur la base des données sape le test si l'on n'utilise pas l'hypothèse nulle correcte. L'idée maîtresse de l'article Nature est, essentiellement, qu'il est facile pour les analystes de se leurrer en ignorant toutes les comparaisons multiples qu'ils font implicitement pendant l'exploration.

La nature cite Andrew Gelman, mais ne mentionne pas son article avec Eric Loken sur ce sujet. Un extrait:

Lorsque des critiques de comparaisons multiples ont été formulées à l'égard de certains des articles dont nous discutons ici, les chercheurs n'ont jamais répondu qu'ils avaient choisi à l'avance tous les détails de leur traitement et de leur analyse; ils affirment plutôt n'avoir choisi qu'une seule analyse pour les données particulières qu'ils ont vues . Aussi intuitive que cette défense puisse paraître, elle ne répond pas à la préoccupation fréquentiste fondamentale des comparaisons multiples.

Un autre:

Ce n'est pas que les chercheurs ont effectué des centaines de comparaisons différentes et choisi des statistiques statistiquement significatives. Au lieu de cela, ils commencent avec une idée quelque peu formée dans leur esprit de la comparaison à effectuer, et ils affinent cette idée à la lumière des données. Ils ont vu un motif en rouge et rose, et ils ont combiné les couleurs.

En résumé:

Il existe une correspondance un-à-plusieurs des hypothèses scientifiques aux statistiques.

Et encore une fois, je souligne:

Dans tous les cas que nous avons discutés, l'analyse publiée a une histoire qui est cohérente avec les hypothèses scientifiques qui ont motivé le travail, mais d'autres modèles de données (qui, étant donné la taille des échantillons, auraient pu facilement se produire par hasard) auraient naturellement conduit à différentes analyses de données (par exemple, l'accent mis sur les effets principaux plutôt que sur les interactions, ou un choix différent de sous-ensembles de données à comparer) qui auraient également pu être utilisés pour étayer les hypothèses de recherche. Le résultat reste, comme nous l'avons écrit ailleurs, une sorte de machine à produire et à faire connaître des motifs aléatoires.

Bref, ce n'est pas que l'EDA mène à une "fausse hypothèse"; c'est que tester une hypothèse avec le même ensemble de données qui a provoqué l'hypothèse peut conduire à de fausses conclusions.

Si vous êtes intéressé à vaincre cet obstacle, Gelman a un autre article faisant valoir que bon nombre de ces problèmes disparaissent dans un cadre bayésien, et l'article avec Loken fait référence à la "réplication avant publication" comme décrit de manière anecdotique dans la première section de cet article .

— Sean Easter
source

Merci. Très intéressant. Je vais jeter un œil à l'article de Gelman sur les comparaisons multiples.

— Robert Smith

3

Presque par définition, oui, bien sûr, l'EDA sans CDA attire les tireurs d'élite du Texas.

$p$ $p$

— Créosote
source

Merci. Oui, une correction serait nécessaire. Je ne pense pas que cela soit très courant.

— Robert Smith,

3

Juste pour ajouter aux réponses déjà excellentes: Il existe un juste milieu entre un CDA complet et l'acceptation de vos résultats EDA à leur valeur nominale. Une fois que vous avez trouvé une caractéristique d'intérêt (ou hypothèse) possible, vous pouvez avoir une idée de sa robustesse en effectuant des simulations de validation croisée (CV) ou de bootstrap. Si vos résultats ne dépendent que de quelques observations clés, CV ou Bootstrap montreront que de nombreux échantillons de replis (CV) ou boostrap ne reproduisent pas la caractéristique observée.

Ce n'est pas une méthode infaillible, mais c'est une bonne vérification intermédiaire avant d'aller chercher un CDA complet (ou de tenir délibérément un "ensemble de validation" de votre pool de données initial).

0

Le critère le plus rigoureux pour la sélection du modèle de données est le degré auquel se rapproche la complexité de Kolmogorov des données - c'est-à-dire le degré auquel elles compressent sans perte les données. Cela peut, en théorie, résulter de la seule analyse exploratoire des données.

Voir " Déconvolution causale par des modèles génératifs algorithmiques "

— James Bowery
source