Je lisais cet article dans Nature dans lequel certaines erreurs sont expliquées dans le contexte de l'analyse des données. J'ai remarqué que l'erreur du tireur d'élite au Texas était particulièrement difficile à éviter:
Un piège cognitif qui attend pendant l'analyse des données est illustré par la fable du tireur d'élite du Texas: un tireur inepte qui tire un motif aléatoire de balles sur le côté d'une grange, dessine une cible autour du plus gros amas de balles et pointe fièrement son succès.
Son oeil de boeuf est évidemment risible - mais le sophisme n'est pas si évident pour les joueurs qui croient en une `` main chaude '' lorsqu'ils ont une séquence de victoires, ou pour les personnes qui voient une signification surnaturelle lorsqu'un tirage au sort apparaît comme tous les nombres impairs.
Ce n'est pas toujours évident pour les chercheurs. "Vous obtenez simplement des encouragements à partir des données, puis pensez, eh bien, c'est la voie à suivre", explique Pashler. «Vous ne réalisez pas que vous aviez 27 options différentes et vous avez choisi celle qui vous a donné les résultats les plus agréables ou les plus intéressants, et maintenant vous êtes engagé dans quelque chose qui n'est pas du tout une représentation impartiale des données. "
Je pense que ce type de travail d'exploration est courant et souvent, des hypothèses sont construites à partir de cette partie de l'analyse. Il existe toute une approche ( EDA ) dédiée à ce processus:
L'analyse exploratoire des données a été promue par John Tukey pour encourager les statisticiens à explorer les données et à formuler éventuellement des hypothèses qui pourraient conduire à de nouvelles collectes de données et à de nouvelles expériences.
Il semble que tout processus exploratoire effectué sans hypothèse préalable soit susceptible de générer de fausses hypothèses.
Notez que la description d'EDA ci-dessus parle réellement new data collection and experiments
. Je comprends qu'après la collecte de nouvelles données, une analyse de données de confirmation (CDA) est appropriée. Cependant, je ne pense pas que cette distinction soit faite très clairement, et bien qu'une séparation de l'EDA et de l'ADC soit idéale, il y a sûrement des circonstances dans lesquelles cela n'est pas possible. J'irais jusqu'à dire que suivre strictement cette séparation est rare et la plupart des pratiquants ne souscrivent pas du tout au paradigme de l'EDA.
Ma question est donc la suivante: l'EDA (ou tout autre processus informel d'exploration de données) rend-il plus susceptible de tomber dans l'erreur du tireur d'élite du Texas?