Le problème des expéditions de pêche est le suivant: si vous testez suffisamment d’hypothèses, l’une d’elles sera confirmée avec une valeur p faible. Laissez-moi vous donner un exemple concret.
Imaginez que vous meniez une étude épidémiologique. Vous avez trouvé 1000 patients atteints d'une maladie rare. Vous voulez savoir ce qu'ils ont en commun. Donc, vous commencez à tester - vous voulez voir si une caractéristique particulière est surreprésentée dans cet exemple. Au début, vous testez le sexe, la race, certains antécédents familiaux pertinents (le père est décédé d'une maladie cardiaque avant l'âge de 50 ans,…), mais finalement, comme vous avez du mal à trouver quoi que ce soit qui "colle", vous commencez à ajouter toutes sortes d'autres facteurs pourrait se rapporter à la maladie:
- est végétarien
- a voyagé au Canada
- collège terminé
- est marié
- a des enfants
- a des chats
- a des chiens
- boit au moins 5 verres de vin rouge par semaine
…
Maintenant, voici la chose. Si je sélectionne suffisamment d'hypothèses "aléatoires", il est probable que l'une d'elles au moins aboutira à une valeur p inférieure à 0,05 - car l'essence même de la valeur de p est "la probabilité d'avoir tort de rejeter l'hypothèse nulle lorsque est sans effet ". En d'autres termes, en moyenne, pour 20 hypothèses fictives que vous testez, l'une d'elles vous donnera un ap de <0,05 .
C’est SO très bien résumé dans le dessin animé XKCD http://xkcd.com/882/ :
La tragédie est que même si un auteur individuel ne réalise pas 20 tests d’hypothèses différents sur un échantillon afin de rechercher une signification, 19 autres auteurs pourraient faire la même chose; et celui qui "trouve" une corrélation a maintenant un article intéressant à écrire, et qui est susceptible d'être accepté pour publication ...
Cela conduit à une tendance malheureuse à des résultats irréproductibles. Le meilleur moyen de se prémunir contre cela en tant qu'auteur est de placer la barre plus haut. Au lieu de tester le facteur individuel, demandez-vous "si je teste N hypothèses, quelle est la probabilité d'obtenir au moins un faux positif". Lorsque vous testez réellement des "hypothèses de pêche", vous pouvez envisager une correction de Bonferroni pour vous protéger contre cela - mais les gens ne le font pas souvent.
Le Dr Ioannides a publié des articles intéressants - présentés dans le Atlantic Monthly, spécifiquement sur ce sujet.
Voir aussi cette question précédente avec plusieurs réponses perspicaces.
mettre à jour pour mieux répondre à tous les aspects de votre question:
Si vous avez peur de "pêcher", mais que vous ne savez vraiment pas quelle hypothèse formuler, vous pouvez certainement scinder vos données en sections "exploration", "réplication" et "confirmation". En principe, cela devrait limiter votre exposition aux risques décrits précédemment: si vous avez une valeur ap de 0,05 dans les données d'exploration et que vous obtenez une valeur similaire dans les données de réplication et de confirmation, vous risquez de vous tromper. Un bel exemple de "bien faire les choses" a été présenté dans le British Medical Journal (une publication très respectée avec un facteur d'impact de 17 ans et plus)
Exploration et confirmation des facteurs associés à une grossesse sans complication chez les femmes nullipares: étude de cohorte prospective, Chappell et al.
Voici le paragraphe pertinent:
Nous avons divisé l’ensemble de données de 5628 femmes en trois parties: un ensemble de données d’exploration comprenant les deux tiers des femmes d’Australie et de Nouvelle-Zélande, choisies au hasard (n = 2129); un jeu de données de réplication local du tiers restant des femmes d'Australie et de Nouvelle-Zélande (n = 1067); et un ensemble de données de confirmation externe et géographiquement distinct de 2432 femmes européennes du Royaume-Uni et de la République d'Irlande.
En revenant un peu en arrière dans la littérature, il existe un bon article de Altman et al. Intitulé «Recherche pronostique et pronostique: valider un modèle pronostique», qui va beaucoup plus en profondeur et suggère des moyens de ne pas tomber cette erreur. Les "points principaux" de l'article:
Les modèles non validés ne doivent pas être utilisés en pratique clinique Lors de la validation d'un modèle pronostique, il convient d'évaluer l'étalonnage et la discrimination. La validation doit être effectuée sur une donnée différente de celle utilisée pour développer le modèle, de préférence chez des patients d'autres centres. Les modèles peuvent ne pas fonctionner correctement en raison de lacunes dans les méthodes de développement ou parce que le nouvel échantillon est trop différent de l’original
Notez en particulier la suggestion de valider (je paraphrase) avec des données provenant d’autres sources - c’est-à-dire qu’il ne suffit pas de scinder arbitrairement vos données en sous-ensembles, mais vous devez faire tout ce qui est en votre pouvoir pour prouver que «l’apprentissage» se déroule à partir d’un ensemble. d’expériences peuvent être appliquées à des données provenant d’un ensemble d’expériences différent. C'est une barre plus haute, mais cela réduit davantage le risque qu'un biais systématique dans votre configuration crée des "résultats" qui ne peuvent pas être vérifiés indépendamment.
C'est un sujet très important - merci d'avoir posé la question!