Quelles sont les conditions de données que nous devons surveiller, où les valeurs de p ne sont peut-être pas le meilleur moyen de déterminer la signification statistique? Y a-t-il des types de problèmes spécifiques qui entrent dans cette catégorie?
Quelles sont les conditions de données que nous devons surveiller, où les valeurs de p ne sont peut-être pas le meilleur moyen de déterminer la signification statistique? Y a-t-il des types de problèmes spécifiques qui entrent dans cette catégorie?
Réponses:
Vous posez des questions sur le dragage de données , ce qui se produit lorsque vous testez un très grand nombre d'hypothèses par rapport à un ensemble de données ou que vous testez des hypothèses par rapport à un ensemble de données suggérées par les mêmes données.
En particulier, consultez Risque d'hypothèses multiples et Testez les hypothèses suggérées par les données .
La solution consiste à utiliser une sorte de correction pour le taux de fausses découvertes ou le taux d' erreur Familywise , comme la méthode de Scheffé ou la correction (très old-school) de Bonferroni .
D'une manière un peu moins rigoureuse, il peut être utile de filtrer vos découvertes par intervalle de confiance pour le rapport de cotes (OR) pour chaque résultat statistique. Si l'intervalle de confiance à 99% pour le rapport de cotes est de 10 à 12, alors le OU est <= 1 avec une probabilité extrêmement faible, surtout si la taille de l'échantillon est également grande. Si vous trouvez quelque chose comme ça, c'est probablement un effet fort même s'il est sorti d'un test de millions d'hypothèses.
Vous ne devez pas considérer la valeur p hors de son contexte.
Un point assez basique (comme illustré par xkcd ) est que vous devez considérer le nombre de tests que vous faites réellement. Évidemment, vous ne devriez pas être choqué de voir p <0,05 pour un test sur 20, même si l'hypothèse nulle est vraie à chaque fois.
Un exemple plus subtil de cela se produit en physique des hautes énergies et est connu sous le nom d' effet de regard ailleurs . Plus l'espace de paramètres que vous recherchez pour un signal qui pourrait représenter une nouvelle particule est grand, plus vous êtes susceptible de voir un signal apparent qui est vraiment juste dû à des fluctuations aléatoires.
Une chose que vous devez savoir est la taille de l'échantillon que vous utilisez. De très grands échantillons, tels que des économistes utilisant des données de recensement, conduiront à des valeurs de p dégonflées. Cet article «Trop gros pour échouer: les grands échantillons et le problème de la valeur de p» couvre certains des problèmes.