Dans l' inférence fréquentiste , nous voulons déterminer la fréquence à laquelle quelque chose se serait produit si un processus stochastique donné avait été réalisé à plusieurs reprises. C'est le point de départ de la théorie des valeurs de p, des intervalles de confiance, etc. Cependant, dans de nombreux projets appliqués, le processus "donné" n'est pas vraiment donné, et le statisticien doit faire au moins un travail de spécification et de modélisation. Cela peut être un problème étonnamment ambigu, comme c'est le cas dans ce cas.
Modélisation du processus de génération de données
Sur la base des informations fournies, notre meilleur candidat semble être le suivant:
- Si le compteur 100V indique 100V, l'ingénieur mesure à nouveau avec le compteur 1000V s'il est opérationnel. Sinon, il marque simplement 100V et passe à autre chose.
Mais n'est-ce pas un peu injuste pour notre ingénieur? En supposant qu'il est ingénieur et pas seulement technicien, il comprend probablement pourquoi il doit mesurer à nouveau lorsque le premier compteur indique 100 V; c'est parce que le compteur est saturé à la limite supérieure de sa plage, donc n'est plus fiable. Alors peut-être que l'ingénieur ferait vraiment
- Si le compteur 100 V indique 100, l'ingénieur mesure à nouveau avec le compteur 1000 V s'il est opérationnel. Sinon, il marque simplement 100 V, ajoute un signe plus pour indiquer la mesure saturée et passe à autre chose.
Ces deux processus sont cohérents avec les données dont nous disposons, mais ce sont des processus différents et ils produisent des intervalles de confiance différents. Le processus 2 est celui que nous préférerions en tant que statisticiens. Si les tensions sont souvent bien au-dessus de 100 V, le processus 1 a un mode de défaillance potentiellement catastrophique dans lequel les mesures sont parfois gravement sous-estimées, car les données sont censurées à notre insu. L'intervalle de confiance s'élargira en conséquence. Nous pourrions atténuer cela en demandant à l'ingénieur de nous dire quand son compteur 1000V ne fonctionne pas, mais c'est vraiment juste une autre façon de s'assurer que nos données sont conformes au processus 2.
Si le cheval a déjà quitté la grange et que nous ne pouvons pas déterminer quand les mesures sont et ne sont pas censurées, nous pourrions essayer de déduire des données les moments où le compteur 1000V ne fonctionne pas. En introduisant une règle d'inférence dans le processus, nous créons effectivement un nouveau processus 1.5 distinct de 1 et 2. Notre règle d'inférence fonctionnerait parfois et parfois non, de sorte que l'intervalle de confiance du processus 1.5 serait de taille intermédiaire par rapport aux processus 1 et 2.
En théorie, il n'y a rien de mal ou de suspect à propos d'une statistique unique ayant trois intervalles de confiance différents associés à trois processus stochastiques plausiblement représentatifs différents. En pratique, peu de consommateurs de statistiques souhaitent trois intervalles de confiance différents. Ils en veulent un, celui qui est basé sur ce qui se serait réellement passé, si l'expérience avait été répétée plusieurs fois. Donc, typiquement, la statisticienne appliquée considère les connaissances du domaine qu'elle a acquises au cours du projet, fait une supposition éclairée et présente l'intervalle de confiance associé au processus qu'elle a deviné. Ou elle travaille avec le client pour formaliser le processus, il n'est donc pas nécessaire de deviner à l'avenir.
Comment répondre aux nouvelles informations
Malgré l'insistance du statisticien dans l'histoire, l'inférence fréquentiste n'exige pas que nous répétions les mesures lorsque nous obtenons de nouvelles informations suggérant que le processus stochastique générateur n'est pas tout à fait ce que nous avions initialement conçu. Cependant, si le processus va se répéter, nous devons nous assurer que toutes les répétitions sont cohérentes avec le processus du modèle supposé par l'intervalle de confiance. Nous pouvons le faire en modifiant le processus ou en changeant notre modèle.
Si nous modifions le processus, nous devrons peut-être éliminer les données antérieures qui ont été collectées de manière non cohérente avec ce processus. Mais ce n'est pas un problème ici, car toutes les variations de processus que nous envisageons ne sont différentes que lorsque certaines données sont supérieures à 100 V, et cela ne s'est jamais produit dans ce cas.
Quoi que nous fassions, le modèle et la réalité doivent être alignés. Ce n'est qu'alors que le taux d'erreur fréquentiste théoriquement garanti sera ce que le client obtient réellement lors de l'exécution répétée du processus.
L'alternative bayésienne
D'un autre côté, si tout ce qui nous intéresse vraiment, c'est la plage probable de la vraie moyenne pour cet échantillon, nous devrions rejeter complètement le fréquentisme et rechercher les personnes qui vendent la réponse à cette question - les Bayésiens. Si nous empruntons cette voie, tous les marchandages sur les contrefactuels deviennent inutiles; tout ce qui compte, c'est la priorité et la probabilité. En échange de cette simplification, nous perdons tout espoir de garantir un taux d'erreur sous la répétition de "l'expérience".
Pourquoi l'agitation?
Cette histoire a été construite pour faire ressembler les statisticiens fréquentistes à des histoires stupides sans raison. Honnêtement, qui se soucie de ces contrefactuels stupides? La réponse, bien sûr, est que tout le monde devrait s'en soucier. Des domaines scientifiques d'une importance vitale souffrent actuellement d'une grave crise de réplication , ce qui suggère que la fréquence des fausses découvertes est beaucoup plus élevée que prévu dans la littérature scientifique. L'un des moteurs de cette crise, bien qu'il ne soit en aucun cas le seul , est la montée du p-hacking , qui est lorsque les chercheurs jouent avec de nombreuses variantes d'un modèle, contrôlant différentes variables, jusqu'à ce qu'elles prennent de l'importance.
Le piratage informatique a été largement vilipendé dans les médias scientifiques populaires et la blogosphère, mais peu de gens comprennent réellement ce qui ne va pas dans le piratage informatique et pourquoi. Contrairement à l'opinion statistique populaire, il n'y a rien de mal à regarder vos données avant, pendant et après le processus de modélisation. Ce qui ne va pas, c'est de ne pas rapporter les analyses exploratoires et comment elles ont influencé le cours de l'étude. Ce n'est qu'en examinant l'ensemble du processus que nous pourrons même éventuellement déterminer quel modèle stochastique est représentatif de ce processus et quelle analyse fréquentiste est appropriée pour ce modèle, le cas échéant.
Prétendre qu'une certaine analyse fréquentiste est appropriée est une affirmation très sérieuse. Faire cette affirmation implique que vous vous liez à la discipline du processus stochastique que vous avez choisi, ce qui implique tout un système de contrefactuels sur ce que vous auriez fait dans différentes situations. Vous devez réellement vous conformer à ce système pour que la garantie fréquentiste s'applique à vous. Très peu de chercheurs, en particulier ceux dans les domaines qui mettent l'accent sur l'exploration ouverte, se conforment au système et ne signalent pas scrupuleusement leurs écarts; c'est pourquoi nous avons maintenant une crise de réplication entre nos mains. (Certains chercheurs respectés ont fait valoir que cette attente est irréaliste, une position avec laquelle je sympathise, mais qui dépasse le cadre de cet article.)
Il peut sembler injuste que nous critiquions des articles publiés sur la base d'une affirmation sur ce qu'ils auraient fait si les données avaient été différentes. Mais c'est la nature (quelque peu paradoxale) du raisonnement fréquentiste: si vous acceptez le concept de la valeur p, vous devez respecter la légitimité de modéliser ce qui aurait été fait avec des données alternatives. (Gelman et Loken, 2013)
Dans les études qui sont relativement simples et / ou standardisées, comme les essais cliniques, nous pouvons ajuster pour des choses comme les comparaisons multiples ou séquentielles et maintenir le taux d'erreur théorique; dans des études plus complexes et exploratoires, un modèle fréquentiste peut être inapplicable car le chercheur peut ne pas être pleinement conscient de toutes les décisions prises , encore moins les enregistrer et les présenter explicitement. Dans de tels cas, le chercheur doit (1) être honnête et franc sur ce qui a été fait; (2) présentent des valeurs de p avec de fortes mises en garde, ou pas du tout; (3) envisager de présenter d'autres sources de données, telles que la plausibilité préalable de l'hypothèse ou une étude de réplication de suivi.