Quel est le problème avec la bande dessinée Frequentists vs. Bayesians de XKCD?

113

Numéro de bande dessinée xkcd 1132

Cette bande dessinée xkcd (Frequentists vs. Bayesians) se moque d’un statisticien fréquentiste qui obtient un résultat manifestement faux.

Cependant, il me semble que son raisonnement est en fait correct dans le sens où il suit la méthodologie fréquentiste standard.

Donc ma question est "applique-t-il correctement la méthodologie fréquentiste?"

Si non: quelle serait une inférence fréquentiste correcte dans ce scénario? Comment intégrer les "connaissances antérieures" sur la stabilité du soleil dans la méthodologie fréquentiste?
Si oui: wtf? ;-)

bayesian frequentist

— repied2
source

17

Discussion sur le blog de Gelman: andrewgelman.com/2012/11/16808

— Glen

5

Je pense que beaucoup de choses vont mal, tant du point de vue fréquentiste que bayésien. Ma plus grande critique est la suivante: premièrement, les valeurs de p sont en fin de compte des méthodes heuristiques et sont la propriété d’un certain nombre de choses, notamment le problème statistique, les données et l’expérience. Ici, tous les trois sont grossièrement mal représentés pour cette question particulière. Deuxièmement, le "bayésien" utilise une approche fondée sur la théorie de la décision, qui n'est pas nécessairement bayésienne. C'est marrant, cependant.

— Momo

5

Pour le sortir du domaine des statistiques ... le soleil n'est pas assez massif pour aller en nova. CQFD, le bayésien a raison. ( Le soleil deviendra un géant rouge )

— Ben Brocka Le

3

@Glen et alii, en particulier, notez la réponse de Randall Munroe à Gelman: andrewgelman.com/2012/11/16808/#comment-109366

— jthetzel

2

La raison pour laquelle le statisticien fréquentiste ici est stupide n'est pas parce qu'il est fréquentiste, mais parce qu'il sait évidemment comment la machine fonctionne, sait donc qu'il s'agit d'une mesure inappropriée - et fait de toute façon une inférence.

— vendredi

44

Le problème principal est que la première expérience (Sun gone nova) n'est pas reproductible, ce qui la rend tout à fait inappropriée pour la méthodologie fréquentiste qui interprète la probabilité comme une estimation de la fréquence à laquelle un événement est donné que nous pouvons répéter l'expérience plusieurs fois. En revanche, la probabilité bayésienne est interprétée comme notre degré de croyance donnant toutes les connaissances antérieures disponibles, ce qui la rend appropriée pour le raisonnement de bon sens sur des événements ponctuels. L’expérience des jets de dés est reproductible, mais j’estime très improbable qu’un fréquentiste ignore intentionnellement l’influence de la première expérience et soit aussi confiant dans l’importance des résultats obtenus.

Bien qu'il semble que l'auteur se moque de la fréquentation fréquente d'expériences répétables et de leur méfiance à l'égard des prieurs, en attribuant l'inadéquation du dispositif expérimental à la méthodologie fréquentiste, je dirais que le thème réel de cette bande dessinée n'est pas la méthodologie fréquentiste, mais le suivi aveugle d'une méthodologie inadaptée en général. Que ce soit drôle ou non, c'est à vous (pour moi, ça l'est), mais je pense que cela induit plus en erreur qu'en clarifiant les différences entre les deux approches.

— Matija Piskorec
source

1

(+1) Une bonne référence sur cette hypothèse forte et cruciale de répétabilité dans le fréquentisme est Statistical Inference in Science (2000) , chapitre 1. (Bien qu'il y ait tellement de problèmes qu'il est difficile de dire lequel est le principal )

36

Pas si vite avec l'argument de répétabilité ... Tout d'abord, l'expérience qui peut être répétée est l'interrogation de la machine et non du soleil en nova. La vérité, c'est l'objet d'inférence fixe mais inconnu. L’expérience d’interrogation peut certainement être répétée et, si c’était encore quelques fois, la stratégie fréquentiste pourrait facilement sembler raisonnable.

— conjugateprior

6

Deuxièmement, il ne faut de toute façon pas être trop rigoureux dans le domaine de la répétabilité, de peur que les fréquentistes ne soient bloqués et ne puissent rien déduire dans des situations non expérimentales. Supposons un instant que «sun goes nova» soit l’événement candidat. Je ne suis pas physicien, mais on me dit que l'événement «le soleil passe la nova» se produit assez souvent (mais pas tellement ici), donc cela me semble être une répétition. Dans tous les cas, des personnalités comme David Cox (dans «Foundations of Statistics») disent avec enthousiasme des choses telles que: "les répétitions envisagées sont presque toujours hypothétiques . Cela en soi ne semble pas être un inconvénient".

— conjugateprior

7

Nous pourrions voir le soleil comme un échantillon aléatoire d'une population de soleils dans des univers parallèles dans lesquels nous pourrions en principe répéter l'expérience si seulement nous avions un miroir quantique! ; o)

— Dikran Marsupial

2

Pourquoi la vérification du soleil qui explose ne se répète-t-elle pas? Je vérifie chaque matin, et ça n'a pas encore explosé.

— GKFX

27

Autant que je sache, le côté fréquentiste est raisonnable jusqu'à présent:

Soit l'hypothèse que le soleil n'a pas explosé et l'hypothèse qu'il l'a. La valeur p est donc la probabilité d’observer le résultat (la machine dit "oui") sous . En supposant que la machine détecte correctement la présence d’absence de neutrinos, si la machine dit «oui» sous c’est parce que la machine nous a menti à la suite du résultat du calcul du double. Ainsi, la valeur p est de 1/36, si bien que, selon la pratique scientifique normale de Fisher, un fréquentiste rejetterait l'hypothèse nulle à un seuil de signification de 95% . $H_0$ $H_1$ $H_0$ $H_0$

Mais rejeter l'hypothèse nulle ne signifie pas que vous êtes en droit d'accepter l'hypothèse alternative, de sorte que la conclusion fréquentiste n'est pas justifiée par l'analyse. Les tests d'hypothèses Frequentist incarnent l'idée de falsificationnisme (en quelque sorte), vous ne pouvez pas prouver que rien est vrai, mais seulement réfuter. Donc, si vous voulez affirmer , vous supposez que est vrai et continuez uniquement si vous pouvez montrer que est incompatible avec les données. Cependant, cela ne signifie pas que est vrai, mais qu’il survit au test et reste une hypothèse viable, au moins aussi loin que le test suivant. $H_1$ $H_0$ $H_0$ $H_1$

Le bayésien n’est aussi que du bon sens, notant qu’il n’ya rien à perdre en faisant le pari. Je suis sûr que les approches fréquentistes, lorsque les coûts faux positif et faux négatif sont pris en compte (Neyman-Peason?), Permettraient de tirer la même conclusion que la meilleure stratégie en termes de gain à long terme.

Pour résumer: le fréquentiste et le bayésien sont négligés ici: le fréquentiste qui suit aveuglément une recette sans considérer le niveau de signification approprié, les coûts faux-positifs / faux-négatifs ou la physique du problème (c.-à-d. Ne pas utiliser son bon sens) . Le Bayésien fait preuve de négligence pour ne pas énoncer explicitement ses prieurs, mais il a de nouveau recours au bon sens. Les prieurs qu'il utilise sont évidemment corrects (il est beaucoup plus probable que la machine soit allongée que le soleil ait réellement explosé), la négligence est peut-être excusable.

— Dikran Marsupial
source

4

Rejeter l'hypothèse nulle signifie simplement que l'observation serait improbable si H0 était vraie. Vous ne devriez pas "accepter" H1 sur cette base, car il est essentiellement dit que H1 doit être vrai, car les observations seraient improbables si H0 était vrai. Cependant, les observations peuvent également être peu probables sous H1 (que le rituel nul ignore) et H1 peut être moins probable que H0 a priori (que le rituel nul ignore également). Accepter des hypothèses est une pente glissante vers l'interprétation d'un test fréquentiste comme un test bayésien, ce qui aboutit généralement à des malentendus dans des cas moins élémentaires.

— Dikran Marsupial

4

Je suis tombé sur votre commentaire. Et j'ai la même question que @glassy. Je voudrais objecter à votre commentaire que si vos hypothèses couvrent tout l’espace des événements, étant ici {"Le soleil est parti en nova", "Le soleil n’est pas parti en nova"}, j’ai du mal à comprendre votre argument, comment rejeter le " Sun est parti nova "ne mène pas automatiquement à" Sun n'est pas allé nova " Déclarer une déclaration fausse implique que sa négation doit être vraie. Ce serait bien si vous pouviez fournir un texte de référence fiable dans lequel ce point est clairement expliqué, si possible. Je serais intéressé d'en savoir plus à ce sujet.

— signifie-à-sens

3

Rejeter l'hypothèse nulle ne signifie pas automatiquement que l'hypothèse nulle est probablement fausse, mais qu'il est raisonnable de continuer avec l'hypothèse alternative. C'est (en partie) parce que le test d'hypothèse fréquentiste ne prend pas en compte les probabilités antérieures des hypothèses. Plus fondamentalement, les méthodes fréquentistes ne peuvent pas être utilisées pour attribuer une probabilité à la vérité d'une hypothèse spécifique, aussi le lien entre "on peut rejeter l'hypothèse nulle" et "l'hypothèse nulle est probablement fausse" est totalement subjectif, dans la mesure où Je vois.

— Dikran Marsupial

2

C’est un peu ce que je veux dire, décider si nous acceptons H1 est subjectif et n’est pas une conséquence nécessaire du résultat du test "le rejet de H0 entraîne généralement l’acceptation de H1". Le problème est que les informations dont vous avez besoin pour prendre la décision [P (H0), P (H1), P (Z | H1)] n'apparaissent pas dans le test. Une partie de ces informations est partiellement incluse dans la définition du seuil, mais elle est généralement incomplète et souvent laissée sans explication et sans justification. Les prieurs sont toujours là dans les tests fréquentistes, également subjectifs, mais implicites - le pire des deux mondes! ; o)

— Dikran Marsupial

3

α

$\alpha$

\neq

$\ne$

25

Pourquoi ce résultat semble "faux?" Un Bayésien dirait que le résultat semble contre-intuitif, car nous avons des croyances "antérieures" sur le moment où le soleil va exploser, et les preuves fournies par cette machine ne suffisent pas pour effacer ces convictions (principalement en raison de son incertitude en raison de la pièce retournée). Mais un fréquentiste est capable de faire une telle évaluation, il doit simplement le faire dans le contexte des données, par opposition à la croyance.

La véritable source du paradoxe est le fait que le test statistique fréquentiste effectué ne prend pas en compte toutes les données disponibles. L'analyse dans la bande dessinée ne pose pas de problème, mais le résultat semble étrange, car nous savons que le soleil n'explosera probablement pas avant longtemps. Mais comment savons-nous cela? Parce que nous avons effectué des mesures, des observations et des simulations qui peuvent limiter le moment où le soleil va exploser. Nos connaissances doivent donc prendre en compte ces mesures et points de données.

Dans une analyse bayésienne, cela est fait en utilisant ces mesures pour construire un préalable (bien que la procédure permettant de transformer les mesures en antérieurs ne soit pas bien définie: à un moment donné, il doit y avoir un préalable initial, sinon ce sera "toutes les tortues". le chemin vers le bas "). Ainsi, lorsque le Bayésien utilise son prédécesseur, il prend réellement en compte de nombreuses informations supplémentaires que l’analyse de la valeur p du fréquentiste n’est pas au courant.

Ainsi, pour rester sur un pied d'égalité, une analyse fréquentiste complète du problème devrait inclure les mêmes données supplémentaires sur l'explosion du soleil qui sont utilisées pour construire le précédent bayésien. Mais au lieu d'utiliser des a priori, un fréquentiste augmenterait simplement la probabilité qu'il utilisait pour incorporer ces autres mesures, et sa valeur p serait calculée en utilisant cette vraisemblance.

$L = L$ $L$

Une analyse fréquentiste complète montrerait très probablement que la seconde partie de la probabilité sera beaucoup plus contraignante et constituera la contribution dominante au calcul de la valeur p (car nous avons une mine d'informations sur le soleil et les erreurs sur ces informations sont petits (espérons-le)).

Pratiquement, il n’est pas nécessaire de sortir et de collecter tous les points de données obtenus au cours des 500 dernières années pour effectuer un calcul fréquentiste, on peut les approcher comme un simple terme de vraisemblance qui code l’incertitude de savoir si le soleil a explosé ou non. Cela deviendra alors semblable au précédent du Bayésien, mais il est légèrement différent du point de vue philosophique parce que c'est une probabilité, ce qui signifie qu'il code une mesure précédente (par opposition à un précédent qui code une croyance a priori). Ce nouveau terme fera partie de la probabilité et sera utilisé pour construire des intervalles de confiance (ou valeurs p ou autre), par opposition au précédent bayésien, qui est intégré pour former des intervalles crédibles ou postérieurs.

— GeorgeLewis
source

1

Cela devrait être la réponse acceptée ou la plus votée.

— Amelio Vazquez-Reina

11

Le plus gros problème que je vois, c’est qu’aucune statistique de test n’est dérivée. -value (avec toutes les critiques formulées par les statisticiens bayésiens contre elle) pour une valeur d'une statistique de test est défini comme (en supposant que la valeur NULL est rejetée pour des valeurs plus grandes de , comme ce serait le cas avec les statistiques , par exemple). Si vous devez prendre une décision plus importante, vous pouvez augmenter la valeur critique et pousser la région de rejet plus haut. Effectivement, c’est ce que font plusieurs corrections de test comme Bonferroni, vous invitant à utiliser un seuil beaucoup plus bas pour $p$ $t$ $T$ ${\rm Prob}[T \ge t| H_0]$ $T$ $\chi^2$ $p$ -valeurs. Au lieu de cela, le statisticien fréquentiste est coincé ici avec les tests de tailles sur la grille de . $0, 1/36, 2/36, \ldots$

Bien sûr, cette approche "fréquentiste" n’est pas scientifique, car le résultat sera difficilement reproductible. Une fois que Sun passe en supernova, il reste supernova. Le détecteur doit donc continuer à dire "Oui" encore et encore. Cependant, une exécution répétée de cette machine ne donnera probablement pas le résultat "Oui". Ceci est reconnu dans les domaines qui veulent se présenter comme rigoureux et essaient de reproduire leurs résultats expérimentaux ... ce qui, autant que je sache, se produit avec une probabilité comprise entre 5% (la publication du document original était une pure erreur de type I) et quelque part autour de 30-40% dans certains domaines médicaux. Les méta-analystes peuvent vous renseigner avec de meilleurs chiffres, c’est tout le buzz qui me traverse de temps en temps à travers la statistique.

Un autre problème du point de vue fréquentiste «approprié» est que le dé est le test le moins puissant, avec une puissance = niveau de signification (sinon inférieur; une puissance de 2,7% pour un niveau de signification de 5% n’a rien à se vanter). La théorie de Neyman-Pearson pour les tests t est agonisante pour démontrer qu'il s'agit d'un UMPT, et beaucoup de théorie statistique de haut niveau (que je comprends à peine, je dois l'admettre) est consacrée à dériver les courbes de puissance et à trouver les conditions dans test est le plus puissant dans une classe donnée. (Crédits: @Dikran Marsupial a mentionné la question du pouvoir dans l'un des commentaires.)

Je ne sais pas si cela vous dérange, mais le statisticien bayésien est montré ici comme le gars qui ne connaît pas les mathématiques et a un problème de jeu. Un statisticien bayésien compétent postulerait le prieur, discuterait de son degré d'objectivité, dériverait le postérieur et démontrerait tout ce qu'il avait appris des données. Rien de tout cela n'a été fait, le processus bayésien a donc été simplifié à l'extrême, tout comme le processus fréquentiste.

Cette situation illustre le dépistage classique du cancer (et je suis certain que les biostatisticiens peuvent le décrire mieux que moi). Lors du dépistage d'une maladie rare avec un instrument imparfait, la plupart des positifs se révèlent être des faux positifs. Les statisticiens avisés le savent et savent mieux faire un suivi des dépisteurs peu coûteux et sales avec des biopsies plus coûteuses et plus précises.

— StasK
source

2

Si je comprends bien votre premier paragraphe, vous dites que le seuil (0,05 dans la bande dessinée) est trop élevé. Si le comique avait cinq dés au lieu de deux, accepteriez-vous que le seuil soit suffisamment bas? Comment décidez-vous le seuil quand même?

— ShreevatsaR

9

Je pensais que le statisticien bayésien avait simplement pris en compte le fait que les chances que le soleil explose soient beaucoup plus faibles que les chances que la machine soit allongée (donc, pas nécessairement un joueur désemparé).

— josh

8

Plus

— précisément, si

6

Je pense que le point ici est que le statisticien fréquentiste suit une recette sans penser au but véritable de l'analyse. Le soi-disant "Bayésien" n'est pas réellement un Bayésien, mais juste quelqu'un qui utilise son bon sens. Il existe de nombreux exemples de recettes aveugles suivies dans des revues scientifiques, ce qui explique pourquoi le dessin animé est amusant.

— Dikran Marsupial

3

Le manque de statistiques de test ne peut pas être le problème, je ne pense pas. Une statistique de test est juste une fonction des données. Ainsi, la fonction d’identité, c’est-à-dire la donnée elle-même, semblerait fonctionner, du moins en principe.

— conjugateprior

6

Il n'y a rien de mal avec cette bande dessinée, et la raison n'a rien à voir avec les statistiques. C'est de l'économie. Si le fréquentiste est correct, la Terre équivaudra à inhabitable dans les 48 heures. La valeur de 50 $ sera effectivement nulle. Le Bayésien, reconnaissant cela, peut faire le pari en sachant que son avantage est de 50 $ dans le cas normal, et marginalement rien dans le cas où le soleil a explosé.

— Tony Boyles
source

Cela "a quelque chose à voir avec les statistiques" puisque les statistiques bayésiennes modélisent explicitement ceci comme "minimisant une fonction de perte";)

— Fabio Beltramini

5

Maintenant que le CERN a décidé que les neutrinos ne sont pas plus rapides que la lumière, le front de choc de rayonnement électromagnétique heurterait la Terre avant que le changement de neutrino ne soit perçu. Cela aurait au moins (à très court terme) des effets auroraux spectaculaires. Ainsi, le fait qu’il fasse nuit n’empêcherait pas le ciel de s’éclairer; la lune ne brillait pas trop (cf. "Inconstant Moon" de Larry Niven) et des éclairs spectaculaires alors que les satellites artificiels étaient vaporisés et autocombustifs.

Au total, peut-être le mauvais test? (Et, même s’il y avait peut-être eu des antécédents, le temps serait insuffisant pour une détermination réaliste de l’a posteriori.

— SimonN
source

1

Raison de plus pour rejeter l'hypothèse selon laquelle le soleil aurait explosé alors. :-)

— ShreevatsaR

C’est donc ce que l’on entend à la fin de l’article lorsque les auteurs disent: "des études de confirmation sont nécessaires"?

— DWin

En fait, en revenant avec désinvolture, l’inférence claire est dans le titre. La machine détecte si le soleil est parti en nova. Il n'y a aucune chance d'erreur dans la détection. Le bit neutrino n'est pas pertinent. Etant donné que, les statistiques sont telles que la machine répondra "non", "non", "non" ... avec 1/36 de chance d’être une fausse déclaration (oui) jusqu’à ce qu’un événement ponctuel qui termine la statistique processus se produit - cela aura également une chance sur 36 d'être signalé faussement (non), si la machine est interrogée au cours de l'intervalle de 8 minutes approximativement requis pour devenir évident sur Terre.

— SimonN

4

Je suis d'accord avec @GeorgeLewis sur le fait qu'il est peut-être prématuré de conclure que l'approche Frequentist est fausse - répétons simplement le détecteur de neutrinos plusieurs fois pour collecter davantage de données. Pas besoin de déconner avec les a priori.

— RobertF
source

2

Un point plus simple qui peut être perdu parmi toutes les réponses verbeuses ici est que le fréquentiste est représenté tirant sa conclusion sur la base d'un seul échantillon. En pratique, vous ne feriez jamais cela.

Pour arriver à une conclusion valable, il faut une taille d'échantillon statistiquement significative (ou, en d'autres termes, la science doit être répétable). Donc, dans la pratique, le fréquentiste exécutait la machine plusieurs fois , puis tirait une conclusion sur les données obtenues.

Cela impliquerait vraisemblablement de poser la même question à la machine plusieurs fois. Et vraisemblablement, si la machine n’a que tort, 1 fois sur 36, un schéma clair se dégagera. Et à partir de ce schéma (plutôt que d'une seule lecture), le fréquentiste tirera une conclusion (assez précise, je dirais) quant à savoir si le soleil a explosé ou non.

— une autre
source

4

Qu'entendez-vous par "taille d'échantillon statistiquement significative"?

— Momo

@Momo - Plus qu'un seul échantillon, c'est sûr. Il n'est pas correct d'observer un résultat improbable, puis de tirer des conclusions indiquant que l'improbable est arrivé sans avoir répété l'observation pour s'assurer que ce n'était pas un hasard. Si vous voulez un nombre exact représentant une taille d'échantillon statistiquement significative ou un algorithme pour déterminer un nombre exact, un statisticien peut probablement vous en fournir un; mais je ne suis pas un statisticien.

— aroth

3

Je ne pense pas qu'il y ait un problème particulier à avoir un échantillon de taille 1, le problème est que le test n'a aucun pouvoir statistique (c'est-à-dire que le test ne rejettera jamais l'hypothèse nulle quand elle est fausse). Cependant, cela révèle un problème avec le "rituel nul", qui ignore la question du pouvoir statistique (et ce que H1 est réellement, ou des informations préalables pertinentes pour le problème).

— Dikran Marsupial

1

@Dikran C'est l'une des meilleures réponses possibles! Le problème avec le «fréquentiste» dans la caricature est qu’un rituel statistique particulier a été suivi sans procéder au préalable à l’évaluation nécessaire des propriétés du test. (On pourrait même étendre votre analyse en considérant ce que devrait être une fonction de perte pertinente pour cette décision.) En tant que tel, le dessin animé interpelle soigneusement toutes les personnes qui utilisent des procédures statistiques sans les comprendre ni vérifier leurs hypothèses.

— whuber

2

La réponse à votre question: "applique-t-il correctement la méthodologie fréquentiste?" non, il n’applique pas précisément l’approche fréquentiste. La valeur p de ce problème n'est pas exactement 1/36.

Nous devons d’abord noter que les hypothèses impliquées sont

H0: Le soleil n'a pas explosé,

H1: Le soleil a explosé.

Ensuite,

p-value = P ("la machine retourne oui" | le soleil n'a pas explosé).

Pour calculer cette probabilité, il faut noter que "la machine retourne oui" est équivalent à "le détecteur de neutrinos mesure le soleil en train d'exploser ET indique le résultat réel OU le détecteur de neutrinos ne mesure pas le soleil en train d'exploser ET nous ment".

En supposant que le lancer de dés soit indépendant de la mesure du détecteur de neutrinos, nous pouvons calculer la valeur p en définissant:

p0 = P ("le détecteur de neutrinos mesure l'explosion du soleil" | le soleil n'a pas explosé),

Ensuite, la valeur p est

valeur p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1 + 34 x p0).

Pour ce problème, la valeur p est un nombre compris entre 1/36 et 35/36. La valeur p est égale à 1/36 si et seulement si p0 = 0. C'est-à-dire qu'une hypothèse cachée dans cette caricature est que la machine à détecter ne mesurera jamais l'explosion du soleil si celui-ci n'a pas explosé.

De plus, il faudrait insérer beaucoup plus d’informations sur la probabilité que des preuves externes d’une explosion anova se produisent.

Bonne chance.

— Alexandre Patriota
source

1

Je ne vois pas de problème avec l'approche du fréquentiste. Si l'hypothèse nulle est rejetée, la valeur p est la probabilité d'une erreur de type 1. Une erreur de type 1 rejette une hypothèse nulle. Dans ce cas, nous avons une valeur de p de 0,028. Cela signifie que parmi tous les tests d'hypothèses avec cette valeur p jamais effectués, environ 3 sur 100 rejetteront une hypothèse nulle vraie. Par construction, ce serait l'un de ces cas. Les fréquentistes acceptent le fait qu’ils refusent parfois l’hypothèse vraie ou conservent une hypothèse nulle (erreur de type 2), ils n’ont jamais prétendu le contraire. De plus, ils quantifient précisément la fréquence de leurs inférences erronées à long terme.

Peut-être une manière moins confuse d’envisager ce résultat est-elle d’échanger les rôles des hypothèses. Puisque les deux hypothèses sont simples, cela est facile à faire. Si le zéro est que le soleil est allé nova, alors la valeur p est 35/36 = 0.972. Cela signifie que ce n'est pas une preuve contre l'hypothèse que le soleil est devenu nova, nous ne pouvons donc pas le rejeter sur la base de ce résultat. Cela semble plus raisonnable. Si tu réfléchis. Pourquoi quelqu'un supposerait-il que le soleil allait en nova? Je voudrais vous demander. Pourquoi voudrait-on faire une telle expérience si la seule pensée du soleil qui explose semble ridicule?

Je pense que cela montre simplement qu'il faut évaluer l'utilité d'une expérience à l'avance. Cette expérience, par exemple, serait totalement inutile car elle teste quelque chose que nous savons déjà simplement en regardant vers le ciel (ce qui, j'en suis sûr, produit une p-valeur qui est effectivement nulle). Concevoir une bonne expérience est une nécessité pour produire une bonne science. Si votre expérience est mal conçue, quels que soient les outils d'inférence statistique que vous utilisiez, vos résultats ont peu de chances d'être utiles.

— Jose Garmilla
source

Certes, mais le Bayésien peut toujours déduire une conclusion raisonnable avec les données / résultats expérimentaux donnés . Parfois, vous ne pouvez pas répéter une expérience ou la concevoir comme vous le souhaitez.

— Amelio Vazquez-Reina

C'est un point juste, l'inférence bayésienne peut facilement incorporer une expérience antérieure qui rend plus difficile l'obtention de poids statistiques pour des résultats extraordinaires (cela nous protège contre les statistiques). Cependant, il s'agit également d'une expérience inutile dans le cadre bayésien. Le prieur est tellement en faveur d'une conclusion qu'aucun résultat de cette expérience ne peut la changer. Si le prieur est si fort. Pourquoi faire une expérience sans aucune chance de la modifier? Lorsque l'on considère les a priori faibles (susceptibles d'être modifiées par les données), je pense que les méthodes bayésienne et Frequentist donnent généralement des résultats "comparables".

— Jose Garmilla

0

Comment intégrer les "connaissances antérieures" sur la stabilité du soleil dans la méthodologie fréquentiste?

Sujet très intéressant.

Voici quelques réflexions, pas une analyse parfaite ...

L'utilisation de l'approche bayésienne avec un préalable non informatif fournit généralement une inférence statistique comparable à celle du fréquentiste.

Pourquoi le Bayésien a-t-il la conviction profonde que le soleil n'a pas explosé? Parce qu'il sait comme tout le monde que le soleil n'a jamais explosé depuis ses débuts.

Nous pouvons voir sur certains modèles statistiques simples avec des a priori conjugués que l' utilisation d'une distribution antérieure équivaut à utiliser la distribution postérieure dérivée d'expériences préalables et préliminaires non indicatives.

La phrase ci-dessus suggère que le Frequentist devrait conclure comme le Bayésien en incluant les résultats des expériences préliminaires dans son modèle. Et c’est ce que fait réellement le bayésien : son prieur vient de sa connaissance des expériences préliminaires!

$N$ $x_i$ $i$ $x_i$ $\theta$ $x_i$ $x_i=1$ $i =1,\ldots,N$

$N+1$ $x_i$ $y=\{\text{Yes}\}$ $\Pr(x_{N+1}=0)$ $\theta$ $\theta$ $x_1, \ldots, x_N$ $y$ $1$ $N$ $y=\{\text{Yes}\}$ $\theta$ . Et le Bayésien a l'intention de refléter cette information dans sa distribution antérieure sur . $\theta$

De ce point de vue, je ne vois pas comment reformuler la question en termes de test d'hypothèse. Prendre n'a pas de sens car c'est une issue possible de l'expérience dans mon interprétation, pas une hypothèse vraie / fausse. Peut-être est-ce l'erreur du Frequentist? $H_0 =\{\text{the sun has not exploded}\}$

— Stéphane Laurent
source

Le passage "... il sait comme tout le monde que le soleil n’a jamais explosé depuis ses débuts" évoque l’histoire d’une fête américaine récente où des millions de dindes ( Meleagris gallopavo ) sont consommés. Au fil du temps, chaque dinde intelligente "sait comme tout le monde" qu'elle sera nourrie et soignée jusqu'à la fin de cette journée fatidique (et tout à fait inattendue - à la mi-novembre)! De même, notre confiance dans la stabilité du soleil devrait être faible si nous ne pouvions compter que sur l'historique relativement bref de l'observation humaine.

— whuber

@ Whuber J'aurais préféré vous envoyer ce message en privé. Y a-t-il un lien entre votre commentaire et le sujet de la discussion? Je ne sais pas si c'est moi qui me fait des idées, mais cela fait déjà plusieurs fois que je sens que vous commentez mes réponses principalement pour dire quelque chose contre mes réponses. L'exercice posé par le PO est l'interprétation d'un dessin animé et je sens que vous critiquez ma réponse comme si je parlais d'un problème réel. Récemment, je n'ai pas compris et je n'ai toujours pas compris pourquoi vous avez évoqué une "intention" probable derrière mes réponses.

— Stéphane Laurent

Aucune critique, implicite ou intentionnelle: parfois, un commentaire est vraiment… un commentaire. Il a essayé de souligner (de manière humoristique) des questions importantes évoquées mais non abordées dans votre réponse. Je suis désolé que vous perceviez cela comme une attaque personnelle ou personnelle. BTW, c'est une vraie question: elle demande comment intégrer les "connaissances antérieures" ... dans la méthodologie fréquentiste? Cette question évoque les critiques de Hume sur l'inférence inductive et concerne des questions de philosophie des sciences ainsi que les fondements mêmes de la statistique. Cela mérite bien une réflexion attentive!

— whuber

Il serait peut-être intéressant de souligner également qu'une part importante de votre réputation est due à mes votes pour vos réponses - ce que j'apporte comme preuve matérielle qu'il n'y a pas de comportement systématique de ma part contre vous.

— whuber

2

Non, j'ai compris votre commentaire. La traduction française de votre commentaire par Google est déjà étrange, mais en combinant mes compétences en anglais et les étranges traductions de Google, je peux obtenir une traduction correcte. Je serai plus détendu le mois prochain, probablement.

— Stéphane Laurent

0

Il s’agit bien entendu d’un test fréquentiste (niveau 0.05): l’hypothèse nulle est rejetée moins de 5% du temps sous l’hypothèse nulle et même la puissance sous l’alternative est grande.

D'un autre côté, des informations antérieures nous disent qu'il est peu probable que le soleil se couche à un moment donné dans la supernova, mais qu'il soit plus probable que de mentir par hasard.

En bout de ligne: il n'y a pas vraiment de problème avec la bande dessinée et cela montre que le test d'hypothèses invraisemblables conduit à un taux élevé de fausses découvertes. De plus, vous voudrez probablement prendre en compte les informations préalables dans votre évaluation des paris proposés - c'est pourquoi un postérieur bayésien associé à une analyse décisionnelle est si populaire.

— Björn
source

-2

À mon avis, une analyse fréquentiste plus correcte serait la suivante: H0: Le soleil a explosé et la machine dit la vérité. H1: Le soleil n'a pas explosé et la machine est allongée.

La valeur de p ici est = P (le soleil a explosé). p (la machine dit la vérité) = 0,97. P (le soleil a explosé)

Le statisticien ne peut rien conclure sans connaître la nature de la deuxième probabilité.

Bien que nous sachions que P (le soleil a explosé) est égal à 0, car le soleil, comme les étoiles, n'explose pas en supernovae.

— Chaitanya Anand
source