Quand (si jamais) une approche fréquentiste est-elle substantiellement meilleure qu'un Bayésien?

72

Contexte : Je n'ai pas de formation formelle en statistique bayésienne (bien que je sois très intéressé à en apprendre davantage), mais je sais assez - je pense - pour comprendre l'essentiel des raisons pour lesquelles beaucoup se sentent comme préférables aux statistiques frequentist. Même les étudiants de premier cycle du cours d'introduction aux statistiques (en sciences sociales) que j'enseigne trouvent la méthode bayésienne attrayante - "Pourquoi nous intéressons-nous au calcul de la probabilité des données, étant donné la valeur nulle? Pourquoi ne pouvons-nous pas simplement quantifier la probabilité de L'hypothèse nulle, ou l'hypothèse alternative, et j'ai également lu des sujets comme ceux - ci , qui attestent également des avantages empiriques des statistiques bayésiennes, mais je suis tombé sur cette citation de Blasco (2001; les italiques ont été accentuées):

Si l'éleveur d'animaux ne s'intéresse pas aux problèmes philosophiques liés à l'induction, mais aux outils de résolution des problèmes, les écoles d'inférence bayésienne et fréquentiste sont bien établies et il n'est pas nécessaire de justifier pourquoi on préfère l'une ou l'autre école. Aucun d’entre eux n’a actuellement de difficultés opérationnelles, à l’exception de cas complexes ... Le choix d’une école ou de l’autre doit être lié à la question de savoir s’il existe des solutions dans une école que l’autre n’offre pas , à la facilité avec laquelle les problèmes sont résolus et à quel point le scientifique se sent à l’aise avec le mode particulier d’expression obtenu.

La question : La citation de Blasco semble suggérer qu'il peut y avoir des moments où une approche Frequentist est réellement préférable à une approche bayésienne. Et je suis donc curieux: quand une approche fréquentiste serait-elle préférable à une approche bayésienne? Je suis intéressé par les réponses qui abordent la question à la fois conceptuellement (c'est-à-dire, quand connaître la probabilité des données conditionnées sur l'hypothèse nulle est-il particulièrement utile?) Et empiriquement (c'est-à-dire dans quelles conditions les méthodes Frequentist sont-elles supérieures à celles de Bayesian?).

Il serait également préférable que les réponses soient transmises de la manière la plus accessible possible. Il serait agréable de transmettre certaines réponses à ma classe pour les partager avec mes étudiants (bien que je comprenne qu'un certain niveau de technicité est requis).

Enfin, même si je suis un utilisateur régulier des statistiques Frequentist, je suis ouvert à la possibilité que Bayesian l'emporte dans tous les domaines.

bayesian frequentist philosophical

— Jsakaluk
source

10

Lorsque vous traitez avec des probabilités objectives, c’est-à-dire des processus naturellement stochastiques. Par exemple, la décroissance radioactive n’a rien à voir avec vos croyances subjectives ou avec des informations inconnues, ni avec à peu près tout. Il suit son propre rythme et les atomes se dissolvent de manière vraiment aléatoire .

— Aksakal

6

Voir cette question récente qui, malheureusement, a été classée comme trop large (j'ai voté pour la réouverture mais ne l'a jamais été): stats.stackexchange.com/questions/192572 . Vous demandez presque exactement la même chose. Vérifiez la réponse ici.

— amibe dit de réintégrer Monica le

5

@Aksakal: J'aimerais beaucoup avoir cette discussion, mais elle est hors sujet et on nous le dira, alors je me tais (et je calcule).

— amibe dit de réintégrer Monica le

12

"Les bayésiens répondent à la question qui intéresse tout le monde en utilisant des hypothèses auxquelles personne ne croit, alors que les fréquentistes utilisent une logique impeccable pour traiter une question qui ne présente aucun intérêt pour personne" - Louis Lyons

— Ruggero Turra

4

@jsakaluk, remarquez que les fiefs bayésiens sont des zones où il n’ya pas assez de données ou que les processus sont instables, comme les sciences sociales, les sciences psudo, les sciences de la vie, etc. Il n’est pas nécessaire d’être Bayesien en mécanique quantique ou dans la plupart des domaines de la physique. Certes, vous pouvez être bayésien là aussi, ce ne sont que vos déductions ne seront pas différentes de celles des fréquentistes

— Aksakal

54

Voici cinq raisons pour lesquelles les méthodes fréquentistes peuvent être préférées:

Plus rapide. Etant donné que les statistiques bayésiennes donnent souvent des réponses presque identiques aux réponses fréquentistes (et quand elles ne le font pas, il n’est pas clair que le bayésien est toujours la voie à suivre), le fait que les statistiques fréquentistes puissent être obtenues est souvent plusieurs ordres de grandeur plus rapidement. un argument fort. De même, les méthodes fréquentistes ne nécessitent pas autant de mémoire pour stocker les résultats. Bien que ces éléments puissent sembler un peu triviaux, en particulier avec des ensembles de données plus petits, le fait que Bayesian et Frequentist soient généralement d’accord sur les résultats (en particulier si vous disposez de nombreuses données informatives) signifie que si vous vous en souciez, vous pouvez commencer à vous soucier des moins importants. des choses. Et bien sûr, si vous vivez dans le monde des données volumineuses, celles-ci ne sont pas du tout triviales.
Statistiques non paramétriques. Je reconnais que les statistiques bayésiennes ont des statistiques non paramétriques, mais je dirais que le côté fréquentiste du domaine dispose d'outils vraiment indéniablement pratiques, tels que la fonction de distribution empirique. Aucune méthode au monde ne remplacera jamais le FED, ni les courbes de Kaplan Meier, etc. (bien que cela ne soit clairement pas le cas, ces méthodes sont la fin d'une analyse).
Moins de diagnostics. Les méthodes MCMC, la méthode la plus courante pour adapter les modèles bayésiens, nécessitent généralement plus de travail de la part de l'utilisateur que son homologue fréquentiste. Habituellement, le diagnostic pour une estimation MLE est si simple que toute implémentation d'algorithme efficace le fera automatiquement (même si cela ne veut pas dire que chaque implémentation disponible est bonne ...). En tant que tel, le diagnostic algorithmique fréquentiste consiste généralement à "s'assurer qu'il n'y a pas de texte rouge lors de l'ajustement du modèle". Étant donné que tous les statisticiens ont une bande passante limitée, cela laisse plus de temps pour poser des questions du type "mes données sont- elles vraiment normales?" ou "ces dangers sont-ils vraiment proportionnels?", etc.
Inférence valide sous spécification erronée du modèle. Nous avons tous entendu dire que "Tous les modèles sont faux, mais que certains sont utiles", mais différents domaines de recherche prennent cela plus ou moins au sérieux. La littérature Frequentist regorge de méthodes pour corriger l'inférence lorsque le modèle est mal spécifié: estimateur par bootstrap, validation croisée, estimateur en sandwich (le lien discute également de l'inférence MLE générale sous une spécification erronée du modèle), d'équations d'estimation généralisées (GEE), méthodes de quasi-vraisemblance, etc. Pour autant que je sache, la littérature bayésienne parle très peu d'inférence sous spécification erronée de modèle (bien qu'il y ait beaucoup de discussions sur la vérification de modèle, c'est-à-dire les vérifications prédictives postérieures). Je ne pense pas que cela soit dû au hasard: évaluer le comportement d'un estimateur par rapport à des essais répétés ne nécessite pas que l'estimateur soit basé sur un "vrai" modèle, mais le théorème de Bayes le fait!
Liberté du passé (c'est probablement la raison la plus courante pour laquelle les gens n'utilisent pas les méthodes bayésiennes). La force du point de vue bayésien est souvent présentée comme l'utilisation de prieurs. Cependant, dans tous les domaines appliqués dans lesquels j'ai travaillé, l'idée d'un préalable informatif dans l'analyse n'est pas prise en compte. La lecture de la littérature sur la manière de susciter des a priori auprès d’experts non statistiques donne un bon raisonnement à cet égard; J'ai lu des articles qui disent des choses comme (homme de paille cruel, comme paraphrasant le mien) "Demandez au chercheur qui vous a embauché, car il a du mal à comprendre les statistiques, de donner à son calcul une marge qu'il est certain à 90% de l'ampleur de l'effet qu'il a du mal à imaginer. être dans. Cet intervalle est généralement trop étroit, essayez donc de leur demander de l’élargir un peu plus et demandez-leur si leur croyance ressemble à une distribution gamma. Vous devrez probablement dessiner une distribution gamma pour eux et montrer comment il peut avoir de lourdes queues si le paramètre de forme est petit. Cela impliquera également d'expliquer ce qu'est un PDF pour eux. "(Note: je ne pense pas que même les statisticiens soient vraiment capables de dire avec précisiona priori, qu’ils soient à 90% ou à 95% certains que la taille de l’effet se situe dans une plage, cette différence peut avoir un effet important sur l’analyse!). À vrai dire, je suis assez méchant et il peut arriver que demander un préalable soit un peu plus simple. Mais vous pouvez voir à quel point c'est une boîte de Pandore. Même si vous passez à des a priori non informatifs, cela peut toujours poser problème. lors de la transformation de paramètres, ce qui est facilement confondu avec des a priori non informatifs peut tout à coup être considéré comme très informatif! Un autre exemple est que j'ai parlé à plusieurs chercheurs qui ne veulent absolument pasveulent entendre l'interprétation des données par un autre expert parce qu'empiriquement, les autres experts ont tendance à avoir trop confiance en eux. Ils préfèrent simplement savoir ce qui peut être déduit des données de l'autre expert et arriver ensuite à leur propre conclusion. Je ne me souviens pas de l'endroit où je l'ai entendu, mais quelque part, j'ai lu la phrase suivante: "si vous êtes bayésien, vous voulez que tout le monde soit frequentiste". J'interprète cela comme signifiant qu'en théorie, si vous êtes bayésien et que quelqu'un décrit ses résultats d'analyse, vous devez d'abord essayer de supprimer l'influence de son prédécesseur, puis de déterminer quel serait l'impact si vous aviez utilisé le vôtre. Ce petit exercice serait simplifié s’ils vous avaient attribué un intervalle de confiance plutôt qu’un intervalle crédible!

Bien sûr, si vous abandonnez les a priori informatifs, les analyses bayésiennes restent utiles. Personnellement, c'est là où je crois que leur utilité la plus haute réside; L'utilisation de méthodes MLE pose des problèmes qui sont extrêmement difficiles à obtenir, mais peuvent être résolus assez facilement avec MCMC. Mais mon point de vue selon lequel il s’agit de la plus haute utilité de Bayesian est dû à la force de mes ancêtres, prenez donc cela avec un grain de sel.

— Cliff AB
source

1

(+1) Bonne réponse, bien que je suppose que vous vouliez dire qu'il ne nécessite pas autant de mémoire pour stocker les résultats?

— Jsakaluk

1

En termes de liberté vis-à-vis des a priori: dites-vous que moins vous devez penser à votre problème et le comprendre, mieux c'est? Je connais plusieurs éditeurs de logiciels qui souhaiteraient vous parler, alors vous pouvez pointer du doigt - ou, mieux encore, en un clic - et avoir une réponse à tout problème que vous pouvez imaginer! Heck, vous n'avez même pas besoin d'un problème, introduisez simplement vos données dans leur site Web et ils trouveront tous les problèmes possibles et les résoudront, trop gentil! (Désolé, je n'ai pas pu résister à la réponse avec un commentaire cruel semblable à celui d'un homme de paille.)

— Wayne

1

@Wayne: Je sais que vous plaisantez, mais c'est correct à 100%. Les statistiques sont un outil pour répondre aux problèmes du monde réel. Je tiens vraiment à souligner que c'est un outil, pas un produit final. Quel que soit le côté de l'argument "Frequentist vs Bayesian" (je suis assis sur "celui qui me donne la meilleure réponse à ma question", ce qui signifie que j'aime les deux pour des problèmes différents), personne ne peut nier que la facilité d'utilisation est un utilitaire très réel pour n'importe quel outil.

— Cliff AB

Bien sûr, si votre outil produit fréquemment un produit terrible, c'est un problème. Et si j'étais convaincu qu'une méthode fréquentiste le faisait, mais qu'une méthode bayésienne ne l'était pas, j'appuierais rapidement la méthode bayésienne.

— Cliff AB

1

@CliffAB: La facilité d'utilisation est importante et, comme vous le dites si les résultats sont de qualité égale, pourquoi choisir plus difficile à utiliser? Dans le même temps, il est essentiel pour une bonne science de penser, d'expliciter et de comprendre les prieurs (et non les bayésiens, je parle littéralement des prieurs que tous les scientifiques, tous les domaines et toutes les études ont). Les statistiques bayésiennes sont explicites et vous obligent à réfléchir et à comprendre certaines de ces questions. Dans la mesure où il ne s’agit pas simplement d’un inconvénient pédant, il est sans doute bon, et le contraire n’est donc pas bon non plus.

— Wayne

23

Quelques avantages concrets des statistiques fréquentistes:

Il existe souvent des solutions sous forme fermée aux problèmes fréquentistes, alors qu'il vous faudrait un conjugué avant d'avoir une solution sous forme fermée dans l'analogue bayésien. Ceci est utile pour un certain nombre de raisons, dont le temps de calcul.
Une raison qui, espérons-le, finira par disparaître: on enseigne aux laïques les statistiques des fréquentistes. Si vous voulez être compris par beaucoup, vous devez parler fréquentiste.
Une méthode de test de signification de l'hypothèse nulle (NHST) "est innocente jusqu'à preuve du contraire" est utile lorsque le but est de prouver que quelqu'un a tort (je vais présumer que vous avez raison et que les données accablantes laissent supposer que vous vous trompez). Oui, il existe des analogues NHST en bayésien, mais je trouve les versions fréquentistes beaucoup plus simples et interprétables.
Il n'y a pas une telle chose comme vraiment avant uninformative ce qui rend certaines personnes mal à l' aise.

— TrynnaDoStat
source

1

(+1) Merci - pourriez-vous clarifier un peu le premier point? En tant que personne peu familiarisée avec le bayésien, votre argument concernant la nécessité d'un "conjugué avant" (?) Est un peu perdu pour moi ...

— jsakaluk

5

P (H_{0} | D a t a)

$P(H_0\;|\; Data)$

P (D a t a | H_{0})

$P(Data\;|\;H_0)$

α

$\alpha$

@ZacharyBlumenfeld Merci de l'avoir signalé, j'avais le Bayésien en tête. Je vais le réparer maintenant.

— TrynnaDoStat

1

α

$\alpha$

β

$\beta$

α + \sum_{i = 1}^{n} x_{i}

$\alpha + \sum_{i=1}^n x_i$

β + n - \sum_{i = 1}^{n} x_{i}

$\beta + n - \sum_{i=1}^n x_i\!$ ) sans avoir à faire de simulation, d’échantillonnage ou de calcul intensif.

— TrynnaDoStat

16

La raison la plus importante d'utiliser les approches Frequentist, qui n'a étonnamment pas encore été mentionnée, est le contrôle des erreurs. Très souvent, les recherches conduisent à des interprétations dichotomiques (devrais-je faire une étude à partir de là, ou pas? Devrait-on mettre en œuvre une intervention ou pas?). Les approches Frequentist vous permettent de contrôler strictement votre taux d'erreur de type 1. Les approches bayésiennes ne le font pas (bien que certaines héritent des approches universelles liées à la vraisemblance, mais même dans ce cas, les taux d'erreur peuvent être assez élevés dans de petits échantillons et avec des seuils de preuve relativement bas (par exemple, BF> 3). Vous pouvez examiner les propriétés Frequentist de Facteurs Bayes (voir par exemple http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2604513) mais c’est toujours une approche Frequentist. Je pense que très souvent, les chercheurs se soucient plus du contrôle des erreurs que de la quantification des preuves en tant que telles (par rapport à une hypothèse spécifique), et je pense au moins que tout le monde se soucie du contrôle des erreurs dans une certaine mesure, et donc les deux approches devraient être utilisées de manière complémentaire.

— Daniel Lakens
source

Bon point. Je pense aussi aux méthodes séquentielles par groupes et à d’autres formes de tests multiples, où il semble (de mon point de vue étroit, que l’on aurait peut-être oublié une grande partie de la littérature) pour avoir suscité un manque d’intérêt du côté bayésien (donc loin) en termes d’obtention d’une sorte de contrôle des erreurs. Bien sûr, dans de nombreuses circonstances, les méthodes bayésiennes - en particulier avec des priors quelque peu sceptiques ou une sorte de réduction par un modèle hiérarchique, permettent de contrôler les erreurs à un degré non quantifiable, mais beaucoup plus de réflexion a été faite du côté fréquentiste.

— Björn

3

(+1) J'aime vraiment ce point ... car c'est la raison pour laquelle je suis philosophiquement un fréquentiste ... quand nous faisons des statistiques pour aider à l'inférence, nous voulons que nos inférences soient plus précises (c'est-à-dire, moins d'erreur) que deviner aveugle. En fait, si je tiens vraiment à ce que mes conclusions soient vraies ou fausses (au sens où elles sont validées par des études ultérieures), les taux d'erreur sont alors très importants. Je ne peux tout simplement pas me sentir à l'aise avec la probabilité bayésienne (cependant, les méthodes elles-mêmes sont très utiles en tant qu '"estimateurs normalisés" raisonnables pour une quantité lorsque la taille de l'échantillon est petite ... pensez à Agresit-Coull)

Cela ressemble plus à la théorie de la décision qu'à la comparaison bayes / fréquentiste. En outre, avec l'approche bayésienne, vous n'avez pas à vous soucier des règles d'arrêt .... Je comprends aussi que les bayes peuvent atteindre un meilleur "équilibre" entre les taux d'erreur de type 1 et de type 2 ....

— probabilité-

8

Je pense qu’une des plus grandes questions, en tant que statisticien, vous devez vous demander est de savoir si vous croyez, ou si vous voulez adhérer, au principe de vraisemblance. Si vous ne croyez pas au principe de vraisemblance, alors je pense que le paradigme fréquentiste des statistiques peut être extrêmement puissant. Cependant, si vous croyez en ce principe, alors (je crois) vous devez très certainement épouser le paradigme bayésien dans ne pas le violer.

Si vous ne le connaissez pas encore, voici ce que dit le principe de vraisemblance:

$\theta$ $\mathbf{x}$

ℓ (θ; x) = p (x | θ)

$\ell(\theta;\mathbf{x})=p(\mathbf{x}|\theta)$

x

$\mathbf{x}$

$\mathbf{x}$ $\mathbf{y}$ $\ell(\theta;\mathbf{x})$ $\ell(\theta;\mathbf{y})$ $C(\mathbf{x},\mathbf{y})$

ℓ (θ; x) = C (x, y) ℓ (θ; y) for all θ,

$\ell(\theta;\mathbf{x})=C(\mathbf{x},\mathbf{y})\ell(\theta;\mathbf{y})\hspace{.1in}\text{for all }\theta,$

$\mathbf{x}$ $\mathbf{y}$

$C(\mathbf{x},\mathbf{y})$ $(\mathbf{x},\mathbf{y})$ $C(\mathbf{x},\mathbf{y})$ $\theta$

$C(\mathbf{x},\mathbf{y})=1$ $\theta$ $\theta$

Les statistiques bayésiennes ont notamment pour atout que le paradigme bayésien n’est jamais enfreint par le principe de vraisemblance. Cependant, il existe des scénarios très simples où le paradigme fréquentiste violera le principe de vraisemblance.

Voici un exemple très simple basé sur des tests d'hypothèses. Considérer ce qui suit:

Prenons une expérience où 12 essais de Bernoulli ont été menés et 3 succès ont été observés. En fonction de la règle d'arrêt, nous pouvons caractériser les données comme suit:

$X|\theta\sim\text{Bin}(n=12,\theta)$ $x=3$
$Y|\theta\sim\text{NegBin}(k=3,\theta)$ $y=12$

Ainsi, nous obtiendrions les fonctions de vraisemblance suivantes: ce qui implique que et donc, par le principe de vraisemblance, nous devrions obtenir les mêmes déductions sur partir de l'une ou l'autre des probabilités.

\begin{aligned} ℓ_{1} (θ; x = 3) & = (\binom{12}{3}) θ^{3} (1 - θ)^{9} \\ ℓ_{2} (θ; y = 12) & = (\binom{11}{2}) θ^{3} (1 - θ)^{9} \end{aligned}

$\begin{align} \ell_1(\theta;x=3)&=\binom{12}{3}\theta^3(1-\theta)^9\\ \ell_2(\theta;y=12)&=\binom{11}{2}\theta^3(1-\theta)^9\\ \end{align}$

ℓ_{1} (θ; x) = C (x, y) ℓ_{2} (θ, y)

$\ell_1(\theta;x)=C(x,y)\ell_2(\theta,y)$

θ

$\theta$

Imaginons maintenant de tester les hypothèses suivantes du paradigme fréquentiste

H_{o} : θ \geq \frac{1}{2} versus H_{a} : θ < \frac{1}{2}

$H_o:\theta\geq\frac{1}{2}\hspace{.2in}\text{versus}\hspace{.2in}H_a:\theta<\frac{1}{2}$

Pour le modèle binomial, nous avons:

\begin{aligned} p-value & = P (X \leq 3 | θ = \frac{1}{2}) \\ = (\binom{12}{0}) {(\frac{1}{2})}^{12} + (\binom{12}{1}) {(\frac{1}{2})}^{12} + (\binom{12}{2}) {(\frac{1}{2})}^{12} + (\binom{12}{3}) {(\frac{1}{2})}^{12} = 0.0723 \end{aligned}

$\begin{align} \text{p-value}&=P\left(X\leq 3|\theta=\frac{1}{2}\right)\\ &=\binom{12}{0}\left(\frac{1}{2}\right)^{12}+\binom{12}{1} \left(\frac{1}{2}\right)^{12}+ \binom{12}{2}\left(\frac{1}{2}\right)^{12}+\binom{12}{3}\left(\frac{1}{2}\right)^{12}=0.0723 \end{align}$

Notez que mais les autres termes ne pas satisfaire le principe de vraisemblance. $\binom{12}{3}\left(\frac{1}{2}\right)^{12}=\ell_1(\frac{1}{2};x=3)$

Pour le modèle binomial négatif, nous avons:

\begin{aligned} p-value & = P (Y \geq 12 | θ \frac{1}{2}) \\ = (\binom{11}{2}) {(\frac{1}{2})}^{12} + (\binom{12}{2}) {(\frac{1}{2})}^{12} + (\binom{13}{2}) {(\frac{1}{2})}^{12} + . . . = 0.0375 \end{aligned}

$\begin{align} \text{p-value}&=P\left(Y\geq 12|\theta\frac{1}{2}\right)\\ &=\binom{11}{2}\left(\frac{1}{2}\right)^{12}+\binom{12}{2}\left(\frac{1}{2}\right)^{12}+ \binom{13}{2}\left(\frac{1}{2}\right)^{12}+...=0.0375 \end{align}$

D'après les calculs de la valeur p ci-dessus, nous voyons que dans le modèle binomial, nous ne pourrions pas rejeter mais en utilisant le modèle binomial négatif, nous rejetterions . Ainsi, même si , les valeurs p et les décisions basées sur ces valeurs p ne coïncident pas. Cet argument des valeurs p est souvent utilisé par les bayésiens contre l'utilisation des valeurs p de Frequentist. $H_o$ $H_o$ $\ell_1(\theta;x)\propto\ell_2(\theta;y)$

Examinons maintenant de nouveau les hypothèses suivantes, mais à partir du paradigme bayésien

H_{o} : θ \geq \frac{1}{2} versus H_{a} : θ < \frac{1}{2}

$H_o:\theta\geq\frac{1}{2}\hspace{.2in}\text{versus}\hspace{.2in}H_a:\theta<\frac{1}{2}$

Pour le modèle binomial, nous avons:

\begin{aligned} P (θ \geq \frac{1}{2} | x) = \int_{1 / 2}^{1} π (θ | x) d x = \int_{1 / 2}^{1} θ^{3} (1 - θ)^{9} π (θ) d θ / \int_{0}^{1} θ^{3} (1 - θ)^{9} π (θ) d θ \end{aligned}

$\begin{align} P\left(\theta\geq\frac{1}{2}|x\right)=\int_{1/2}^1\pi(\theta|x)dx=\int_{1/2}^1\theta^3(1-\theta)^9\pi(\theta)d\theta \bigg/\int_{0}^1\theta^3(1-\theta)^9\pi(\theta)d\theta \end{align}$

De même, pour le modèle binomial négatif, nous avons:

\begin{aligned} P (θ \geq \frac{1}{2} | y) = \int_{1 / 2}^{1} π (θ | x) d x = \int_{1 / 2}^{1} θ^{3} (1 - θ)^{9} π (θ) d θ / \int_{0}^{1} θ^{3} (1 - θ)^{9} π (θ) d θ \end{aligned}

$\begin{align} P\left(\theta\geq\frac{1}{2}|y\right)=\int_{1/2}^1\pi(\theta|x)dx=\int_{1/2}^1\theta^3(1-\theta)^9\pi(\theta)d\theta \bigg/\int_{0}^1\theta^3(1-\theta)^9\pi(\theta)d\theta \end{align}$

Maintenant, en utilisant les règles de décision bayésiennes, choisissez si (ou un autre seuil) et répétez la même chose pour . $H_o$ $P(\theta\geq\frac{1}{2}|x)>\frac{1}{2}$ $y$

Cependant, et nous en arrivons à même conclusion et cette approche satisfait donc le principe de vraisemblance. $P\left(\theta\geq\frac{1}{2}|x\right)=P\left(\theta\geq\frac{1}{2}|y\right)$

Et donc pour conclure mes divagations, si vous ne vous souciez pas du principe de vraisemblance, alors être fréquentiste est génial! (Si vous ne pouvez pas dire, je suis bayésien :))

— RustyStatistician
source

1

J'apprécie la réponse clairement réfléchie (et prenant probablement beaucoup de temps), mais je pense que cette réponse s'écarte quelque peu du mandat de "réponses ... communiquées aussi facilement que possible ..." de la question.

— Jsakaluk

1

@jsakaluk, je suppose que ce que je voulais et étais sûr de soutenir l'argument, c'est que si vous êtes prêt à oublier certaines choses que de nombreux statisticiens appliqués tiennent pour acquis tout le temps, à savoir le principe de vraisemblance, le paradigme fréquentiste peut être une alternative beaucoup plus simple au paradigme bayésien. Cependant, si vous ne pouvez pas le faire, vous devrez probablement trouver des alternatives.

— RustyStatistician

4

@RustyStatistician Le principe de vraisemblance est un principe central pour les vrais-vraisemblables. Likelihoodists ne sont pas bayésienne du tout . J'ai posté des liens dans ma réponse. Votre affirmation "si vous croyez au principe de vraisemblance, alors (je crois que vous devez absolument épouser le paradigme bayésien") est fausse.

— Stan

@ Stan, je suis d'accord avec vous pour dire que les vrais-vraisemblables croient certainement au principe de vraisemblance. Mais je trouverais extrêmement difficile de croire que, si vous demandez à un Bayésien s'il est convaincu qu'il adhère au principe de vraisemblance, il dirait qu'il ne le ferait pas (c'est simplement mon avis, vous n'êtes pas obligé d'être d'accord).

— RustyStatistician

2

Les rôles de principe de vraisemblance (LP), le principe de la conditionnalité (CP) et le principe de suffisance (SP) dans l' inférence ne sont pas simple..this est parce que ces principes ont trait à la preuve (telle que présentée par les données), alors que l' inférence implique d' aller au - delà de la preuve . C'est toujours risqué, mais nécessaire pour progresser. Voir le théorème de Birnbaums (abordé ici ... je ne suis pas nécessairement d'accord avec le reste de l'article): arxiv.org/abs/1302.5468

6

Vous et moi sommes tous deux scientifiques, et en tant que scientifiques, vous êtes principalement intéressés par les questions de preuves. Pour cette raison, je pense que les approches bayésiennes, dans la mesure du possible, sont préférables.

Les approches bayésiennes répondent à notre question: Quelle est la force de la preuve pour une hypothèse par rapport à une autre? Les approches fréquentistes, par contre, ne le font pas: elles indiquent uniquement si les données sont étranges compte tenu d’une hypothèse.

Cela étant dit, Andrew Gelman, notable bayésien, semble préconiser l’utilisation de valeurs p (ou de vérifications graphiques analogues à des valeurs p) pour vérifier les erreurs de spécification de modèle. Vous pouvez voir une allusion à cette approche dans cet article de blog .

Si je comprends bien, sa démarche ressemble à un processus en deux étapes: tout d’abord, il pose la question bayésienne de savoir quelle est la preuve d’un modèle par rapport à un autre. Deuxièmement, il pose la question Frequentist de savoir si le modèle préféré considère réellement tout ce qui est plausible compte tenu des données. Cela me semble une approche hybride raisonnable.

— CoolBuffScienceDude
source

1

Bien que le lien vers le blog Gelman devrait rester valide, ce ne sera pas "aujourd'hui" après minuit. Edité en conséquence.

— Nick Cox

8

Je suis fermement en désaccord avec la remarque selon laquelle les approches fréquentistes ne mesurent pas les preuves, et que cela ne concerne que le monde bayésien. Vous omettez l'origine du test d'hypothèse, tel que le test de RC, mesure la preuve d'une hypothèse par rapport à celle de l'autre.

— Cliff AB

1

(+1) à @CliffAB - pour tous ceux qui pensent aux statistiques "fréquentistes", veuillez consulter le "rapport de vraisemblance", le "théorème de Birnbaum", et peut-être lire un peu de Royall ... ne sautez pas à la paille- les arguments de l'homme impliquant NHST - qui, en passant, n'ont pas semblé freiner le progrès scientifique malgré ses failles prétendument catastrophiques ... c'est parce que les statisticiens ne sont pas des programmes MINITAB à base de carbone ... ils pensent [oui, faire des statistiques, c'est En fait, c'est un métier, tout comme la médecine, l'économie ou la mécanique automobile ... vous ne pouvez pas simplement lire un livre, essayer une formule et vous attendre à ce que la vérité tombe sur vos genoux].

2

@Bey: Personnellement, je pense que les valeurs prédictives ont quelque peu atténué le processus scientifique (les biologistes étant contraints de devenir statisticiens à temps partiel pour publier des articles, ce qui réduit le temps dont ils disposent pour devenir des biologistes), mais je ne le fais pas. ne pensez pas que les alternatives aux valeurs-p réduisent ce problème en aucune manière! J’estime que la question des valeurs p n’est pas leur fondement théorique, mais leur facilité d’utilisation par des non-statisticiens. Les probabilités postérieures (par exemple) ne font qu'empirer cette question plutôt que de l'améliorer.

— Cliff AB

2

@CliffAB ne pouvait pas être plus d'accord… je n'y ai pas pensé… mais je suppose que c'est la nature même de l'édition… sauf si les départements de la recherche peuvent se permettre d'avoir des statisticiens. N'importe quel outil statistique peut être utilisé à mauvais escient par quelqu'un qui ne connaît pas bien son utilisation ... dommage que les outils statistiques semblent si faciles à utiliser ...

6

Personnellement, j'ai du mal à penser à une situation où la réponse fréquentiste serait préférable à une réponse bayésienne. Ma réflexion est détaillée ici et dans d'autres articles de blog sur fharrell.com sur les problèmes liés aux valeurs p et aux tests d'hypothèses nulles. Les fréquentistes ont tendance à ignorer quelques problèmes fondamentaux. Voici juste un échantillon:

En dehors du modèle linéaire gaussien à variance constante et dans quelques autres cas, les valeurs p calculées sont d'une précision inconnue pour votre jeu de données et votre modèle.
Lorsque l’expérience est séquentielle ou adaptative, il arrive souvent qu’une valeur p ne puisse même pas être calculée et qu’on ne puisse définir que le niveau global à atteindre. $\alpha$
Les fréquencistes semblent heureux de ne pas laisser l'erreur de type I descendre en dessous, disons 0,05, peu importe maintenant la taille de l'échantillon augmente
Il n'y a pas de prescription fréquentiste sur la manière dont les corrections de multiplicité sont formées, ce qui conduit à un méli-mélo de méthodes ad hoc

En ce qui concerne le premier point, un modèle couramment utilisé est le modèle logistique binaire. Sa vraisemblance logarithmique est très non quadratique et la grande majorité des limites de confiance et des valeurs p calculées pour de tels modèles ne sont pas très précises. Comparez cela au modèle logistique bayésien, qui fournit une inférence exacte.

D'autres ont mentionné le contrôle des erreurs comme raison d'utiliser l'inférence fréquentiste. Je ne pense pas que ce soit logique, parce que l' erreur à laquelle ils se réfèrent est l'erreur de longue durée, en imaginant un processus dans lequel des milliers de tests statistiques sont exécutés. Un juge qui a déclaré que "la probabilité d'une fausse condamnation à long terme dans ma salle d'audience n'est que de 0,03" devrait être radié. Elle est accusée d'avoir la plus grande probabilité de prendre la bonne décision pour le défendeur actuel . D'autre part, un moins la probabilité postérieure d'un effet est la probabilité d'un effet nul ou inverse et correspond à la probabilité d'erreur dont nous avons réellement besoin.

— Frank Harrell
source

2

"Il n'y a pas de prescription fréquentiste sur la manière dont les corrections de multiplicité sont formées, ce qui conduit à un méli-mélo de méthodes ad hoc." Par contre, je n’ai jamais vu un Bayésien faire des corrections de multiplicité du tout. Andrew Gelman déclare même fièrement qu'il ne les utilise jamais. Par exemple, j'ai vu des gens rapporter des intervalles de crédibles à 95% pour , , mais la crédibilité conjointe de ces intervalles n'est pas de 95%. La meilleure façon de régler ce problème n’est pas évidente. Avez-vous des conseils ou des exemples?

θ_{1}, \dots, θ_{k}

$\theta_1, \ldots, \theta_k$

k

$k$

— civilstat le

5

Beaucoup de gens ne semblent pas conscients d'une troisième école philosophique: le vraisemblance. Le livre de AWF Edwards, Probabilité, est probablement le meilleur endroit pour en prendre connaissance. Voici un court article qu'il a écrit.
Le vraisemblance évite les valeurs p, comme le bayésianisme, mais évite également le passé souvent douteux du bayésien. Il y a un traitement d'introduction ici aussi.

— Stan
source

5

Il existe une approche de probabilité algorithmique de Vovk, développée à partir des idées de Kolmogorov.

— Aksakal

2

"Beaucoup de gens ne semblent pas conscients d'une troisième école philosophique: le vraisemblance" Je ne pense pas que cette phrase soit vraie en 2016 ...

— Tim

4

@ Tim, bien que tout le monde que je connaisse connaisse le fréquentisme et le bayésianisme, je n'ai jamais rencontré quelqu'un qui ait entendu parler du vraisemblance. L’interlocuteur initial semble être comme mes collègues formés au fréquentisme et qui s’intéressent de plus en plus au bayésianisme. Peut-être que la plupart des gens qui lisent ma réponse ci-dessus pensent que je fais référence à l'estimation du maximum de vraisemblance ou aux hypothèses de test utilisant des ratios de vraisemblance. Nan! Je suggère Yudi Pawitan et cette conférence

— stan

7

Aucune de ces approches n'est religieuse, donc il n'y a pas grand chose à croire, elles sont simplement utiles pour certains types de problèmes, et certaines des approches conviennent mieux à certains problèmes et d'autres à d'autres :)

— Tim

1

(+1) pour avoir mentionné la vraisemblance scolaire et pour le commentaire concernant Pawitan. Le livre de Pawitan, "En toute probabilité", s'est considérablement élargi et amélioré par la pratique statistique ... Je ne connaissais que Bayes vs Frequentism. Il aborde beaucoup d'aspects philosophiques et méthodologiques de Bayes, le fréquentisme "classique" et, bien sûr, couvre l'école de vraisemblance pure. Juste un excellent livre pour devenir un utilisateur plus sophistiqué de statistiques ... quelles que soient vos inclinations philosophiques.

4

Un des principaux inconvénients des approches fréquentistes de la construction de modèles a toujours été, comme le note TrynnaDoStats dans son premier point, les défis liés à l’inversion de grandes solutions fermées. L'inversion matricielle sous forme fermée nécessite que toute la matrice soit résidente dans la RAM, ce qui constitue une limite importante pour les plates-formes à un seul processeur avec de grandes quantités de données ou des fonctionnalités massivement catégoriques. Les méthodes bayésiennes ont permis de contourner ce problème en simulant des tirages aléatoires à partir d'un préalable spécifié. Cela a toujours été l’un des principaux arguments de vente des solutions bayésiennes, bien que les réponses ne soient obtenues qu’à un coût significatif en CPU.

Andrew Ainslie et Ken Train, dans un article d'il y a environ 10 ans auquel j'ai perdu la référence, ont comparé les mélanges finis (de forme fréquente ou fermée) aux approches bayésiennes de la construction de modèles et ont découvert que, dans une large gamme de formes fonctionnelles et les mesures de performance, les deux méthodes ont fourni des résultats essentiellement équivalents. Les solutions bayésiennes présentaient un avantage ou une plus grande flexibilité dans les cas où les informations étaient à la fois rares et de très haute dimension.

Cependant, ce document a été écrit avant que les algorithmes "diviser et conquérir" ne développent des plateformes massivement parallèles, par exemple, voir l'article de Chen et Minge pour plus d'informations à ce sujet http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012- 01.pdf

L'avènement des approches de D & C a fait que, même pour les problèmes les plus volumineux, les plus dimensionnels et les plus poilus, les approches bayésiennes n'ont plus aucun avantage sur les méthodes fréquentistes. Les deux méthodes sont à parité.

Ce développement relativement récent mérite d'être signalé dans tout débat sur les avantages ou les limites pratiques de l'une ou l'autre méthode.

— Mike Hunter
source

Je pense que c'est un bon ajout à la discussion (+1) mais j'ai du mal à suivre. Cela retarde vraiment, vraiment, vraiment sa ligne de frappe ... Peut-être pourriez-vous le réorganiser un peu? :)

— usεr11852 dit Rétablir Monic

@ user11852 Vous ne dites pas que la publication ne parvient pas à communiquer quelque chose d'utile, alors que le développement de la logique n'est pas conforme aux normes journalistiques. Depuis que ce fil est devenu "communauté", je ne suis pas trop enclin (motivé?) À travailler à le réorganiser autour de votre suggestion. Il peut rester tel quel. Mais merci quand même pour le vote positif et le commentaire.

— Mike Hunter

1.) L’inversion de matrice est souvent utilisée pour l’estimation MLE (qui n’est qu’une des nombreuses méthodes fréquentistes), mais pas toujours. Mon travail en estimation MLE implique une optimisation sur jusqu'à paramètres (c’est-à-dire que l’espace des paramètres peut croître linéairement avec la taille de l’échantillon) et l’inversion matricielle n’est absolument pas une option ... mais j’optimise quand même la vraisemblance! 2.) L'inversion de matrice se produit toujours dans les statistiques bayésiennes, comme un échantillonneur de programme de mise à jour par bloc.

n

$n$

— Cliff AB

@CliffAB I pensait à une inversion de type ANOVA de la matrice de produits croisés.

— Mike Hunter

@DJohnson: Je vois. Mais ce que je voulais dire, c’est que l’inversion matricielle est orthogonale aux méthodes fréquentiste vs bayésienne; les deux camps utilisent des outils qui font quelque chose de très similaire (au moins en termes de coûts de calcul) dans beaucoup de leurs méthodes.

— Cliff AB

3

Les tests Frequentist se concentrent sur la falsification de l'hypothèse nulle. Cependant, le test de signification de l'hypothèse nulle (NHST) peut également être effectué dans une perspective bayésienne, car dans tous les cas, NHST est simplement un calcul de P (Effet observé | Effet = 0). Il est donc difficile d'identifier un moment où il serait nécessaire de mener NHST d'un point de vue fréquentiste.

Cela étant dit, le meilleur argument en faveur de la mise en œuvre du NHST selon une approche fréquentiste est la facilité et l’accessibilité. Les gens apprennent des statistiques fréquentistes. Il est donc plus facile de gérer un NHST fréquentiste, car il existe de nombreux autres progiciels statistiques qui facilitent cette opération. De même, il est plus facile de communiquer les résultats d'un NHST fréquentiste, car les gens connaissent bien cette forme de NHST. Donc, je vois cela comme le meilleur argument en faveur d'approches fréquentistes: l'accessibilité aux programmes de statistiques qui les exécuteront et la facilité de communication des résultats aux collègues. Ceci n’est cependant que culturel, donc cet argument pourrait changer si les approches fréquentistes perdent leur hégémonie.

— Liz Page-Gould
source

5

Les commentaires sur ce que pensait Fisher semblent surmenés ici à moins que vous ne puissiez fournir des citations exactes. L'hypothèse nulle est un dispositif faisant partie d'un test de signification pour tenter de décourager les scientifiques de surinterpréter les résultats de petits échantillons. Fisher était aussi désireux que quiconque que les scientifiques utilisent les statistiques pour faire de la bonne science; il était lui-même un contributeur très sérieux à la génétique.

— Nick Cox

4

Je suis tout à fait d’accord et j’ai donc modifié la réponse pour supprimer les spéculations sur l’état mental de Fisher.

— Liz Page-Gould

3

Plusieurs commentaires:

La différence fondamentale entre le statisticien bayésien et fréquentiste est que le bayésien est disposé à étendre les outils de la probabilité à des situations où le fréquentiste ne le ferait pas.
- Plus spécifiquement, la bayésienne est disposée à utiliser la probabilité pour modéliser l’incertitude dans son esprit à partir de divers paramètres. Pour le fréquentiste, ces paramètres sont des scalaires (bien que scalaires où le statisticien ne connaisse pas la valeur vraie). Pour le bayésien, divers paramètres sont représentés sous forme de variables aléatoires! C'est extrêmement différent. L'incertitude du bayésien sur les paramètres valeus est représentée par un prieur .
Dans les statistiques bayésiennes, on espère qu'après l'observation des données, le postérieur écrase le prieur, que le prieur n'a pas d'importance. Mais ce n'est souvent pas le cas: les résultats peuvent être sensibles au choix de prior! Différents Bayésiens ayant des antécédents différents n'ont pas besoin d'être d'accord sur le postérieur.

Il est important de garder à l’esprit que les déclarations du statisticien fréquentiste sont des affirmations sur lesquelles deux Bayésiens peuvent s’entendre, quelles que soient leurs croyances antérieures!

Le fréquentiste ne commente pas les a priori ou les postérieurs, mais simplement la vraisemblance.

Les déclarations du statisticien fréquentiste sont en quelque sorte moins ambitieuses, mais les déclarations plus audacieuses du bayésien peuvent s'appuyer de manière significative sur la désignation d'un prieur. Dans les situations où les prieurs ont de l'importance et où il y a désaccord sur les priors, les déclarations conditionnelles de statistiques fréquentistes, plus limitées, peuvent être plus solides.

— Matthew Gunn
source

2

Le but de beaucoup de recherches n'est pas d'arriver à une conclusion finale, mais juste d' obtenir un peu plus de preuves pour pousser progressivement le sens de la question de la communauté dans une direction .

Les statistiques bayésiennes sont indispensables lorsque vous avez besoin d’évaluer une décision ou une conclusion à la lumière des preuves disponibles. Le contrôle de la qualité serait impossible sans les statistiques bayésiennes. Toute procédure dans laquelle vous devez collecter des données, puis y donner suite (robotique, apprentissage automatique, prise de décision commerciale) bénéficie des statistiques bayésiennes.

Mais beaucoup de chercheurs ne le font pas. Ils font des expériences, collectent des données, puis disent: "Les données vont dans ce sens", sans trop se soucier de savoir si c'est la meilleure conclusion compte tenu de toutes les preuves que d'autres ont rassemblées jusqu'à présent. La science peut être un processus lent et un énoncé du type "La probabilité que ce modèle soit correct est de 72%!" est souvent prématuré ou inutile.

Ceci est également approprié d’une manière mathématique simple, car les statistiques fréquentistes se révèlent souvent mathématiquement identiques à l’étape de mise à jour d’une statistique bayésienne. En d’autres termes, alors que les statistiques bayésiennes sont (modèle précédent, preuves) → nouveau modèle, les statistiques fréquentistes ne sont que des preuves et laissent à d’autres le soin de remplir les deux autres parties.

— Owen
source

Bien que la majeure partie de ce message soit intéressante, elle consiste en de nombreuses opinions non étayées. Veuillez consulter notre centre d’aide concernant les types de réponses attendues sur ce site.

— whuber

@whuber je vois. J'ai ajouté une citation dont je me souviens par coeur, mais je n'ai pas de citations pour le reste, donc si cela semble trop dépourvu, je peux le supprimer.

— Owen

5

Je suis surpris que vous ayez mentionné le contrôle de la qualité, car il semble que ce soit un domaine où l’interprétation fréquentiste de la probabilité (fréquence relative sur de nombreux essais) serait très naturelle: étant donné que l’usine fonctionne correctement, quelle probabilité avons-nous d’en voir autant? (ou plusieurs) widgets cassés? Puis-je vous pousser à préciser ce qui rend les statistiques bayésiennes particulièrement utiles pour le contrôle de la qualité?

— Matt Krause

@MattKrause Supposons que notre objectif est d'expédier des widgets défectueux à un taux <1%. Nous savons que l’usine produit des widgets défectueux à un taux de 10% et nous avons un test dont les taux d’erreur de type I et de type II sont s et 1 / (sqrt (4 - 1 / s ^ 2)) où s est un paramètre de rigueur. Que devrions-nous utiliser pour la rigueur?

— Owen

2

L'idée que les statistiques fréquentistes ne peuvent pas combiner les informations provenant d'études successives semble ignorer le domaine des méta-analyses.

— Cliff AB

2

L'exécution réelle d'une méthode bayésienne est plus technique que celle d'un Frequentist. Par "plus technique", j'entends des choses telles que: 1) le choix des priorités, 2) la programmation de votre modèle dans un BUGS / JAGS / STAN et 3) la réflexion sur l'échantillonnage et la convergence.

De toute évidence, le n ° 1 n’est quasiment pas optionnel, par définition, du bayésien. Cependant, avec certains problèmes et procédures, il peut exister des valeurs par défaut raisonnables, masquant quelque peu le problème pour l'utilisateur. (Bien que cela puisse aussi causer des problèmes!)

Que le numéro 2 soit un problème dépend du logiciel que vous utilisez. La statistique bayésienne a tendance à privilégier des solutions plus générales que les méthodes statistiques fréquentistes, et des outils tels que BUGS, JAGS et STAN en sont une expression naturelle. Cependant, il existe des fonctions bayésiennes dans divers progiciels qui semblent fonctionner comme dans la procédure fréquentiste typique. Ce n'est donc pas toujours un problème. (Et des solutions récentes telles que les packages R rstanarmet qui brmspermettent de réduire cet écart.) Néanmoins, l’utilisation de ces outils est très similaire à la programmation dans un nouveau langage.

Le point 3 est généralement applicable, car la majorité des applications bayésiennes du monde réel vont utiliser l'échantillonnage MCMC. (D'un autre côté, les procédures fréquentistes basées sur le MLE utilisent une optimisation qui peut converger vers un minimum local ou ne pas converger du tout, et je me demande combien d'utilisateurs devraient vérifier cela et ne le font pas?)

Comme je l'ai dit dans un commentaire, je ne suis pas sûr que l'absence de prieur soit un avantage scientifique. C'est certainement pratique à plusieurs égards et à plusieurs reprises dans le processus de publication, mais je ne suis pas sûr que cela améliore réellement la science. (Et dans l'ensemble, nous devons tous être conscients de nos antécédents en tant que scientifiques, sinon nous aurons toutes sortes de biais dans nos enquêtes, quelles que soient les méthodes statistiques que nous utilisons.)

— Wayne
source

En ce qui concerne (3), de nombreux modèles statistiques classiques (c.-à-d. Glm) ont des log-vraisemblances concaves. Il est donc très rare que les algorithmes standard échouent, en dehors des cas extrêmes. En ce qui concerne les problèmes non concaves (c'est-à-dire les NN), bien qu'ils posent de gros problèmes de convergence inadéquate (ce que les utilisateurs comprennent généralement), il s'agit également (et non par hasard) de problèmes dans lesquels les algorithmes MCMC classiques échoueront horriblement s'ils sont exécutés uniquement disons, la vie d'un humain. Cependant, il est généralement moins fastidieux de réparer la MCMC que l'algorithme d'optimisation!

— Cliff AB

2

Conceptuellement : je ne sais pas. Je crois que les statistiques bayésiennes sont la façon la plus logique de penser, mais je ne peux pas justifier pourquoi.

L’avantage du fréquentiste est qu’il est plus facile pour la plupart des élèves de niveau élémentaire. Mais pour moi c'était étrange. Il a fallu des années avant que je puisse vraiment clarifier intellectuellement ce qu'est un intervalle de confiance. Mais lorsque j'ai commencé à faire face à des situations pratiques, les idées fréquentistes apparaissaient simples et très pertinentes.

Empiriquement

La question la plus importante sur laquelle je me concentre d’aujourd’hui concerne davantage l’efficacité pratique: temps de travail personnel, précision et rapidité de calcul.

Temps de travail personnel: Pour les questions de base, je n’utilise pratiquement jamais de méthode bayésienne: j’utilise des outils fréquentistes de base et je préférerai toujours un test t à un test bayésien qui me donnerait mal à la tête. Quand je veux savoir si je suis significativement meilleur à tictactoe que ma copine, je fais un chi-squared :-). En fait, même dans le cadre d’un travail sérieux en tant qu’informaticien, les outils de base fréquentistes sont d’une aide précieuse pour étudier les problèmes et éviter les fausses conclusions dues au hasard.

Précision: dans l’apprentissage automatique où la prédiction compte plus que l’analyse, il n’ya pas de frontière absolue entre bayésien et fréquentiste. MLE est un approcah fréquentiste: juste un estimateur. Mais la MLE régularisée (MAP) est une approche partiellement bayésienne : vous trouvez le mode du postérieur et vous ne vous souciez pas du reste du postérieur. Je ne connais pas de justification fréquentiste expliquant pourquoi utiliser la régularisation. En pratique, la régularisation est parfois simplement inévitable car l’estimation brute de l’EMV est tellement suréquipée que 0 serait un meilleur prédicteur. Si la régularisation est considérée comme une méthode vraiment bayésienne, cela justifie à lui seul que Bayes peut apprendre avec moins de données.

Vitesse de calcul: les méthodes fréquentistes sont le plus souvent plus rapides et plus simples à mettre en œuvre. Et en quelque sorte, la régularisation fournit un moyen peu coûteux d’introduire un peu de Bayes en eux. C'est peut-être parce que les méthodes bayésiennes ne sont toujours pas aussi optimisées qu'elles le pourraient. Par exemple, certaines implémentations de LDA sont rapides de nos jours. Mais ils demandaient un travail très dur. Pour les estimations d'entropie, les premières méthodes avancées ont été la méthode bayésienne. Ils ont très bien fonctionné, mais les méthodes fréquentistes ont rapidement été découvertes et prennent beaucoup moins de temps de calcul ... Pour le temps de calcul, les méthodes fréquentistes sont généralement nettement supérieures. Il n'est pas absurde, si vous êtes bayésien, de considérer les méthodes fréquentistes comme des approximations des méthodes bayésiennes.

— Benoit Sanchez
source

2

"Je ne connais pas de justification fréquentiste expliquant pourquoi utiliser la régularisation". C'est facile; dans le cadre d’essais répétés, il a montré une diminution des erreurs hors échantillon.

— Cliff AB

2

Un type de problème dans lequel une approche particulière basée sur Frequentist a essentiellement dominé n'importe quel bayésien est celui de la prédiction dans le cas M-open.

Qu'est-ce que M-open signifie?

M-open implique que le vrai modèle qui génère les données n'apparaisse pas dans l'ensemble de modèles que nous considérons. Par exemple, si la moyenne vraie de est quadratique en fonction de , alors que nous ne considérons que les modèles avec la moyenne une fonction linéaire de , nous sommes dans le cas M-ouvert. En d'autres termes, une spécification erronée du modèle aboutit à un cas M-open. $y$ $x$ $x$

Dans la plupart des cas, il s’agit d’un problème énorme pour les analyses bayésiennes; à peu près toute la théorie que je connais repose sur le modèle correctement spécifié. Bien entendu, en tant que statisticiens critiques, nous devrions penser que notre modèle est toujours mal spécifié. C'est tout un problème. la plupart de notre théorie est basée sur le modèle étant correct, mais nous savons que ce n'est jamais le cas. En gros, nous croisons simplement les doigts en espérant que notre modèle ne soit pas trop incorrect.

Pourquoi les méthodes Frequentist gèrent-elles mieux cela?

Tous ne le font pas. Par exemple, si nous utilisons des outils MLE standard pour créer les erreurs standard ou établir des intervalles de prédiction, nous ne sommes pas mieux lotis que d’utiliser des méthodes Bayesiennes.

Cependant, il existe un outil Frequentist très spécifiquement conçu dans ce but précis: la validation croisée. Ici, afin d’estimer la capacité de notre modèle à prévoir de nouvelles données, nous laissons simplement certaines données lors de l’ajustement du modèle et mesurons la mesure dans laquelle notre modèle prédit les données invisibles.

Notez que cette méthode est complètement ambivalente par rapport à une spécification erronée du modèle. Elle fournit simplement une méthode permettant d'estimer la capacité d'un modèle à prédire sur de nouvelles données, que le modèle soit "correct" ou non.

Je ne pense pas qu'il soit trop difficile d'affirmer que cela change vraiment l'approche de la modélisation prédictive qu'il est difficile de justifier du point de vue bayésien (un préalable est censé représenter la connaissance antérieure avant de voir des données, la fonction de vraisemblance est le modèle, etc.) en un c’est très facile à justifier du point de vue de Frequentist (nous avons choisi le modèle + les paramètres de régularisation qui, après échantillonnage répété, permettent de tirer le meilleur parti des erreurs d’échantillon).

Cela a complètement révolutionné la façon dont l'inférence prédictive est faite. Je ne pense pas qu'un statisticien considérerait (ou du moins devrait) sérieusement un modèle prédictif qui n'a pas été construit ou vérifié avec une validation croisée, quand il est disponible (c'est-à-dire que nous pouvons raisonnablement supposer que les observations sont indépendantes et n'essayent pas de rendre compte biais d’échantillonnage, etc.).

— Cliff AB
source