Ce qui vous semble manquer, c'est le début de l'histoire. Vous pouvez consulter l'article de Fienberg (2006) Quand l'inférence bayésienne est-elle devenue "bayésienne"? . Tout d'abord, il remarque que Thomas Bayes a été le premier à suggérer d'utiliser un uniforme avant:
Dans le langage statistique actuel, l'article de Bayes introduit une distribution a priori uniforme sur le paramètre binomial, , raisonnant par analogie avec une "table de billard" et s'appuyant sur la forme de la distribution marginale de la variable aléatoire binomiale, et non sur le principe de "raison insuffisante", comme l'ont prétendu de nombreux autres.θ
Pierre Simon Laplace a été la prochaine personne à en discuter:
Laplace a également articulé, plus clairement que Bayes, son argument pour le choix d'une distribution a priori uniforme, arguant que la distribution postérieure du paramètre devrait être proportionnelle à ce que nous appelons maintenant la vraisemblance des données, c'est-à-dire,θ
F( θ ∣ x1, x2, … , Xn) ∝ f( x1, x2, … , Xn∣ θ )
Nous comprenons maintenant que cela implique que la distribution a priori de
est uniforme, bien qu'en général, bien sûr, l'a priori puisse ne pas exister.θ
De plus, Carl Friedrich Gauss a également mentionné l'utilisation d'un prieur non informatif, comme l'ont noté David et Edwards (2001) dans leur livre Annotated Readings in the History of Statistics :
Gauss utilise un argument ad hoc de type bayésien pour montrer que la densité postérieure de est proportionnelle à la vraisemblance (dans la terminologie moderne):h
F( h | x ) ∝ f( x | h)
où il a supposé que était uniformément distribué sur [ 0 , ∞ ) . Gauss ne mentionne ni Bayes ni Laplace, bien que ce dernier ait popularisé cette approche depuis Laplace (1774).h[ 0 , ∞ )
et comme le note Fienberg (2006), la "probabilité inverse" (et ce qui suit, en utilisant des a priori uniformes) était populaire au tournant du 19e siècle
tμμh = σ- 1
L'histoire des débuts de l'approche bayésienne est également passée en revue par Stigler (1986) dans son livre The history of statistics: The mesure of incertitude before 1900 .
Dans votre courte revue, vous ne semblez pas non plus mentionner Ronald Aylmer Fisher (à nouveau cité après Fienberg, 2006):
Fisher s'est éloigné des méthodes inverses et vers sa propre approche de l'inférence, il a appelé la «vraisemblance», un concept qui, selon lui, était distinct de la probabilité. Mais la progression de Fisher à cet égard a été lente. Stigler (164) a souligné que, dans un manuscrit non publié datant de 1916, Fisher n'a pas fait de distinction entre la probabilité et la probabilité inverse avec un a priori plat, même si, plus tard, lorsqu'il a fait la distinction, il a prétendu l'avoir compris à cette époque.
Jaynes (1986) a fourni son propre article de synthèse intitulé Bayesian Methods: General Background. Un didacticiel d'introduction que vous pouvez vérifier, mais il ne se concentre pas sur les priors non informatifs. De plus, comme l'a noté AdamO , vous devriez certainement lire L'histoire épique du maximum de vraisemblance de Stigler (2007).
Il convient également de mentionner qu’il n’existe pas de «prieur non informatif» , de sorte que de nombreux auteurs préfèrent parler de «prieurs vagues» ou de «prieurs informatifs hebdomadaires» .
Une revue théorique est fournie par Kass et Wasserman (1996) dans The selection of prior distributions by formal rules , qui abordent plus en détail le choix des prieurs, avec une discussion approfondie sur l'utilisation des prieurs non informatifs.