C'est vraiment juste une commodité pour loglikelihood, rien de plus.
Je veux dire la commodité des sommes par rapport aux produits: , les sommes sont plus faciles à gérer à bien des égards, comme la différenciation ou l'intégration. Ce n'est pas une commodité uniquement pour les familles exponentielles, j'essaie de dire.ln( ∏jeXje) = ∑jelnXje
Lorsque vous traitez avec un échantillon aléatoire, les probabilités sont de la forme: , donc la loglik vraisemblance décomposerait ce produit en somme, ce qui est plus facile à manipuler et à analyser. Il est utile que tout ce qui nous intéresse soit le point du maximum, la valeur au maximum ne soit pas importante, nous pouvons donc appliquer toute transformation monotone telle que le logarithme.L = ∏jepje
Sur l'intuition de courbure. En fin de compte, c'est essentiellement la même chose que le deuxième dérivé de loglik vraisemblance.
MISE À JOUR: C'est ce que je voulais dire sur la courbure. Si vous avez une fonction , alors sa courbure serait ( voir (14) sur Wolfram):
y= f( x )
κ = f′ ′( x )( 1 + f′( x )2)3 / 2
La dérivée seconde de la vraisemblance logarithmique:
A = ( lnF( x ) )′ ′= f′ ′( x )F( x )- ( f′( x )F( x ))2
Au point du maximum, la dérivée première est évidemment nulle, donc on obtient:
Par conséquent, ma raillerie que la courbure de la la vraisemblance et la dérivée seconde de loglikelihood sont la même chose, en quelque sorte.
κm a x= f′ ′( xm a x) = A f( xm a x)
D'un autre côté, si la dérivée première de la vraisemblance est petite non seulement au point du maximum, mais autour de celui-ci, c'est-à-dire que la fonction de vraisemblance est plate, alors nous obtenons:
Maintenant, la probabilité plate n'est pas une bonne chose pour nous, car elle rend la recherche du maximum plus difficile numériquement, et la probabilité maximale n'est pas meilleure que les autres points autour d'elle, c'est-à-dire que les erreurs d'estimation des paramètres sont élevées.
κ ≈ f′ ′( x ) ≈ A f( x )
Et encore une fois, nous avons toujours la courbure et la relation dérivée seconde. Alors pourquoi Fisher n'a-t-il pas examiné la courbure de la fonction de vraisemblance? Je pense que c'est pour la même raison de commodité. Il est plus facile de manipuler la probabilité de connexion en raison des sommes plutôt que du produit. Il a donc pu étudier la courbure de la vraisemblance en analysant la dérivée seconde de la loglik vraisemblance. Bien que l'équation semble très simple pour la courbure , en réalité, vous prenez une dérivée seconde du produit, qui est plus compliquée que la somme des dérivées secondes.κm a x= f′ ′( xm a x)
MISE À JOUR 2:
Voici une démonstration. Je dessine une fonction de vraisemblance (entièrement composée), sa a) courbure et b) la dérivée 2e de son logarithme. Sur le côté gauche, vous voyez la probabilité étroite et sur le côté droit, elle est large. Vous voyez comment au point de la probabilité maximale a) et b) convergent, comme ils le devraient. Plus important encore, vous pouvez étudier la largeur (ou la planéité) de la fonction de vraisemblance en examinant la dérivée seconde de sa log-vraisemblance. Comme je l'ai écrit plus tôt, ce dernier est techniquement plus simple que le premier à analyser.
Il n'est pas surprenant que la dérivée 2e plus profonde des signaux de loglik vraisemblance flatte la fonction de vraisemblance autour de son maximum, ce qui n'est pas souhaité car cela provoque une plus grande erreur d'estimation des paramètres.
Code MATLAB au cas où vous souhaiteriez reproduire les tracés:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
MISE À JOUR 3:
Dans le code ci-dessus, j'ai branché une fonction arbitraire en forme de cloche dans l'équation de courbure, puis calculé la dérivée seconde de son journal. Je n'ai rien redimensionné, les valeurs sont directement issues des équations pour montrer l'équivalence que j'ai mentionnée plus tôt.
Voici le tout premier article sur la probabilité que Fisher a publié alors qu'il était encore à l'université, "Sur un critère absolu pour les courbes de fréquence d'ajustement", Messenger of Mathmatics, 41: 155-160 (1912)
Comme j'insistais tout au long, il ne mentionne aucune connexion "plus profonde" des probabilités de journalisation à l'entropie et à d'autres sujets fantaisistes, et il n'offre pas encore son critère d'information. Il met simplement l'équation à la p.54 puis procède à parler de maximisation des probabilités. À mon avis, cela montre qu'il utilisait le logarithme comme une méthode pratique pour analyser les probabilités conjointes elles-mêmes. Il est particulièrement utile dans l'ajustement de courbe continue, pour lequel il donne une formule évidente à la 55:
Bonne chance pour analyser cette probabilité (ou probabilité selon Fisher) sans le journal!log P = ∫ ∞ - ∞ log f d x PJournalP′= ∑n1Journalp
JournalP= ∫∞- ∞JournalFréX
P
Une chose à noter lors de la lecture de l'article, il ne faisait que commencer par un travail d'estimation du maximum de probabilité, et a fait plus de travail au cours des 10 années suivantes, donc même le terme MLE n'a pas encore été inventé, pour autant que je sache.