C'est une histoire sur les degrés de liberté et les paramètres statistiques et pourquoi il est agréable que les deux aient une connexion simple et directe.
Historiquement, les termes " " sont apparus dans les études d'Euler sur la fonction Bêta. Il utilisait cette paramétrisation en 1763, tout comme Adrien-Marie Legendre: leur utilisation a établi la convention mathématique suivante. Ce travail est antérieur à toutes les applications statistiques connues.−1
La théorie mathématique moderne fournit de nombreuses indications, grâce à la richesse des applications en analyse, en théorie des nombres et en géométrie, que les termes " " ont réellement une signification. J'ai esquissé certaines de ces raisons dans les commentaires sur la question.−1
Ce qui devrait être la "bonne" paramétrisation statistique est plus intéressant. Ce n'est pas aussi clair et cela n'a pas à être le même que la convention mathématique. Il existe un immense réseau de familles de distributions de probabilités bien connues et interdépendantes. Ainsi, les conventions utilisées pour nommer (c'est-à-dire paramétrer) une famille impliquent généralement des conventions liées pour nommer les familles liées. Modifiez un paramétrage et vous voudrez tous les changer. Nous pourrions donc examiner ces relations pour trouver des indices.
Peu de gens seraient en désaccord avec le fait que les familles de distribution les plus importantes dérivent de la famille normale. Rappelons qu'une variable aléatoire est dite "distribuée normalement" lorsque ( X - μ ) / σ a une densité de probabilité f ( x ) proportionnel à exp ( - x deux / deux ) . Lorsque σ = 1 et μ = 0 , X aurait une distribution normale standard .X(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X
De nombreux ensembles de données sont étudiés à l'aide de statistiques relativement simples impliquant des combinaisons rationnelles des données et de faibles puissances (généralement des carrés). Lorsque ces données sont modélisées comme des échantillons aléatoires à partir d'une distribution normale - de sorte que chaque x i est considéré comme une réalisation d'une variable normale X i , tous les X i partagent une distribution commune et sont indépendants - les distributions de ces statistiques sont déterminés par cette distribution normale. Celles qui surviennent le plus souvent dans la pratique sontx1,x2,…,xnxiXiXi
,ladistribution deStudent ttνt avec "degrés de liberté". Il s'agit de la distribution de la statistique t = ˉ Xν=n−1 où ˉ X =(X1+X2+⋯+Xn)/nmodélise la moyenne des données etse(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/n est l'erreur standard de la moyenne. La division parn-1montre quendoit être2ou plus, d'oùνest un entier1ou plus. La formule, bien qu'apparemment un peu compliquée, est la racine carrée d'une fonction rationnelle des données de degré deux: elle est relativement simple.se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n2ν1
,ladistribution χ 2 (khi carré)avec ν "degrés de liberté" (df). Il s'agit de la distribution de la somme des carrés desvariables normales standard indépendantes ν . La répartition de la moyenne des carrés de ces variables sera donc un χ 2 de distribution miséchelle par 1 / ν : Je vaisréférence à cela comme une « normalisée » χ 2 distribution.χ2νχ2ννχ21/νχ2
Fν1,ν2, the F ratio distribution with parameters (ν1,ν2) is the ratio of two independent normalized χ2 distributions with ν1 and ν2 degrees of freedom.
Mathematical calculations show that all three of these distributions have densities. Importantly, the density of the χ2ν distribution is proportional to the integrand in Euler's integral definition of the Gamma (Γ) function. Let's compare them:
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
This shows that twice a χ2ν variable has a Gamma distribution with parameter ν/2. The factor of one-half is bothersome enough, but subtracting 1 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/2), then the exponent in its density function must be one less than half that count.
Why is the factor of 1/2 less troublesome than a difference of 1? The reason is that the factor will remain consistent when we add things up. If the sum of squares of n independent standard Normals is proportional to a Gamma distribution with parameter n (times some factor), then the sum of squares of m independent standard Normals is proportional to a Gamma distribution with parameter m (times the same factor), whence the sum of squares of all n+m variables is proportional to a Gamma distribution with parameter m+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.
If, however, we were to remove that pesky-looking "−1" from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of x in the formula, so that a χ21 distribution would be related to a "Gamma(0)" distribution (since the power of x in its PDF is 1−1=0), then the sum of three χ21 distributions would have to be called a "Gamma(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the −1 from the formula and absorbing it in the parameter.
Similarly, the probability function of an F ratio distribution is closely related to Beta distributions. Indeed, when Y has an F ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2) distribution. Its density function is proportional to
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
Furthermore--taking these ideas full circle--the square of a Student t distribution with ν d.f. has an F ratio distribution with parameters (1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.
From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of Γ and Beta distributions: we should prefer calling a Γ(α) distribution a "Γ(2α) distribution" and the Beta(α,β) distribution ought to be called a "Beta(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "F Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "−1" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.