Comment comprendre les degrés de liberté?


257

D'après Wikipedia , il existe trois interprétations des degrés de liberté d'une statistique:

En statistique, le nombre de degrés de liberté est le nombre de valeurs dans le calcul final d’une statistique qui sont libres de varier .

Les estimations de paramètres statistiques peuvent être basées sur différentes quantités d'informations ou de données. Le nombre d' éléments d'information indépendants qui entrent dans l'estimation d'un paramètre s'appelle les degrés de liberté (df). En général, les degrés de liberté d'une estimation d'un paramètre sont égaux au nombre de scores indépendants inclus dans l'estimation moins le nombre de paramètres utilisés comme étapes intermédiaires dans l'estimation du paramètre lui-même (qui, en variance, est un, puisque la moyenne de l'échantillon est la seule étape intermédiaire).

Mathématiquement, les degrés de liberté sont la dimension du domaine d'un vecteur aléatoire , ou essentiellement le nombre de composants "libres": combien de composants doivent être connus avant que le vecteur ne soit complètement déterminé .

Les mots audacieux sont ce que je ne comprends pas bien. Si possible, des formulations mathématiques aideront à clarifier le concept.

De plus, les trois interprétations sont-elles en accord?


Découvrez cette explication
George Dontas

Réponses:


242

C'est une question subtile. Il faut une personne réfléchie pour ne pas comprendre ces citations! Bien qu’ils soient suggestifs, il s’avère qu’aucun d’entre eux n’est exact ou généralement correct. Je n'ai pas le temps (et il n'y a pas assez de place ici) de faire un exposé complet, mais j'aimerais partager une approche et un aperçu de ce que cela suggère.

D'où vient le concept de degrés de liberté (FD)? Les contextes dans lesquels on se trouve dans les traitements élémentaires sont:

  • Le test t de Student et ses variantes, telles que les solutions de Welch ou de Satterthwaite au problème de Behrens-Fisher (où deux populations présentent des variances différentes).

  • La distribution du khi-carré (définie comme la somme des carrés des normales standard indépendantes), qui est impliquée dans la distribution d'échantillonnage de la variance.

  • Le test F (des ratios de variances estimées).

  • Le test du chi carré , qui comprend ses utilisations dans (a) les tests d'indépendance dans les tableaux de contingence et (b) les tests de validité de l'ajustement des estimations de distribution.

Dans l’esprit, ces tests vont de l’exactitude (test t de Student et test F pour les variables normales) à de bonnes approximations (test t de Student et tests de Welch / Satterthwaite pour des données non trop mal asymétriques). ) repose sur des approximations asymptotiques (test du chi carré). L’apparition de "degrés de liberté" non intégraux (tests de Welch / Satterthwaite et, comme nous le verrons, teste le khi-carré) constitue un aspect intéressant. Cela présente un intérêt particulier car c’est le premier indice que DF n’est pas ce que l’on prétend.

Nous pouvons régler immédiatement certaines des revendications de la question. Comme le "calcul final d'une statistique" n'est pas bien défini (cela dépend apparemment de l'algorithme utilisé pour le calcul), il ne peut s'agir que d'une suggestion vague et ne mérite aucune autre critique. De même, ni le "nombre de notes indépendantes prises en compte dans l'estimation" ni "le nombre de paramètres utilisés comme étapes intermédiaires" ne sont bien définis.

Il est difficile de traiter les "éléments d'information indépendants qui entrent dans [une] estimation" , car il existe deux sens différents mais intimement liés d'indépendant qui peuvent être pertinents ici. L'un est l'indépendance des variables aléatoires; l'autre est l'indépendance fonctionnelle. Comme exemple de ce dernier, supposons que nous collections des mesures morphométriques de sujets - par exemple, pour simplifier, les trois longueurs de côté , , Z , les aires S = 2 ( X Y + Y Z + Z X ) et les volumes V = X Y ZYXYZS=2(XY+YZ+ZX)V=XYZd'un ensemble de blocs de bois. Les trois longueurs de côté peuvent être considérées comme des variables aléatoires indépendantes, mais les cinq variables sont des RV dépendantes. Les cinq sont également fonctionnellement dépendants du fait que le codomaine ( pas le "domaine"!) De la variable aléatoire à valeur vectorielle trace une variété tridimensionnelle dans R 5 . (Ainsi, localement en tout point ω R 5 , il y a deux fonctions f ω et g ω pour laquelle f ω(X,Y,Z,S,V)R5ωR5fωgω et g ω ( X ( ψ ) , ... , V ( ψ ) ) = 0 pourpoints ψ "proche" ω et les dérivés de f et g évalué à ω sont linéairement indépendants.) Cependant - voici le kicker - pour de nombreuses mesures de probabilité sur les blocs, des sous-ensembles de variables tels que ( X ,fω(X(ψ),,V(ψ))=0gω(X(ψ),,V(ψ))=0ψωfgω sontdépendants entant que variables aléatoires mais fonctionnellementindépendants.(X,S,V)

Ayant été alertés par ces ambiguïtés potentielles, organisons l'examen du test d'adéquation de l'ajustement du chi-carré , car (a) c'est simple, (b) c'est l'une des situations courantes où les gens ont vraiment besoin de connaître DF pour obtenir les résultats. p-value right et (c) il est souvent utilisé de manière incorrecte. Voici un bref résumé de l'application la moins controversée de ce test:

  • Vous disposez d'une collection de valeurs de données , considérée comme un échantillon d'une population.(x1,,xn)

  • Vous avez estimé certains paramètres d'une distribution. Par exemple, vous avez estimé la moyenne θ 1 et l'écart type θ 2 = θ p d'une distribution normale, en supposant que la population est normalement distribuée mais ne sachant pas (avant d'avoir obtenu les données) ce que θ 1 ou θ 2 pourrait être.θ1,,θpθ1θ2=θpθ1θ2

  • À l’avance, vous avez créé un ensemble de "bacs" pour les données. (Cela peut être problématique lorsque les bacs sont déterminés par les données, même si cela est souvent fait.) À l'aide de ces bacs, les données sont réduites à l'ensemble des comptes dans chaque bac. En anticipant ce que pourraient être les vraies valeurs de ( θ ) , vous l’avez arrangé de manière (espérons-le), chaque bin recevra approximativement le même nombre. (Le binning à probabilités égales assure que la distribution chi-carré est vraiment une bonne approximation de la distribution vraie de la statistique chi-carré sur le point d'être décrite.)k(θ)

  • Vous avez beaucoup de données - suffisamment pour assurer que presque tous les bacs doivent avoir un compte de 5 ou plus. (Ceci, nous l' espérons, permettra la distribution d'échantillonnage de la statistique à approcher de manière adéquate par un χ 2 distribution.)χ2χ2

En utilisant les estimations de paramètres, vous pouvez calculer le nombre attendu dans chaque groupe. La statistique du chi carré est la somme des ratios

(observedexpected)2expected.

De nombreuses autorités nous ont dit que cela devrait avoir (dans une très proche approximation) une distribution du chi carré. Mais il y a toute une famille de telles distributions. Ils sont différenciés par un paramètre souvent appelé "degrés de liberté". Le raisonnement standard sur la façon de déterminer ν va comme ceciνν

J'ai compte. C'est k morceaux de données. Mais il existe des relations ( fonctionnelles ) entre eux. Pour commencer, je sais d'avance que la somme des comptes doit être égale à n . C'est une relation. J'ai estimé deux (ou p , généralement) paramètres à partir des données. C'est deux (ou p ) relations supplémentaires, donnant p + 1 relations totales. En supposant qu'ils (les paramètres) soient tous indépendants (sur le plan fonctionnel ), cela ne laisse que k - p - 1 "degrés de liberté" (sur le plan fonctionnel ): c’est la valeur à utiliser pourkknppp+1kp1 .ν

Le problème avec ce raisonnement (qui est le type de calcul auquel les citations dans la question font allusion) est que c'est faux, sauf lorsque certaines conditions supplémentaires spéciales sont remplies. En outre, ces conditions n’ont rien à voir avec l’indépendance (fonctionnelle ou statistique), avec le nombre de "composants" des données, avec le nombre de paramètres, ni avec quoi que ce soit qui est mentionné dans la question initiale.

Laissez-moi vous montrer un exemple. (Pour que ce soit aussi clair que possible, j'utilise un petit nombre de bacs, mais ce n'est pas essentiel.) Générons 20 variables normales normales indépendantes et identiquement distribuées (iid) et estimons leur écart moyen et standard avec les formules habituelles ( moyenne = somme / compte, etc. ). Pour tester la qualité de l'ajustement, créez quatre bacs avec des points de coupure aux quartiles d'une normale standard: -0,675, 0, +0,657 et utilisez le nombre de bacs pour générer une statistique du chi carré. Répétez si la patience le permet. J'ai eu le temps de faire 10 000 répétitions.

La sagesse standard à propos de DF dit que nous avons 4 classes et 1 + 2 = 3 contraintes, ce qui implique que la distribution de ces statistiques de 10 000 khi-carré devrait suivre une distribution de Khi-carré avec 1 DF. Voici l'histogramme:

Figure 1

La ligne bleu foncé représente graphiquement le PDF d'un la distribution - celui que nous pensions que cela fonctionnerait - tandis que la ligne rouge foncé graphiques qui d'un χ 2 ( 2 ) la distribution ( ce qui serait une bonne estimation si quelqu'un pour vous dire que ν = 1 est incorrect). Ni correspond aux données.χ2(1)χ2(2)ν=1

Vous pouvez vous attendre à ce que le problème soit dû à la petite taille des ensembles de données ( = 20) ou peut-être à la petite taille du nombre de bacs. Cependant, le problème persiste même avec de très grands ensembles de données et un plus grand nombre de fichiers: il ne s'agit pas simplement d'un échec dans l'obtention d'une approximation asymptotique.n

Les choses se sont mal passées car j'ai violé deux exigences du test du chi carré:

  1. Vous devez utiliser l' estimation du maximum de vraisemblance des paramètres. (Cette exigence peut, dans la pratique, être légèrement violée.)

  2. Vous devez baser cette estimation sur les comptes, pas sur les données réelles! (Ceci est crucial .)

Figure 2

L'histogramme rouge illustre les statistiques du chi-carré pour 10 000 itérations distinctes, conformément à ces exigences. Effectivement, il suit visiblement la courbe (avec une quantité d'erreur d'échantillonnage acceptable), comme nous l'avions espéré au départ.χ2(1)

Le but de cette comparaison - et j'espère que vous avez vu venir - est que le DF correct à utiliser pour calculer les valeurs p dépend de nombreux éléments autres que les dimensions des variétés, le nombre de relations fonctionnelles ou la géométrie des variables normales. . Il existe une interaction subtile et délicate entre certaines dépendances fonctionnelles, telles que trouvées dans les relations mathématiques entre les quantités, et les distributions des données, leurs statistiques et les estimateurs formés à partir de celles-ci. Par conséquent, DF ne peut pas être expliqué de manière adéquate en termes de géométrie des distributions normales multivariées, d’indépendance fonctionnelle, de décompte de paramètres ou de toute autre chose de cette nature.

Nous sommes amenés à voir, alors, que « degrés de liberté » est simplement une heuristique qui suggère statistique ce que la distribution d'échantillonnage d'un (t, Chi-carré, ou F) doit être, mais il ne règle pas. Croire qu’il est dispositif conduit à des erreurs flagrantes. (Par exemple, le meilleur hit de Google lors de la recherche "chi squared goodness of fit" est une page Web d'une université de l'Ivy League qui se trompe complètement! En particulier, une simulation basée sur ses instructions montre que le La valeur recommandée est de 7 DF et de 9 DF.)

Avec cette compréhension plus nuancée, il est utile de relire l'article Wikipedia en question: dans les détails, cela donne les bonnes choses, indiquant où l'heuristique DF a tendance à fonctionner et où elle est approximative ou ne s'applique pas du tout.


Un bon compte rendu du phénomène illustré ici (DF étonnamment élevé dans les tests GOF du chi carré) apparaît dans le Volume II de Kendall & Stuart, 5ème édition . Je suis reconnaissant de l’occasion offerte par cette question de me ramener à ce texte merveilleux, qui regorge d’analyses aussi utiles.


Edit (Jan 2017)

Voici le Rcode pour produire la figure suivante "La sagesse standard sur DF ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
C'est une réponse incroyable. Vous gagnez sur Internet pour cela.
Adam

6
@caracal: comme vous le savez, les méthodes ML pour les données d'origine sont courantes et répandues: pour la distribution normale, par exemple, la MLE de est la moyenne de l'échantillon et la MLE de σ est la racine carrée de l'écart type de l'échantillon ( sans la correction de biais habituelle). Pour obtenir des estimations basées sur les comptes, j'ai calculé la fonction de vraisemblance pour les comptes (cela nécessite de calculer les valeurs du CDF aux points de coupure, de prendre leur journal, de les multiplier par le nombre et de les additionner) et de l'optimiser à l'aide d'un logiciel d'optimisation générique. μσ
whuber

4
@caracal Vous n'en avez probablement probablement plus besoin, mais un exemple de Rcode pour l'ajustement des données regroupées en ML apparaît maintenant dans une question connexe: stats.stackexchange.com/a/34894 .
whuber

1
"Le problème avec ce raisonnement (qui est le type de calcul auquel les citations dans la question font allusion) est qu'il est faux, sauf lorsque certaines conditions supplémentaires spéciales sont remplies." Je suis maintenant (presque) à travers deux semestres d'une séquence de modèles linéaires, et je comprends que les degrés de liberté sont le rang de la matrice au "milieu" de la forme quadratique. Quelles sont ces "conditions supplémentaires"?
Clarinettiste le

4
@Clarinetist Le but principal de ma réponse est de suggérer que ce que vous avez appris s'appuie sur une confusion de deux concepts de DF. Bien que cette confusion ne pose aucun problème pour les modèles de la théorie des moindres carrés standard, elle entraîne des erreurs même dans des circonstances simples et courantes, telles que l'analyse de tableaux de contingence. Ce rang sur la matrice donne le DF fonctionnel . Dans un modèle linéaire par la méthode des moindres carrés, il se trouve que le DF correct est utilisé pour certains types de tests, tels que les tests F. Pour le test du khi-carré, les conditions spéciales sont énumérées plus loin dans la réponse sous les points (1) et (2).
whuber

74

Ou simplement: le nombre d'éléments dans un tableau numérique que vous êtes autorisé à modifier afin que la valeur de la statistique reste inchangée.

# for instance if:
x + y + z = 10

vous pouvez changer, par exemple, x et y au hasard, mais vous ne pouvez pas changer z (vous pouvez, mais pas au hasard, donc vous n'êtes pas libre de le changer - voir le commentaire de Harvey), parce que vous allez changer la valeur de la statistique (Σ = 10). Donc, dans ce cas, df = 2.


19
Il n'est pas tout à fait correct de dire "vous ne pouvez pas changer z". En fait, vous devez changer z pour que la somme soit égale à 10. Mais vous n’avez pas le choix (pas de liberté) de ce que cela change. Vous pouvez modifier deux valeurs, mais pas la troisième.
Harvey Motulsky

53

Le concept n’est pas du tout difficile à préciser en mathématiques compte tenu des connaissances générales en géométrie euclidienne à dimensions, en sous-espaces et en projections orthogonales.n

Si est une projection orthogonale de R n vers un sous-espace de dimension p L et x est un vecteur n arbitraire, alors P x est dansPRnpLxnPx , x - P x et P x sont orthogonaux et x - P x L est en le complément orthogonal de l . La dimension de ce complément orthogonal, L , est n - p . SiLxPxPxxPxLLLnp est libre de varier dans unespace de dimension n , alors x - P x est libre de varier dans unespace de dimension n - p . Pour cette raison, nous disons que x - P x a n - p degrés de liberté.xnxPxnpxPxnp

Ces considérations sont importantes pour les statistiques car si X est un vecteur aléatoire de dimension et que L est un modèle de sa moyenne, c'est-à-dire que le vecteur moyen E ( X ) est dans L , on appelle alors X - P X le vecteur des résidus. , et nous utilisons les résidus pour estimer la variance. Le vecteur de résidus a n - p degrés de liberté, c’est-à-dire qu’il est contraint à un sous-espace de dimension n - p .nLE(X)LXPXnpnp

Si les coordonnées de sont indépendantes et normalement distribuées avec la même variance σ 2 alorsXσ2

  • Les vecteurs et X - P X sont indépendants.PXXPX
  • Si E(X)L la répartition de la norme au carré du vecteur des résidus est une distribution χ 2 avec le paramètre d'échelle σ 2 et un autre paramètre qui se trouve être les degrés de liberté n - p .||XPX||2χ2σ2np

L'esquisse de la preuve de ces faits est donnée ci-dessous. Les deux résultats sont essentiels pour le développement ultérieur de la théorie statistique basée sur la distribution normale. Notez également que c’est la raison pour laquelle la distribution a le paramétrage dont elle dispose. Il est également un Γ -Distribution avec paramètre d'échelle 2 σ 2 et paramètre de forme ( n - p ) / 2 , mais dans le contexte ci - dessus , il est naturel de paramètrer en termes de degrés de liberté.χ2Γ2σ2(np)/2

Je dois admettre que je ne trouve aucun des paragraphes cités dans l'article de Wikipedia particulièrement éclairant, mais ils ne sont pas non plus vraiment faux ou contradictoires. Ils disent de manière imprécise et générale que lorsque nous calculons l'estimation du paramètre de variance, mais que nous le faisons à partir de résidus, nous basons le calcul sur un vecteur qui ne peut varier que dans un espace de dimension .np

Au-delà de la théorie des modèles normaux linéaires, l’utilisation du concept de degrés de liberté peut être source de confusion. Il est utilisé, par exemple, dans la paramétrisation de la distribution qu'il y ait ou non une référence à tout ce qui pourrait avoir un degré de liberté quelconque. Lorsque nous examinons l'analyse statistique de données catégoriques, il peut y avoir une certaine confusion quant à savoir si les "éléments indépendants" doivent être comptés avant ou après une tabulation. De plus, pour les contraintes, même pour les modèles normaux, qui ne sont pas des contraintes de sous-espace, il n'est pas évident d'étendre le concept de degrés de liberté. Diverses suggestions existent généralement sous le nom de degrés de liberté effectifs .χ2

Avant de prendre en compte d’autres usages et significations des degrés de liberté, je recommanderai vivement de l’avoir à l'aise dans le contexte des modèles normaux linéaires. Un premier cours sur la théorie des modèles linéaires est une référence qui traite de cette classe de modèles. La préface du livre contient des références supplémentaires à d’autres ouvrages classiques sur les modèles linéaires.

La preuve des résultats ci - dessus: Soit , on notera que la matrice de variance est σ 2 I et choisir une base orthonormée z 1 , ... , z p de L et une base orthonormée z p + 1 , ... , z n de L . Alors z 1 , , z n est une base orthonormale de R n . Soit ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~désigner le -vector des coefficients de X dans cette base, qui est ~ X i = z T i X . Cela peut aussi être écrit ~ X = Z T XZ est la matrice orthogonale avec les z i s » dans les colonnes. Ensuite, nous devons utiliser que ˜ X a une distribution normale avec la moyenne Z T ξ et, comme Z est orthogonal, la matrice de variance σ 2 InX

X~i=ziTX.
X~=ZTXZziX~ZTξZσ2I . Cela découle des résultats généraux de la transformation linéaire de la distribution normale. La base a été choisie de telle sorte que les coefficients de sont ~ X i pour i = 1 , ... , p , et les coefficients de X - P X sont ~ XPXX~ii=1,,pXPX pour i = p + 1 , ... , n . Puisque les coefficients ne sont pas corrélés et qu'ils sont tous deux normaux, ils sont indépendants, ce qui implique que P X = p iX~ii=p+1,,n et X-PX= n Σ i = p + 1 ~ X izi sont indépendants. De plus | | X-PX| | 2= n Σ i = p + 1 ~ X 2 i . SiÇLalorsE( ~ X i
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL pour i = p + 1 , ... , n , car alors z iE(X~i)=ziTξ=0i=p+1,,n et donc z iξ . Dans ce cas | |ziLziξ est la somme de n - p indépendant N ( 0 , σ 2 )||XPX||2npN(0,σ2)variables aléatoires distribuées, dont la distribution, par définition, est une distribution avec le paramètre d'échelle σ 2 et n - p degrés de liberté.χ2σ2np

NRH, merci! (1) Pourquoi doit-il être à l'intérieur de L ? (2) Pourquoi P X et X - P X sont-ils indépendants? (3) Le ddl dans le contexte de variable aléatoire est-il défini à partir du ddl dans son cas déterministe? Par exemple, est la raison pour | |E(X)LPXXPX a dof n - p parce que c’est vrai quand X est une variable déterministe au lieu d’une variable aléatoire? (4) Existe-t-il des références (livres, articles ou liens) qui expriment le même avis que le vôtre?||XPX||2npX
Tim

@ Tim, etPX sont indépendants, puisqu'ils sont normaux et non corrélés. XPX
Mpiktas

@ Tim, j'ai reformulé un peu la réponse et donné une preuve des résultats indiqués. La moyenne doit être en pour prouver le résultat concernant laLdistribution χ 2 . C'est une hypothèse modèle. Dans la littérature, vous devriez rechercher des modèles normaux linéaires ou des modèles linéaires généraux, mais pour l’instant, je ne peux que rappeler quelques notes de cours anciennes et non publiées. Je verrai si je peux trouver une référence appropriée. χ2
NRH

Réponse merveilleuse. Merci pour la perspicacité. Une question: je me suis perdu ce que vous entendiez par la phrase "le vecteur moyen est dans L ". Peux-tu expliquer? Êtes-vous essayer de définir E ? définir L ? autre chose? Peut-être que cette phrase essaie de faire trop ou d’être trop concise pour moi. Pouvez-vous préciser quelle est la définition de E dans le contexte que vous avez mentionné: est-ce juste E ( x 1 , x 2 , EXLELE ? Pouvez-vous préciser ce qu'est L dans ce contexte (de coordonnées normales)? Est-ce juste L = R ? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW Le est l'opérateur d'attente. Alors E ( X ) est le vecteur des attentes coordinatewise de X . Le sous-espace L est un sous-espace p- dimensionnel de R n . C'est un espace de n- vecteurs et certainement pasEE(X)XLpRnn , mais il peut très bien être unidimensionnel. L'exemple le plus simple est peut-être lorsqu'il estrecouvertpar levecteur 1 avec un 1 du tout n- coordonnées. Ceci est le modèle de toutes les coordonnées de X ayant la même valeur moyenne, mais de nombreux modèles plus compliqués sont possibles. R1nX
NRH

30

Ce n'est vraiment pas différent de la façon dont le terme "degrés de liberté" fonctionne dans n'importe quel autre domaine. Par exemple, supposons que vous ayez quatre variables: la longueur, la largeur, l'aire et le périmètre d'un rectangle. Savez-vous vraiment quatre choses? Non, car il n'y a que deux degrés de liberté. Si vous connaissez la longueur et la largeur, vous pouvez en déduire la surface et le périmètre. Si vous connaissez la longueur et la surface, vous pouvez en déduire la largeur et le périmètre. Si vous connaissez la superficie et le périmètre, vous pouvez en déduire la longueur et la largeur (jusqu'à la rotation). Si vous avez les quatre, vous pouvez soit dire que le système est cohérent (toutes les variables sont en accord), ou incohérent (aucun rectangle ne pourrait en réalité satisfaire toutes les conditions). Un carré est un rectangle avec un degré de liberté enlevé;

En statistiques, les choses deviennent plus floues, mais l'idée reste la même. Si toutes les données que vous utilisez en tant qu'entrée pour une fonction sont des variables indépendantes, vous avez autant de degrés de liberté que vous avez d'entrées. Mais si elles ont une dépendance, si bien que si vous aviez n -k entrées, vous pouviez calculer les k restants, vous n’aviez en fait que n-k degrés de liberté. Et parfois, vous devez en tenir compte, de peur de vous convaincre que les données sont plus fiables ou plus puissantes que prévu, en comptant plus de points de données que de véritables bits de données indépendants.

(Extrait d'un article sur http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

De plus, les trois définitions tentent presque de donner le même message.


1
En gros, c’est vrai, mais je crains que le paragraphe du milieu puisse être lu de manière à confondre corrélation, indépendance (de variables aléatoires) et indépendance fonctionnelle (d’une multitude de paramètres). La distinction entre corrélation et indépendance est particulièrement importante à maintenir.
whuber

@ Whuber: est-ce que ça va maintenant?
Biostat

3
C'est correct, mais la façon dont il utilise les termes déroutera probablement certaines personnes. Il ne fait toujours pas la distinction explicite entre la dépendance des variables aléatoires et la dépendance fonctionnelle. Par exemple, les deux variables d'une distribution normale bivariée (non dégénérée) avec une corrélation non nulle seront dépendantes (en tant que variables aléatoires) mais elles offrent toujours deux degrés de liberté.
whuber

5
Ceci a été copié-collé à partir d' un post de reddit que j'ai publié en 2009 .
Hobbs

2
Notre centre d'aide fournit des instructions claires sur la manière de référencer des éléments écrits par d'autres . J'espère donc que le PO reviendra sur ce poste pour prendre les mesures appropriées et engager des interactions constructives (nous ne l'avons pas vu depuis un moment, cependant).
chl

19

J'aime vraiment la première phrase de Petit Manuel de pratique statistique. Chapitre Degrés de liberté

L’une des questions qu’un instructeur redoute le plus aux auditeurs non éclairés en mathématiques est la suivante: "Qu’est-ce que les degrés de liberté?"

Je pense que vous pouvez vraiment bien comprendre les degrés de liberté en lisant ce chapitre.


6
Il serait bien d’avoir une explication de la raison pour laquelle les degrés de liberté sont importants, plutôt que ce qu’il est. Par exemple, montrer que l'estimation de la variance avec 1 / n est biaisée, mais utiliser 1 / (n-1) donne un estimateur non biaisé.
Tristan

9

Wikipedia affirme que les degrés de liberté d'un vecteur aléatoire peuvent être interprétés comme les dimensions du sous-espace vectoriel. Je souhaite procéder étape par étape, essentiellement par le biais d’une réponse partielle et d’une élaboration de l’entrée Wikipedia.

L’exemple proposé est celui d’un vecteur aléatoire correspondant aux mesures d’une variable continue pour différents sujets, exprimé sous forme de vecteur partant de l’origine . Sa projection orthogonale sur le vecteur [ 1[abc]T se traduit par un vecteur correspondant à la projection du vecteur des moyens de mesure ( ˉ x = 1 / trois ( a + b + c ) ),savoir [ ˉ x[111]Tx¯=1/3(a+b+c), parsemée de la1 vecteur,[1[x¯x¯x¯]T1 Cette projection sur le sous-espace parcouru par le vecteur de uns a 1[111]T . Levecteurrésiduel(distance de la moyenne) est la projection des moindres carrés sur lecomplément orthogonal à la dimension ( n - 1 ) de ce sous-espace et a n - 1.1degree of freedom(n1) , n étant le nombre total de composants du vecteur (dans notre cas 3 puisque nous sommes dans R 3 dans l'exemple). Ceci peut être simplement prouvé en obtenant le produit scalaire de [ ˉ xn1degrees of freedomn3R3avec la différence entre[a[x¯x¯x¯]T et [ ˉ x[abc]T:[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

.

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

Et cette relation s'étend à n’importe quel point d’un plan orthogonal à . Ce concept est important pour comprendre pourquoi1[x¯x¯x¯]T , une étape dans le calcul de la distribution t (icietici).1σ2((X1X¯)2++(XnX¯)2)χn12

Prenons le point , correspondant à trois observations. La moyenne est 55 et le vecteur [ 55[355080]T55 est la normale (orthogonale) à un plan, 55 x + 55 y + 55 z = D . En branchant les coordonnées du point dans l’équation du plan, D = - 9075 .[555555]T55x+55y+55z=DD=9075

Nous pouvons maintenant choisir n’importe quel autre point de ce plan, et la moyenne de ses coordonnées va être , ce qui correspond géométriquement à sa projection sur le vecteur [ 155 . Ainsi, pour chaque valeur moyenne (dans notre exemple, 55 ), nous pouvons choisir un nombre infini depairesde coordonnées dans R 2 sans restriction ( 2[111]T55R2 ); cependant, puisque le plan est dans R 3 , la troisième coordonnée sera déterminée par l'équation du plan (ou, géométriquement, par la projection orthogonale du point sur [ 552degrees of freedomR3 .[555555]T

Voici la représentation de trois points (en blanc) situés sur le plan (bleu céruléen) orthogonaux à (flèche): [ 35[555555]T , [ 80[355080]T et [ 90[80805] tous dans l'avion (sous-espace avec 2[901560] ), puis avec une moyenne de leurs composantes de 55 et une projection orthogonale à [ 12df55 (sous-espace avec 1[111]T ) égal à [ 551df :[555555]T


9

Dans mes cours, j’utilise une situation "simple" qui pourrait vous aider à vous poser des questions et peut-être développer un sentiment intestinal de ce que peut signifier un degré de liberté.

C'est une sorte d'approche "Forrest Gump" du sujet, mais ça vaut le coup d'essayer.

X1,X2,,X10N(μ,σ2)μσ2

μσ2μμμX¯

σ2σ2X1X10

μσ2μμσ2

μX¯μX¯σ2S2σ

μσ2X¯μS2σ2

Mais vous pourriez être à différents niveaux de faux, variant d'un peu à vraiment, vraiment, vraiment mal (aussi, "Au revoir, chèque de paie; à la semaine prochaine!").

X¯μS2=2S2=20,000,000σ2σ2X¯ pour varier.

μσ2μσ2

Comment pouvez-vous le remarquer?

μσ

Et voici l'intrigue agaçante de ce récit lysergique: il vous le raconte après que vous ayez placé votre pari. Peut-être pour vous éclairer, peut-être pour vous préparer, peut-être pour vous moquer. Comment pourriez-vous savoir?

μσ2X¯S2μσ2

μX¯(X¯μ)

XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

(Xiμ)/σN(0,1)μσ2

μσ2

[Je préfère penser que vous pensez à ce dernier.]

Oui il y a!

μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
and also from the gathering of your ten observations' variation:
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
Now that last guy doesn't have a Chi-squared distribution, because he is the sum of ten of those Chi-squared distributions, all of them independent from one another (because so are X1,,X10). Each one of those single Chi-squared distribution is one contribution to the amount of random variability you should expect to face, with roughly the same amount of contribution to the sum.

The value of each contribution is not mathematically equal to the other nine, but all of them have the same expected behavior in distribution. In that sense, they are somehow symmetric.

Each one of those Chi-square is one contribution to the amount of pure, random variability you should expect in that sum.

If you had 100 observations, the sum above would be expected to be bigger just because it have more sources of contibutions.

Each of those "sources of contributions" with the same behavior can be called degree of freedom.

Now take one or two steps back, re-read the previous paragraphs if needed to accommodate the sudden arrival of your quested-for degree of freedom.

Yep, each degree of freedom can be thought of as one unit of variability that is obligatorily expected to occur and that brings nothing to the improvement of guessing of μ or σ2.

The thing is, you start to count on the behavior of those 10 equivalent sources of variability. If you had 100 observations, you would have 100 independent equally-behaved sources of strictly random fluctuation to that sum.

That sum of 10 Chi-squares gets called a Chi-squared distributions with 10 degrees of freedom from now on, and written χ102. We can describe what to expect from it starting from its probability density function, that can be mathematically derived from the density from that single Chi-squared distribution (from now on called Chi-squared distribution with one degree of freedom and written χ12), that can be mathematically derived from the density of the normal distribution.

"So what?" --- you might be thinking --- "That is of any good only if God took the time to tell me the values of μ and σ2, of all the things He could tell me!"

Indeed, if God Almighty were too busy to tell you the values of μ and σ2, you would still have that 10 sources, that 10 degrees of freedom.

Things start to get weird (Hahahaha; only now!) when you rebel against God and try and get along all by yourself, without expecting Him to patronize you.

You have X¯ and S2, estimators for μ and σ2. You can find your way to a safer bet.

You could consider calculating the sum above with X¯ and S2 in the places of μ and σ2:

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,
but that is not the same as the original sum.

"Why not?" The term inside the square of both sums are very different. For instance, it is unlikely but possible that all your observations end up being larger than μ, in which case (Xiμ)>0, which implies i=110(Xiμ)>0, but, by its turn, i=110(XiX¯)=0, because i=110Xi10X¯=10X¯10X¯=0.

Worse, you can prove easily (Hahahaha; right!) that i=110(XiX¯)2i=110(Xiμ)2 with strict inequality when at least two observations are different (which is not unusual).

"But wait! There's more!"

XiX¯S/10
doesn't have standard normal distribution,
(XiX¯)2S2/10
doesn't have Chi-squared distribution with one degree of freedom,
i=110(XiX¯)2S2/10
doesn't have Chi-squared distribution with 10 degrees of freedom
X¯μS/10
doesn't have standard normal distribution.

"Was it all for nothing?"

No way. Now comes the magic! Note that

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
or, equivalently,
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
Now we get back to those known faces.

The first term has Chi-squared distribution with 10 degrees of freedom and the last term has Chi-squared distribution with one degree of freedom(!).

We simply split a Chi-square with 10 independent equally-behaved sources of variability in two parts, both positive: one part is a Chi-square with one source of variability and the other we can prove (leap of faith? win by W.O.?) to be also a Chi-square with 9 (= 10-1) independent equally-behaved sources of variability, with both parts independent from one another.

This is already a good news, since now we have its distribution.

Alas, it uses σ2, to which we have no access (recall that God is amusing Himself on watching our struggle).

Well,

S2=1101i=110(XiX¯)2,
so
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
therefore
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
which is a distribution that is not the standard normal, but whose density can be derived from the densities of the standard normal and the Chi-squared with (101) degrees of freedom.

One very, very smart guy did that math[^1] in the beginning of 20th century and, as an unintended consequence, he made his boss the absolute world leader in the industry of Stout beer. I am talking about William Sealy Gosset (a.k.a. Student; yes, that Student, from the t distribution) and Saint James's Gate Brewery (a.k.a. Guinness Brewery), of which I am a devout.

[^1]: @whuber told in the comments below that Gosset did not do the math, but guessed instead! I really don't know which feat is more surprising for that time.

That, my dear friend, is the origin of the t distribution with (101) degrees of freedom. The ratio of a standard normal and the squared root of an independent Chi-square divided by its degrees of freedom, which, in an unpredictable turn of tides, wind up describing the expected behavior of the estimation error you undergo when using the sample average X¯ to estimate μ and using S2 to estimate the variability of X¯.

There you go. With an awful lot of technical details grossly swept behind the rug, but not depending solely on God's intervention to dangerously bet your whole paycheck.


1
Thank you for such an effort! I confess that I found your explanation less than convincing, though. It seems to founder at this crucial junction: "Each of those "sources of contributions" with the same behavior can be called degree of freedom." If you had instead summed 10 independent normal variates rather than 10 independent chi-squared variates, you would end up with--one normal variate. Somehow the "degrees of freedom" get completely swallowed up. Evidently there is something special about chi-squared you haven't yet described. BTW, Gosset didn't do the math: he guessed!
whuber

Thank you very much for your evaluation, @whuber! It's amazing how many typos pop up once you forgot what you wrote. About your evaluation, I intended just to illustrate another way of thinking -- a little bit less mathematical in some sense. Also, I am not grasping fully what you meant with If you had instead summed 10 independent normal variates rather than 10 independent chi-squared variates, you would end up with--one normal variate -- which I guessed to hold your key-point. I will try to elaborate about it, hoping to improve the post.
Marcelo Ventura

2

An intuitive explanation of degrees of freedom is that they represent the number of independent pieces of information available in the data for estimating a parameter (i.e., unknown quantity) of interest.

As an example, in a simple linear regression model of the form:

Yi=β0+β1Xi+ϵi,i=1,,n

where the ϵi's represent independent normally distributed error terms with mean 0 and standard deviation σ, we use 1 degree of freedom to estimate the intercept β0 and 1 degree of freedom to estimate the slope β1. Since we started out with n observations and used up 2 degrees of freedom (i.e., two independent pieces of information), we are left with n2 degrees of freedom (i.e., n2 independent pieces of information) available for estimating the error standard deviation σ.


Thanks very much for your edits to my answer, @COOLSerdash!
Isabella Ghement

2

You can see the degree of freedom as the number of observations minus the number of necessary relations among these observations. By exemple if you have n sample of independant normal distribution observations X1,,Xn. The random variable i=1n(XiX¯n)2Xn12, where X¯n=1ni=1nXi. The degree of freedom here is n1 because, their is one necessary relation between theses observations (X¯n=1ni=1nXi).

For more information see this


0

For me the first explanation I understood was:

If you know some statistical value like mean or variation, how many variables of data you need to know before you can know the value of every variable?

This is the same as aL3xa said, but without giving any data point a special role and close to the third case given in the answer. In this way the same example would be:

If you know the mean of data, you need to know the values for all but one data point, to know the value to all data points.


Variables --> observations
Richard Hardy

0

Think of it this way. Variances are additive when independent. For example, suppose we are throwing darts at a board and we measure the standard deviations of the x and y displacements from the exact center of the board. Then Vx,y=Vx+Vy. But, Vx=SDx2 if we take the square root of the Vx,y formula, we get the distance formula for orthogonal coordinates, SDx,y=SDx2+SDy2. Now all we have to show is that standard deviation is a representative measure of displacement away from the center of the dart board. Since SDx=i=1n(xix¯)2n1, we have a ready means of discussing df. Note that when n=1, then x1x¯=0 and the ratio i=1n(xix¯)2n100. In other words, there is no deviation to be had between one dart's x-coordinate and itself. The first time we have a deviation is for n=2 and there is only one of them, a duplicate. That duplicate deviation is the squared distance between x1 or x2 and x¯=x1+x22 because x¯ is the midpoint between or average of x1 and x2. In general, for n distances we remove 1 because x¯ is dependent on all n of those distances. Now, n1 represents the degrees of freedom because it normalizes for the number of unique outcomes to make an expected square distance. when divided into the sum of those square distances.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.