Je traite en ce moment avec beaucoup de distributions, par exemple, , , .
Je me demandais pourquoi ces degrés de liberté signifient-ils pour des distributions telles que la distribution ?
Je traite en ce moment avec beaucoup de distributions, par exemple, , , .
Je me demandais pourquoi ces degrés de liberté signifient-ils pour des distributions telles que la distribution ?
Réponses:
Voici une réponse moins technique, peut-être plus accessible aux personnes ayant une préparation mathématique modeste.
Le terme degrés de liberté (df) est utilisé en relation avec diverses statistiques de test, mais sa signification varie d'un test statistique à l'autre. Certains tests n'ont pas de degrés de liberté associés à la statistique de test (par exemple, le test exact de Fisher ou le test z). Lorsque nous effectuons un test az, la valeur z que nous calculons sur la base de nos données peut être interprétée sur la base d'une seule table de valeurs z critiques, quelle que soit la taille de notre ou nos échantillons. Une autre façon de dire cela est qu'il existe une distribution z. Ce n'est pas le cas pour certains autres tests (par exemple, F ou t ou χ2).
La raison pour laquelle de nombreuses statistiques de test doivent être interprétées à la lumière de df est que la distribution (théorique) des valeurs de la statistique de test, en supposant que l'hypothèse nulle est vraie, dépend de la taille de l'échantillon ou du nombre de groupes, ou des deux, ou d'un autre fait sur les données recueillies. Lors d'un test t, la distribution des valeurs t dépend de la taille de l'échantillon, donc lorsque nous évaluons la valeur t que nous calculons à partir des données observées, nous devons la comparer aux valeurs t attendues sur la base de la même taille d'échantillon que nos données. De même, la distribution des valeurs de F dans une analyse de variance (en supposant que l'hypothèse nulle est vraie) dépend à la fois de la taille de l'échantillon et du nombre de groupes. Donc, pour interpréter la valeur F que nous calculons à partir de nos données, nous devons utiliser des tableaux de valeurs F qui sont basés sur la même taille d'échantillon et le même nombre de groupes que nous avons dans nos données. Autrement dit, les tests F (c.-à-d. Les ANOVA) et les tests t et les tests χ2 nécessitent chacun une famille de courbes pour nous aider à interpréter la valeur t ou F ou χ2 que nous calculons en fonction de nos données. Nous choisissons parmi ces familles de courbes basées sur des valeurs (c'est-à-dire df) afin que les probabilités que nous lisons dans les tableaux soient appropriées pour nos données. (Bien sûr, la plupart des programmes informatiques le font pour nous.)
La distribution F est le rapport de deux distributions khi deux centrales. Le m est le degré de liberté associé à la variable aléatoire du chi carré qui représente le numérateur et le n est le degré de liberté du chi carré pour le dénominateur. Pour compléter la réponse à votre question, je dois expliquer les degrés de liberté chi carré. Une distribution khi carré à n degrés de liberté peut être représentée comme la somme des carrés de n variables aléatoires indépendantes N (0,1). Ainsi, les degrés de liberté peuvent être considérés comme le nombre de variables aléatoires normales qui apparaissent dans la somme.
Maintenant, cela changera si ces normales incluent des paramètres estimés. Supposons par exemple que nous ayons n variables indépendantes N (m, 1) X i = 1,2, ..., n. Soit alors X la moyenne de l'échantillon = ∑X / n.
Calculez maintenant S = ∑ (X -X ) . Ce S aura une distribution chi carré mais avec n-1 degrés de liberté. Dans ce cas, nous additionnons toujours n, au carré N (0,1) variables aléatoires. Mais la différence ici est qu'ils ne sont pas indépendants car chacun est formé en utilisant le même X . Ainsi, pour le chi carré, on dit souvent que les degrés de liberté sont égaux au nombre de termes de la somme moins le nombre de paramètres estimés.
Dans le cas de la distribution t, nous avons un N (0, σ ) divisé par V où V est l'estimation de l'échantillon de σ. V est proportionnel à un chi carré avec n-1 degrés de liberté où n est la taille de l'échantillon. Les degrés de liberté pour le t sont les degrés de liberté pour la variable aléatoire khi carré impliquée dans le calcul de V.