Le théorème auquel vous faites référence (partie habituelle de réduction "réduction habituelle des degrés de liberté en raison de paramètres estimés") a été principalement préconisé par RA Fisher. Dans 'Sur l'interprétation du chi carré à partir des tables de contingence et du calcul de P' (1922), il a plaidé en faveur de l'utilisation de la règle et dans 'Le bien-fondé de l'ajustement des formules de régression' ( 1922), il propose de réduire les degrés de liberté du nombre de paramètres utilisés dans la régression pour obtenir les valeurs attendues à partir des données. (Il est intéressant de noter que les gens ont mal utilisé le test du khi-deux, avec de faux degrés de liberté, pendant plus de vingt ans depuis son introduction en 1900)(R−1)∗(C−1)
Votre cas est du second type (régression) et non du premier (table de contingence), bien que les deux soient liés en ce sens qu’il s’agit de restrictions linéaires sur les paramètres.
Étant donné que vous modélisez les valeurs attendues, en fonction de vos valeurs observées, avec un modèle à deux paramètres, la réduction «habituelle» des degrés de liberté est de deux plus un (une supplémentaire car le O_i doit résumer un total, qui est une autre restriction linéaire, et vous vous retrouvez effectivement avec une réduction de deux, au lieu de trois, en raison du «inefficience» des valeurs attendues modélisées).
Le test du chi carré utilise un comme mesure de distance pour exprimer la proximité d'un résultat avec les données attendues. Dans les nombreuses versions des tests du chi-carré, la distribution de cette «distance» est liée à la somme des déviations dans les variables distribuées normales (ce qui n'est vrai que dans la limite et qui est approximatif si vous traitez avec des données distribuées non normales) .χ2
Pour la distribution normale multivariée, la fonction de densité est liée à la parχ2
f(x1,...,xk)=e−12χ2(2π)k|Σ|√
avec le déterminant de la matrice de covariance de|Σ|x
et est le mahalanobis distance qui réduit à la distance euclidienne si .χ2=(x−μ)TΣ−1(x−μ)Σ=I
Dans son article de 1900, Pearson affirmait que les niveaux de étaient des sphéroïdes et qu'il pouvait se transformer en coordonnées sphériques afin d'intégrer une valeur telle que . Ce qui devient une intégrale unique.χ2P(χ2>a)
C’est cette représentation géométrique, tant que distance et également en terme de fonction de densité, qui peut aider à comprendre la réduction des degrés de liberté lorsque des restrictions linéaires sont présentes.χ2
D'abord le cas d'un tableau de contingence 2x2 . Vous remarquerez que les quatre valeurs ne sont pas quatre variables distribuées normales indépendantes. Ils sont plutôt liés les uns aux autres et se résument à une seule variable.Oi−EiEi
Permet d'utiliser la table
Oij=o11o21o12o22
alors si les valeurs attendues
Eij=e11e21e12e22
où fixe alors sera distribué comme une distribution chi-carré avec quatre degrés de liberté , mais souvent , nous estimons la sur la base et la variation ne ressemble pas à quatre variables indépendantes. Au lieu de cela, nous obtenons que toutes les différences entre et sont identiques∑oij−eijeijeijoijoe
−−(o11−e11)(o22−e22)(o21−e21)(o12−e12)====o11−(o11+o12)(o11+o21)(o11+o12+o21+o22)
et ils sont effectivement une seule variable plutôt que quatre. Géométriquement, vous pouvez voir ceci comme la valeur non intégrée sur une sphère à quatre dimensions mais sur une seule ligne.χ2
Notez que ce test de table de contingence n'est pas le cas pour la table de contingence dans le test de Hosmer-Lemeshow (il utilise une hypothèse nulle différente!). Voir aussi la section 2.1 'Le cas où et sont connus' dans l'article de Hosmer et Lemshow. Dans leur cas, vous obtenez 2g-1 degrés de liberté et non pas g-1 comme dans la règle (R-1) (C-1). Cette règle (R-1) (C-1) est précisément le cas de l'hypothèse nulle selon laquelle les variables de ligne et de colonne sont indépendantes (ce qui crée des contraintes R + C-1 sur les valeurs ). Le test de Hosmer-Lemeshow repose sur l'hypothèse selon laquelle les cellules sont remplies en fonction des probabilités d'un modèle de régression logistique fondé sur critères.β0β––oi−eifourparamètres dans le cas de l'hypothèse de distribution A et paramètres dans le cas de l'hypothèse de distribution B.p+1
Deuxièmement, le cas d'une régression. Une régression fait quelque chose de similaire à la différence comme le tableau de contingence et réduit la dimensionnalité de la variation. Il existe une belle représentation géométrique à cela car la valeur peut être représentée comme la somme d'un terme de modèle et d'un terme résiduel (et non d'erreur) . Ces termes de modèle et termes résiduels représentent chacun un espace dimensionnel perpendiculaire. Cela signifie que les termes résiduels ne peuvent prendre aucune valeur possible! À savoir, elles sont réduites par la partie projetée sur le modèle, et plus particulièrement par une dimension pour chaque paramètre du modèle.o−eyiβxiϵiϵi
Peut-être que les images suivantes peuvent aider un peu
Vous trouverez ci-dessous 400 fois trois variables (non corrélées) de la distribution binomiale . Ils concernent des variables distribuées normales . Dans la même image, nous dessinons l'iso-surface pour . En intégrant sur cet espace en utilisant les coordonnées sphériques telles que nous n’avons besoin que d’une intégration unique (car changer l’angle ne change pas la densité), résultat dans lequel cette partie représente l'aire de la sphère à dimension d. Si nous limiterions les variablesB(n=60,p=1/6,2/6,3/6)N(μ=n∗p,σ2=n∗p∗(1−p))χ2=1,2,6χ∫a0e−12χ2χd−1dχχd−1χ en quelque sorte que l'intégration ne serait pas sur une sphère d-dimensionnelle mais quelque chose de dimension inférieure.
L'image ci-dessous peut être utilisée pour avoir une idée de la réduction dimensionnelle des termes résiduels. Il explique la méthode d’ajustement des moindres carrés en terme géométrique.
En bleu, vous avez des mesures. En rouge, vous avez ce que le modèle permet. La mesure n’est souvent pas exactement égale au modèle et présente quelques écarts. Vous pouvez considérer cela géométriquement comme la distance entre le point mesuré et la surface rouge.
Les flèches rouges et ont les valeurs et et peuvent être associées à un modèle linéaire tel que x = a + b * z + erreur oumu1mu2(1,1,1)(0,1,2)
⎡⎣⎢x1x2x3⎤⎦⎥=a⎡⎣⎢111⎤⎦⎥+b⎡⎣⎢012⎤⎦⎥+⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
de sorte que la plage de ces deux vecteurs et (le plan rouge) correspond aux valeurs possibles pour dans le modèle de régression et est un vecteur représentant la différence entre la valeur observée et la valeur de régression / modélisée. Dans la méthode des moindres carrés, ce vecteur est perpendiculaire (la moindre distance est la somme des carrés) à la surface rouge (et la valeur modélisée est la projection de la valeur observée sur la surface rouge).( 0 , 1 , 2 ) x ϵ(1,1,1)(0,1,2)xϵ
Cette différence entre les valeurs observées et (modélisées) attendues est donc la somme des vecteurs perpendiculaires au vecteur du modèle (et cet espace a la dimension de l’espace total moins le nombre de vecteurs du modèle).
Dans notre exemple d'exemple simple. La dimension totale est de 3. Le modèle a 2 dimensions. Et l'erreur a la dimension 1 (ainsi, peu importe lequel de ces points bleus, les flèches vertes ne montrent qu'un seul exemple, les termes d'erreur ont toujours le même rapport, suivent un seul vecteur).
J'espère que cette explication aide. Ce n’est en aucun cas une preuve rigoureuse et certaines astuces algébriques spéciales doivent être résolues dans ces représentations géométriques. Mais bon, j'aime bien ces deux représentations géométriques. L’une pour l’astuce de Pearson d’intégrer le en utilisant les coordonnées sphériques, et l’autre pour visualiser la méthode de la somme des moindres carrés sous forme de projection sur un plan (ou un intervalle plus grand).χ2
Je suis toujours étonné de la façon dont on aboutit à , à mon avis, ce n’est pas anodin, car l’approximation normale d’un binôme n’est pas une déviation de mais de et Dans le cas des tables de contingence, vous pouvez le résoudre facilement, mais dans le cas de la régression ou d'autres restrictions linéaires, cela ne fonctionne pas aussi facilement, alors que la littérature est souvent très facile en affirmant que «cela fonctionne de la même manière pour d'autres restrictions linéaires». . (Un exemple intéressant du problème. Si vous effectuez plusieurs fois le test suivant, jetez 2 fois 10 fois une pièce et n’enregistrez que les cas dans lesquels la somme est 10 ', vous n’obtenez pas la distribution chi-carré typique pour cela " "simple" restriction linéaire) enp(1-p)o−eeenp(1−p)