Je vous suggère de consulter des livres sur l'analyse des données catégorielles (cf. Analyse des données catégoriques d'Alan Agresti, 2002) pour une meilleure explication et compréhension de la régression logistique ordonnée . Toutes les questions que vous posez trouvent essentiellement leur réponse dans quelques chapitres de ces livres. Si vous n'êtes intéressé que par R
des exemples connexes, Extending Linear Models in R par Julian Faraway (CRC Press, 2008) est une excellente référence.
Avant de répondre à vos questions, la régression logistique ordonnée est un cas de modèles logit multinomiaux dans lesquels les catégories sont ordonnées. Supposons que nous ayons commandé catégories et que , pour individu i , en réponse ordinal Y i ,
p i j = P ( Y i = j ) pour j = 1 , . . . , J . Avec une réponse ordonnée, il est souvent plus facile de travailler avec les probabilités cumulées, γ i j = PJiYipij=P(Yi=j)j=1,...,J . Les probabilités cumulatives sont en augmentation et invariantes à la combinaison de catégories adjacentes. De plus, γ i J = 1 , nous n'avons donc besoin que desprobabilités dumodèle J - 1 .γij=P(Yi≤j)γiJ=1J–1
Maintenant, nous voulons lier s aux covariables x . Dans votre cas, a 3 niveaux ordonnés: , , . Il est plus logique de les traiter comme ordonnés plutôt que non ordonnés. Les variables restantes sont vos covariables. Le modèle spécifique que vous envisagez est le modèle des cotes proportionnelles et est mathématiquement équivalent à:γijxSat
low
medium
high
où γ j ( x i ) = P ( Y i ≤ j | x i )
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
On l'appelle ainsi parce que les cotes relatives pour comparant x 1 et x 2 sont:Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
j
Maintenant, je vais répondre à quelques (1, 2, 4) questions.
Comment comprendre si le modèle correspondait bien? résumé (house.plr) montre la déviance résiduelle 3479.149 et AIC (Akaike Information Criterion?) de 3495.149. Est-ce bon? Dans le cas où celles-ci ne sont utiles que comme mesures relatives (c'est-à-dire pour les comparer à un autre modèle), qu'est-ce qu'une bonne mesure absolue? La déviance résiduelle est-elle approximativement distribuée en khi carré? Peut-on utiliser "% correctement prévu" sur les données d'origine ou une validation croisée? Quelle est la façon la plus simple de procéder?
Un modèle ajusté par polr
est spécial glm
, donc toutes les hypothèses qui valent pour une glm
tenue traditionnelle ici. Si vous prenez bien soin des paramètres, vous pouvez déterminer la distribution. Plus précisément, pour tester si le modèle est bon ou non, vous pouvez faire un test d'adéquation , qui teste le null suivant (notez que c'est subtil, vous voulez surtout rejeter le null, mais ici vous ne voulez pas le rejeter pour obtenir un bon ajustement):
Ho: current model is good enough
Vous utiliseriez le test du chi carré pour cela. La valeur de p est obtenue comme:
1-pchisq(deviance(house.plr),df.residual(house.plr))
La plupart du temps, vous espérez obtenir une valeur de p supérieure à 0,05 afin de ne pas rejeter la valeur nulle pour conclure que le modèle est bon (l'exactitude philosophique est ignorée ici).
L'AIC doit être élevé pour un bon ajustement en même temps que vous ne voulez pas avoir un grand nombre de paramètres. stepAIC
est un bon moyen de vérifier cela.
Oui, vous pouvez certainement utiliser la validation croisée pour voir si les prédictions sont valables. Voir predict
fonction (option:) type = "probs"
dans ?polr
. Il vous suffit de prendre soin des covariables.
Quelles informations contient pr? La page d'aide sur le profil est générique et ne donne aucune indication pour polr
Comme indiqué par @chl et autres, pr
contient toutes les informations nécessaires pour obtenir des CI et d'autres informations liées à la probabilité du polr fit
. Tous les glm
s sont ajustés en utilisant la méthode d'estimation des moindres carrés pondérée de manière itérative pour la vraisemblance logarithmique. Dans cette optimisation, vous obtenez beaucoup d'informations (veuillez consulter les références) qui seront nécessaires pour calculer la matrice de covariance de la variance, l'IC, la valeur t, etc. Elle comprend tout cela.
Comment interpréter les valeurs de t pour chaque coefficient? Contrairement à certains modèles> ajustements, il n'y a pas de valeurs P ici.
Contrairement au modèle linéaire normal (spécial glm
), les autres glm
s n'ont pas la bonne distribution t pour les coefficients de régression. Par conséquent, tout ce que vous pouvez obtenir est les estimations des paramètres et leur matrice de covariance de variance asymptotique en utilisant la théorie du maximum de vraisemblance. Par conséquent:
Variance(β^)=(XTWX)−1ϕ^
L'estimation divisée par son erreur standard est ce que BDR et WV appellent la valeur t (je suppose la MASS
convention ici). Elle équivaut à la valeur t d'une régression linéaire normale mais ne suit pas une distribution t. En utilisant CLT, il est distribué normalement asymptotiquement. Mais ils préfèrent ne pas utiliser cette valeur approximative (je suppose), donc pas de valeurs p. (J'espère que je ne me trompe pas, et si je le suis, j'espère que BDR n'est pas sur ce forum. J'espère en outre que quelqu'un me corrigera si je me trompe.)
methods("profile")
vous donnera les méthodes (S3 dans ce cas) associées à unprofile
objet R , alors vous verrez qu'il existe une méthode dédiée auxpolr
résultats, que vous pouvez parcourir en ligne en tapantgetAnywhere("profile.polr")
à l'invite R.