Le terme statistique déviance est un peu trop utilisé. La plupart du temps, les programmes renvoient la déviance
D ( y) = - 2 log{ p ( y|θ^) } ,
où θ^ est votre paramètre estimé (s) de l'ajustement du modèle et y est une occurrence potentiellement observée / observable de la quantité aléatoire en question.
La déviance la plus courante à laquelle vous faites référence traiterait la déviance ci-dessus en fonction de deux variables, à la fois les données et les paramètres ajustés: D ( y,θ^) = - 2 log{ p ( y|θ^) }
et donc si vous en aviez un y mais deux valeurs de paramètres ajustées concurrentes, θ^1 et θ^2, alors vous obtiendrez la déviance dont vous avez parlé −2(log{p(y|θ^1)}−log{p(y|θ^2)}).
Vous pouvez lire sur la fonction Matlab que vous avez mentionnée glmfit()
, liée ici . Une discussion plus fructueuse, quoique plus courte, de la déviance est liée ici .
La statistique de déviance suppose implicitement deux modèles: le premier est votre modèle ajusté, renvoyé par glmfit()
, appelez ce vecteur de paramètreθ^1. Le second est le "modèle complet" (également appelé "modèle saturé"), qui est un modèle dans lequel il existe une variable libre pour chaque point de données, appelez ce vecteur de paramètreθ^s. Avoir autant de variables libres est évidemment une chose stupide à faire, mais cela vous permet de vous adapter exactement à ces données.
Ainsi, les statistiques de déviance sont calculées comme la différence entre la vraisemblance logarithmique calculée au modèle ajusté et le modèle saturé. LaisserY={y1,y2,⋯,yN}être la collecte des N points de données. Alors:
DEV(θ^1,Y)=−2[logp(Y|θ^1)−logp(Y|θ^s)].
Les termes ci-dessus seront développés en sommations sur les points de données individuels yipar l'hypothèse d'indépendance. Si vous souhaitez utiliser ce calcul pour calculer la log-vraisemblance du modèle, vous devrez d'abord calculer la log-vraisemblance du modèle saturé. Voici un lien qui explique quelques idées pour calculer cela ... mais le hic, c'est que dans tous les cas, vous devrez écrire une fonction qui calcule la probabilité de journalisation pour votre type de données, et dans ce cas il est probablement préférable de créer votre propre fonction qui calcule vous-même la probabilité de journalisation, plutôt que de la revenir en arrière à partir d'un calcul de déviance.
Voir le chapitre 6 de l'analyse des données bayésiennes pour une bonne discussion de la déviance.
Quant à votre deuxième point sur la statistique du test de vraisemblance, oui, il semble que vous sachiez fondamentalement ce qu'il faut faire. Mais dans de nombreux cas, vous considérerez l'hypothèse nulle comme quelque chose d'expert, les connaissances externes vous permettent de deviner à l'avance (comme un coefficient égal à zéro). Ce n'est pas nécessairement quelque chose qui résulte de l'ajustement d'un modèle.