Le modèle linéaire généralisé est défini en termes de prédicteur linéaire
η=Xβ
qui est passé par la fonction de lien :g
g(E(Y|X))=η
Il modélise la relation entre la variable dépendante et les variables indépendantes X = X 1 , X 2 , … , X k . Plus précisément, il modélise une espérance conditionnelle de Y étant donné X ,YX=X1,X2,…,XkYX
E(Y|X)=μ=g−1(η)
de sorte que le modèle peut être défini en termes probabilistes comme
Y|X∼f(μ,σ2)
où est une distribution de probabilité de la famille exponentielle . Donc , première chose à noter est que f est pas la distribution de Y , mais Y suit conditionnellement sur X . Le choix de cette distribution dépend de vos connaissances (ce que vous pouvez assumer) au sujet de la relation entre Y et X . Donc, partout où vous lisez sur la distribution, il s'agit de la distribution conditionnelle.ffYYXYX
Si votre résultat est continu et illimité, alors le choix le plus "par défaut" est la distribution gaussienne (aka distribution normale ), c'est-à-dire la régression linéaire standard (sauf si vous utilisez une autre fonction de lien, puis le lien d'identité par défaut).
Si vous avez affaire à un résultat continu non négatif , vous pouvez envisager la distribution Gamma ou la distribution gaussienne inverse .
Si votre résultat est discret , ou plus précisément, vous avez affaire à des comptes (combien de fois quelque chose se produit dans un intervalle de temps donné), alors le choix le plus courant de la distribution pour commencer est la distribution de Poisson . Le problème avec la distribution de Poisson est qu'elle est plutôt rigide dans le fait qu'elle suppose que la moyenne est égale à la variance.Si cette hypothèse n'est pas remplie, vous pouvez envisager d'utiliser la famille quasi-Poisson ou la distribution binomiale négative (voir aussi Définition de la dispersion paramètre pour la famille quasipoisson ).
Si votre résultat est binaire (zéros et uns), proportions de «succès» et «échecs» (valeurs comprises entre 0 et 1), ou leurs nombres , vous pouvez utiliser la distribution binomiale , c'est-à-dire le modèle de régression logistique . S'il y a plus de deux catégories, vous utiliseriez la distribution multinomiale dans la régression multinomiale .
D'un autre côté, dans la pratique, si vous êtes intéressé par la construction d'un modèle prédictif, vous pouvez être intéressé par le test de quelques distributions différentes, et finalement apprenez que l'une d'elles vous donne des résultats plus précis que les autres même si ce n'est pas le la plus «appropriée» en termes de considérations théoriques (par exemple, en théorie, vous devriez utiliser Poisson, mais en pratique, la régression linéaire standard fonctionne mieux pour vos données).