Il y a plusieurs problèmes ici.
(1) Le modèle doit être explicitement probabiliste . Dans presque tous les cas, il n'y aura aucun ensemble de paramètres pour lesquels le lhs correspond au rhs pour toutes vos données: il y aura des résidus. Vous devez faire des hypothèses sur ces résidus. Vous attendez-vous à ce qu'ils soient nuls en moyenne? Pour être distribué symétriquement? Pour être distribué approximativement normalement?
Voici deux modèles qui sont en accord avec celui spécifié mais qui autorisent un comportement résiduel radicalement différent (et qui entraîneront donc généralement des estimations de paramètres différentes). Vous pouvez faire varier ces modèles en faisant varier les hypothèses sur la distribution conjointe de :ϵi
B: y i = β 0 exp ( β 1 x 1 i + … + β k x k i ) + ϵ i .
A: yi=β0exp(β1x1i+…+βkxki+ϵi)
B: yi=β0exp(β1x1i+…+βkxki)+ϵi.
(Notez que ce sont des modèles pour les données ; il n'existe généralement pas de valeur de données estimée .)^ y iyiyi^
(2) La nécessité de gérer des valeurs nulles pour les y implique que le modèle indiqué (A) est à la fois erroné et inadéquat , car il ne peut pas produire une valeur nulle quelle que soit l'erreur aléatoire. Le deuxième modèle ci-dessus (B) autorise des valeurs nulles (voire négatives) de y. Cependant, il ne faut pas choisir un modèle uniquement sur cette base. Pour réitérer # 1: il est important de modéliser raisonnablement bien les erreurs.
(3) La linéarisation modifie le modèle . En règle générale, il en résulte des modèles comme (A) mais pas comme (B). Il est utilisé par des personnes qui ont suffisamment analysé leurs données pour savoir que ce changement n'affectera pas sensiblement les estimations des paramètres et par des personnes qui ignorent ce qui se passe. (Il est difficile, souvent, de faire la différence.)
(4) Une manière courante de gérer la possibilité d'une valeur nulle est de proposer que (ou une certaine ré-expression de celle-ci, comme la racine carrée) ait une chance strictement positive égale à zéro. Mathématiquement, nous mélangeons une masse ponctuelle (une "fonction delta") avec une autre distribution. Ces modèles ressemblent à ceci:y
f(yi)θj∼F(θ);=βj0+βj1x1i+⋯+βjkxki
où est l'un des paramètres implicites du vecteur , est une famille de distributions paramétrées par et est la réexpression des (la fonction "link" d'un modèle linéaire généralisé: voir la réponse de onestop). (Bien sûr, alors, = lorsque ) Les exemples sont les Modèles de Poisson et de Binôme négatifs gonflés à zéro .PrFθ[f(Y)=0]=θj+1>0 F θ 1 , … , θ j f y Pr F θ [ f ( Y ) ≤ t ] ( 1 - θ j + 1 ) F θ ( t ) t ≠ 0θFθ1,…,θjfyPrFθ[f(Y)≤t](1−θj+1)Fθ(t)t≠0
(5) Les problèmes de construction et d'adaptation d'un modèle sont liés mais différents . À titre d'exemple simple, même un modèle de régression ordinaire peut être ajusté de nombreuses façons au moyen des moindres carrés (ce qui donne les mêmes estimations de paramètres que le maximum de vraisemblance et presque les mêmes erreurs standard), moindres carrés itérativement repondérés , diverses autres formes de « moindres carrés robustes », etc. Le choix de l'adaptation est souvent basé sur la commodité, l'opportunité ( par exemple , la disponibilité du logiciel), la familiarité, l'habitude ou la convention, mais au moins une réflexion devrait être donné à ce qui est approprié pour la distribution supposée des termes d'erreur , à ce que leϵ iY=β0+β1X+ϵϵila fonction de perte pour le problème pourrait raisonnablement être, et à la possibilité d'exploiter des informations supplémentaires (comme une distribution préalable des paramètres).