Quelle est l'importance de la distinction entre modèles linéaires et non linéaires? La question du modèle linéaire non linéaire ou généralisé: comment référez-vous à la régression logistique, Poisson, etc.? et sa réponse a été une clarification extrêmement utile de la linéarité / non-linéarité des modèles linéaires généralisés. Il semble extrêmement important de distinguer les modèles linéaires des modèles non linéaires, mais je ne comprends pas pourquoi. Par exemple, considérez ces modèles de régression:
Les modèles 1 et 2 sont linéaires et les solutions à existent sous forme fermée, faciles à trouver à l'aide d'un estimateur OLS standard. Ce n'est pas le cas pour les modèles 3 et 4, qui sont non linéaires car (certaines) les dérivées de E [ Y ∣ X ] par rapport à β sont toujours des fonctions de β .
Une solution simple pour estimer dans le modèle 3 consiste à linéariser le modèle en définissant γ = β 2 1 , à estimer γ à l' aide d'un modèle linéaire, puis à calculer β 1 = √ .
Pour estimer les paramètres du modèle 4, nous pouvons supposer que suit une distribution binomiale (membre de la famille exponentielle) et, en utilisant le fait que la forme logistique du modèle est le lien canonique, linéariser les valeurs rh du modèle. C'était la contribution majeure de Nelder et Wedderburn .
Mais pourquoi cette non-linéarité est-elle un problème en premier lieu? Pourquoi ne peut-on pas simplement utiliser un algorithme itératif pour résoudre le modèle 3 sans linéariser à l'aide de la fonction racine carrée, ou le modèle 4 sans invoquer les GLM. Je soupçonne qu'avant la puissance de calcul généralisée, les statisticiens essayaient de tout linéariser. Si c'est vrai, alors peut-être que les "problèmes" introduits par la non-linéarité sont un vestige du passé? Les complications introduites par les modèles non linéaires sont-elles simplement informatiques, ou y a-t-il d'autres problèmes théoriques qui rendent les modèles non linéaires plus difficiles à ajuster aux données que les modèles linéaires?