Estimation du modèle exponentiel

10

Un modèle exponentiel est un modèle décrit par l'équation suivante:

\hat{y_{i}} = β_{0} \cdot e^{β_{1} x_{1 i} + \dots + β_{k} x_{k i}}

$\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}}$

L'approche la plus couramment utilisée pour estimer un tel modèle est la linéarisation, qui peut être effectuée facilement en calculant les logarithmes des deux côtés. Quelles sont les autres approches? Je suis particulièrement intéressé par ceux qui peuvent gérer dans certaines observations. $y_{i}=0$

Mise à jour 31.01.2011
Je suis conscient du fait que ce modèle ne peut pas produire zéro. Je vais élaborer un peu ce que je modélise et pourquoi je choisis ce modèle. Disons que nous voulons prédire combien d'argent un client dépense dans un magasin. Bien sûr, de nombreux clients ne font que regarder et n'achètent rien, c'est pourquoi il y en a 0. Je ne voulais pas utiliser de modèle linéaire car il produit beaucoup de valeurs négatives, ce qui n'a aucun sens. L'autre raison est que ce modèle fonctionne vraiment bien, bien mieux que le linéaire. J'ai utilisé un algorithme génétique pour estimer ces paramètres, ce n'était donc pas une approche «scientifique». J'aimerais maintenant savoir comment résoudre un problème en utilisant des méthodes plus scientifiques. On peut également supposer que la plupart, voire la totalité, des variables sont des variables binaires.

estimation nonlinear-regression

— Tomek Tarczynski
source

1

s'il y a des zéros dans vos données, la régression exponentielle peut ne pas être appropriée, car le modèle tel que vous l'avez déclaré ne peut pas permettre d'observer des valeurs nulles.

— mpiktas

11

Il y a plusieurs problèmes ici.

(1) Le modèle doit être explicitement probabiliste . Dans presque tous les cas, il n'y aura aucun ensemble de paramètres pour lesquels le lhs correspond au rhs pour toutes vos données: il y aura des résidus. Vous devez faire des hypothèses sur ces résidus. Vous attendez-vous à ce qu'ils soient nuls en moyenne? Pour être distribué symétriquement? Pour être distribué approximativement normalement?

Voici deux modèles qui sont en accord avec celui spécifié mais qui autorisent un comportement résiduel radicalement différent (et qui entraîneront donc généralement des estimations de paramètres différentes). Vous pouvez faire varier ces modèles en faisant varier les hypothèses sur la distribution conjointe de : $\epsilon_{i}$

A: y_{i} = β_{0} \exp (β_{1} x_{1 i} + \dots + β_{k} x_{k i} + ϵ_{i})

$\text{A:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki} + \epsilon_{i}\right)}$

B: y_{i} = β_{0} \exp (β_{1} x_{1 i} + \dots + β_{k} x_{k i}) + ϵ_{i} .

$\text{B:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}\right)} + \epsilon_{i}.$

(Notez que ce sont des modèles pour les données ; il n'existe généralement pas de valeur de données estimée .) $y_i$ $\hat{y_i}$

(2) La nécessité de gérer des valeurs nulles pour les y implique que le modèle indiqué (A) est à la fois erroné et inadéquat , car il ne peut pas produire une valeur nulle quelle que soit l'erreur aléatoire. Le deuxième modèle ci-dessus (B) autorise des valeurs nulles (voire négatives) de y. Cependant, il ne faut pas choisir un modèle uniquement sur cette base. Pour réitérer # 1: il est important de modéliser raisonnablement bien les erreurs.

(3) La linéarisation modifie le modèle . En règle générale, il en résulte des modèles comme (A) mais pas comme (B). Il est utilisé par des personnes qui ont suffisamment analysé leurs données pour savoir que ce changement n'affectera pas sensiblement les estimations des paramètres et par des personnes qui ignorent ce qui se passe. (Il est difficile, souvent, de faire la différence.)

(4) Une manière courante de gérer la possibilité d'une valeur nulle est de proposer que (ou une certaine ré-expression de celle-ci, comme la racine carrée) ait une chance strictement positive égale à zéro. Mathématiquement, nous mélangeons une masse ponctuelle (une "fonction delta") avec une autre distribution. Ces modèles ressemblent à ceci: $y$

\begin{aligned} f (y_{i}) & \sim F (θ); \\ θ_{j} & = β_{j 0} + β_{j 1} x_{1 i} + \dots + β_{j k} x_{k i} \end{aligned}

$\eqalign{ f(y_i) &\sim F(\mathbf{\theta}); \cr \theta_j &= \beta_{j0} + \beta_{j1} x_{1i} + \cdots + \beta_{jk} x_{ki} }$

où est l'un des paramètres implicites du vecteur , est une famille de distributions paramétrées par et est la réexpression des (la fonction "link" d'un modèle linéaire généralisé: voir la réponse de onestop). (Bien sûr, alors, = lorsque ) Les exemples sont les Modèles de Poisson et de Binôme négatifs gonflés à zéro . $\Pr_{F_\theta}[f(Y) = 0] = \theta_{j+1} \gt 0$ $\mathbf{\theta}$ $F$ $\theta_1, \ldots, \theta_j$ $f$ $y$ $\Pr_{F_\theta}[f(Y) \le t]$ $(1 - \theta_{j+1})F_\theta(t)$ $t \ne 0$

(5) Les problèmes de construction et d'adaptation d'un modèle sont liés mais différents . À titre d'exemple simple, même un modèle de régression ordinaire peut être ajusté de nombreuses façons au moyen des moindres carrés (ce qui donne les mêmes estimations de paramètres que le maximum de vraisemblance et presque les mêmes erreurs standard), moindres carrés itérativement repondérés , diverses autres formes de « moindres carrés robustes », etc. Le choix de l'adaptation est souvent basé sur la commodité, l'opportunité ( par exemple , la disponibilité du logiciel), la familiarité, l'habitude ou la convention, mais au moins une réflexion devrait être donné à ce qui est approprié pour la distribution supposée des termes d'erreur , à ce que le $Y = \beta_0 + \beta_1 X + \epsilon$ $\epsilon_i$ la fonction de perte pour le problème pourrait raisonnablement être, et à la possibilité d'exploiter des informations supplémentaires (comme une distribution préalable des paramètres).

— whuber
source

10

Il s'agit d'un modèle linéaire généralisé (GLM) avec une fonction de liaison logarithmique .

Toute distribution de probabilité sur avec une densité non nulle à zéro gérera dans certaines observations; la plus courante serait la distribution de Poisson, entraînant une régression de Poisson , alias modélisation log-linéaire. Un autre choix serait une distribution binomiale négative . $[0,\infty)$ $y_i=0$

Si vous ne disposez pas de données de comptage ou si prend des valeurs non entières, vous pouvez toujours utiliser le cadre des modèles linéaires généralisés sans spécifier complètement une distribution pour mais à la place spécifiant uniquement la relation entre sa moyenne et sa variance en utilisant la quasi-vraisemblance . $y_i$ $\operatorname{P}(y_i|\bf{x})$

— un arrêt
source

Dommage que je n'en ai pas appris à l'université: / Il semble que ce sera utile dans ce cas, mais j'ai besoin de temps pour approfondir les détails. Merci!

— Tomek Tarczynski

Notez que peut toujours être redimensionné en valeurs entières lorsqu'il est rationnel, par exemple mesurer pence / cents plutôt que livres / dollars. Bien que vous souhaitiez peut-être arrondir à la livre / dollar la plus proche, car la distribution de la partie pence / cents du prix des marchandises sera probablement très inégale (c'est-à-dire principalement 99).

y_{i}

$y_i$

— James

3

Vous pouvez toujours utiliser des moindres carrés non linéaires . Ensuite, votre modèle sera:

y_{i} = β_{0} \exp (β_{1} x_{1 i} + . . . + β_{k} x_{k i}) + ε_{i}

$y_i=\beta_0\exp(\beta_1x_{1i}+...+\beta_kx_{ki})+\varepsilon_i$

Les zéros de seront alors traités comme des écarts par rapport à la tendance non linéaire. $y_i$

— mpiktas
source

Qu'en est-il des valeurs initiales des paramètres? Quelle est la bonne façon de les choisir? Comme je l'ai indiqué dans une mise à jour, on peut supposer qu'il n'y a pas de variables continues.

— Tomek Tarczynski

@Tomek, je pense qu'il n'y a pas de bonne façon de les choisir. Cela dépend généralement des données. Je suggère une moyenne pour l'ordonnée à l'origine et zéro pour les autres coefficients.

— mpiktas