Pourquoi ne pouvons-nous pas utiliser

Imaginez que nous ayons un modèle de régression linéaire avec la variable dépendante . On retrouve son . Maintenant, nous faisons une autre régression, mais cette fois sur , et trouvons également son . On m'a dit que je ne peux pas comparer les deux pour voir quel modèle est le mieux adapté. Pourquoi donc? La raison qui m'a été donnée était que nous comparerions la variabilité de différentes quantités (différentes variables dépendantes). Je ne suis pas sûr que cela devrait être une raison suffisante pour cela. $y$ $R^2_y$ $\log(y)$ $R^2_{\log(y)}$ $R^2$

Existe-t-il également un moyen de formaliser cela?

Toute aide serait appréciée.

regression data-transformation r-squared

— Un vieil homme dans la mer.
source

Je soupçonne que cela aurait pu être discuté auparavant sur Cross Validated. Avez-vous parcouru des discussions similaires à fond? De plus, vous souciez-vous des différentes variables dépendantes (telles que le PIB par rapport au prix du pétrole) ou des transformations de la même variable (PIB par rapport à la croissance du PIB), ou des deux?

— Richard Hardy

@RichardHardy J'en ai trouvé, mais je pense qu'ils étaient tangents à ma question. Comme celui-ci: stats.stackexchange.com/questions/235117/… La réponse dit simplement oui, sans vraiment expliquer pourquoi.

— Un vieil homme dans la mer.

@RichardHardy Je suis intéressé par les transformations de la variable dépendante.

— Un vieil homme dans la mer.

comparaisons de

n'ont de sens qu'entre les modèles imbriqués.

R^{2}

$R^2$

— LVRao

@LVRao Merci pour votre commentaire. Pourquoi en est-il ainsi?

— Un vieil homme dans la mer.

C'est une bonne question, car "des quantités différentes" ne semblent pas être une grande explication.

Il y a deux raisons importantes de se méfier de l'utilisation de pour comparer ces modèles: il est trop grossier (il n'évalue pas vraiment la qualité de l'ajustement ) et il sera inapproprié pour au moins l'un des modèles. Cette réponse porte sur ce deuxième problème. $R^2$

Traitement théorique

compare la variance des résidus du modèle à la variance des réponses. La variance est un écart additif carré moyen par rapport à un ajustement. En tant que tel, nous pouvons comprendre que compare deux modèles de la réponse . $R^2$ $R^2$ $y$

Le modèle "de base" est

\begin{matrix} (1) & y_{i} = μ + δ_{i} \end{matrix}

$y_i = \mu + \delta_i\tag{1}$

$\mu$ $\delta_i$ $\tau^2$

$x_i$

\begin{matrix} (2) & y_{i} = β_{0} + x_{i} β + ε_{i} . \end{matrix}

$y_i = \beta_0 + x_i \beta + \varepsilon_i.\tag{2}$

$\beta_0$ $\beta$ $\varepsilon_i$ $\sigma^2$

$R^2$ $\tau^2-\sigma^2$ $\tau^2$

Lorsque vous prenez des logarithmes et utilisez les moindres carrés pour ajuster le modèle , vous comparez implicitement une relation de la forme

\begin{matrix} (1a) & \log (y_{i}) = ν + ζ_{i} \end{matrix}

$\log(y_i) = \nu + \zeta_i\tag{1a}$

à l'un des formulaires

\begin{matrix} (2a) & \log (y_{i}) = γ_{0} + x_{i} γ + η_{i} . \end{matrix}

$\log(y_i) = \gamma_0 + x_i\gamma + \eta_i.\tag{2a}$

$(1)$ $(2)$ $(2\text{a})$

y_{i} = \exp (\log (y_{i})) = \exp (γ_{0} + x_{i} γ) \exp (η_{i}) .

$y_i = \exp(\log(y_i)) = \exp(\gamma_0 + x_i\gamma)\exp(\eta_i).$

$\exp(\eta_i)$ $y_i = \exp(\gamma_0 + x_i\gamma)$

Var (y_{i}) = \exp (γ_{0} + x_{i} γ)^{2} Var (e^{η_{i}}) .

$\operatorname{Var}(y_i) = \exp(\gamma_0 + x_i\gamma)^2\operatorname{Var}(e^{\eta_i}).$

$x_i$ $(2)$ $\sigma^2$

$(1\text{a})$ $(2\text{a})$ $(1)$ $(2)$ $R^2$ $R^2$

Une analyse

$R^2$ $x$ $y$ $\varepsilon_i$ $\eta_i$

Un tel modèle (qui se produit généralement) est un ajustement des moindres carrés à une relation exponentielle,

\begin{matrix} (3) & y_{i} = \exp (α_{0} + x_{i} α) + θ_{i} . \end{matrix}

$y_i = \exp\left(\alpha_0 + x_i\alpha\right) + \theta_i.\tag{3}$

$y$ $x$ $(2\text{a})$ $\theta_i$ $(2)$ $R^2$ $x$ $y$

$(3)$ $300$ $x_i$ $1.0$ $1.6$ $(x,y)$ $(x,\log(y))$

$R^2$ $0.70$ $0.56$ $R^2$ $R^2$ $0.70$

$\log(y)$ $(3)$

— whuber
source

La critique de R ^ 2 n'est pas juste. Comme chaque outil utilisé doit être bien compris. Dans vos exemples ci-dessus, R ^ 2 donne le bon message. R ^ 2 choisit en quelque sorte le meilleur rapport signal / bruit. Bien sûr, ce n'est pas évident lorsque vous mettez côte à côte deux graphiques avec des échelles totalement différentes. En réalité, le signal de gauche est très fort par rapport aux écarts de bruit.

— Cagdas Ozgenc

@Cagdas Vous semblez offrir un message intrinsèquement contradictoire. Étant donné que les deux graphiques sont inévitablement sur deux échelles différentes - l'un trace les réponses originales et l'autre trace leurs logarithmes - alors plaider que quelque chose n'est "pas évident" en raison de ce fait inévitable ne semble pas étayer votre cas. Se plaindre que cette réponse est "injuste" ne tient vraiment pas compte de l'analyse explicite des modèles que j'ai proposés.

— whuber

Il n'y a aucune contradiction dans ce que je dis. R ^ 2 choisit le rapport signal / bruit le plus élevé. Voilà ce qu'il fait. Essayer de le transformer en autre chose et prétendre qu'il ne fonctionne pas est tout à fait faux. Toutes les critiques adressées à R ^ 2 s'appliquent également à d'autres indicateurs de qualité de l'ajustement lorsqu'ils sont appliqués à différentes variables de réponse, mais pour une raison quelconque, R ^ 2 est choisi pour être le bouc émissaire.

— Cagdas Ozgenc

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

Merci pour votre aide whuber. Désolé pour l'acceptation tardive, je n'ai pas eu beaucoup de temps libre ces derniers temps. ;)

— Un vieil homme dans la mer.