Régression linéaire simple, valeurs de p et AIC

Je me rends compte que ce sujet a été soulevé plusieurs fois auparavant, par exemple ici , mais je ne sais toujours pas comment interpréter au mieux ma sortie de régression.

J'ai un ensemble de données très simple, composé d'une colonne de valeurs x et d'une colonne de valeurs y , réparties en deux groupes selon l' emplacement (loc). Les points ressemblent à ceci

Un collègue a émis l'hypothèse que nous devrions adapter des régressions linéaires simples distinctes à chaque groupe, ce que j'ai fait en utilisant y ~ x * C(loc). La sortie est illustrée ci-dessous.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

En regardant les valeurs de p pour les coefficients, la variable fictive pour l'emplacement et le terme d'interaction ne sont pas significativement différents de zéro, auquel cas mon modèle de régression se réduit essentiellement à la ligne rouge sur le graphique ci-dessus. Pour moi, cela suggère que l'ajustement de lignes distinctes aux deux groupes pourrait être une erreur, et un meilleur modèle pourrait être une seule ligne de régression pour l'ensemble des données, comme indiqué ci-dessous.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

Cela me convient visuellement, et les valeurs de p pour tous les coefficients sont maintenant significatives. Cependant, l'AIC pour le deuxième modèle est beaucoup plus élevé que pour le premier.

Je me rends compte que la sélection des modèles ne se limite pas aux valeurs p ou à l'AIC, mais je ne sais pas quoi en penser . Quelqu'un peut-il offrir des conseils pratiques concernant l'interprétation de cette sortie et le choix d'un modèle approprié, s'il vous plaît ?

À mes yeux, la ligne de régression unique semble correcte (bien que je réalise qu'aucun d'entre eux n'est particulièrement bon), mais il semble qu'il y ait au moins une justification pour l'ajustement de modèles distincts (?).

Merci!

Modifié en réponse aux commentaires

@Cagdas Ozgenc

Le modèle à deux lignes a été ajusté à l'aide des modèles de statistiques de Python et du code suivant

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

Si je comprends bien, c'est essentiellement un raccourci pour un modèle comme celui-ci

y = β_{0} + β_{1} x + β_{2} l + β_{3} x l

$y = \beta_0 + \beta_1 x + \beta_2 l + \beta_3 x l$

où est une variable "fictive" binaire représentant l'emplacement. En pratique, ce ne sont essentiellement que deux modèles linéaires, n'est-ce pas? Lorsque , et que le modèle se réduit à $l$ $loc=D$ $l=0$

y = β_{0} + β_{1} x

$y = \beta_0 + \beta_1 x$

qui est la ligne rouge sur le graphique ci-dessus. Lorsque , et le modèle devient $loc=N$ $l=1$

y = (β_{0} + β_{2}) + (β_{1} + β_{3}) x

$y = (\beta_0 + \beta_2) + (\beta_1 +\beta_3) x$

qui est la ligne bleue sur l'intrigue ci-dessus. L'AIC pour ce modèle est signalé automatiquement dans le résumé des modèles de statistiques. Pour le modèle à une ligne que j'ai simplement utilisé

reg = ols(formula='y ~ x', data=df).fit()

Je pense que c'est OK?

@ user2864849

Je ne pense pas que le modèle de ligne unique est évidemment mieux, mais je ne vous inquiétez pas sur la façon dont mal contraint la ligne de régression pour est. Les deux emplacements (D et N) sont très éloignés l'un de l'autre dans l'espace, et je ne serais pas du tout surpris si la collecte de données supplémentaires quelque part au milieu produisait des points traçant à peu près entre les grappes rouges et bleues que j'ai déjà. Je n'ai pas encore de données pour le sauvegarder, mais je ne pense pas que le modèle à une seule ligne soit trop terrible et j'aime garder les choses aussi simples que possible :-) $loc=D$

Modifier 2

Juste pour être complet, voici les graphiques résiduels suggérés par @whuber. Le modèle à deux lignes semble en effet beaucoup mieux de ce point de vue.

Modèle à deux lignes

Modèle à une ligne

Merci a tous!

— JamesS
source

Voulez-vous expliquer pourquoi la ligne de régression unique vous semble meilleure? Pour moi, je vois deux grappes qui sont linéairement séparables et la catégorie N a très peu de variance. Pensez-vous que la première est pire en raison du chevauchement des bandes de confiance?

— Marsenau

x

$x$

R^{2}

$R^2$

@StudentT les deux modèles utilisent tous les points de données. Le modèle simple utilise moins de variables indépendantes. Un point de données est le tuple entier.

— Cagdas Ozgenc

Si vous souhaitez adopter une approche basée sur des tests d'hypothèse pour la sélection de modèle, vous ne devez pas supposer que, parce que deux prédicteurs sont chacun insignifiants, supprimer les deux du modèle aura peu d'importance. Le test F de signification conjointe sera le test approprié.

— Scortchi - Réintégrer Monica

Avez-vous essayé d'utiliser les deux prédicteurs sans interaction? Ce serait donc:

y ~ x + Loc

L'AIC pourrait être meilleur dans le premier modèle car l'emplacement est important. Mais l'interaction n'est pas importante, c'est pourquoi les valeurs P ne sont pas significatives. Vous l'interpréteriez alors comme l'effet de x après avoir contrôlé Loc.

— AJ12
source

Je pense que vous avez bien fait de contester la notion selon laquelle les valeurs p et les valeurs AIC peuvent à elles seules déterminer la viabilité d'un modèle. Je suis également ravi que vous ayez choisi de le partager ici.

Comme vous l'avez démontré, divers compromis sont à faire lorsque vous examinez divers termes et éventuellement leur interaction. Donc, une question à garder à l'esprit est le but du modèle. Si vous êtes chargé de déterminer l'effet de l' emplacement sur y, vous devez conserver l'emplacement dans le modèle indépendamment de la faiblesse de la valeur p. Un résultat nul est en soi une information significative dans ce cas.

À première vue, il semble clair que l' Demplacement implique un plus grand y. Mais il n'y a qu'une gamme étroite xpour laquelle vous avez à la fois Det des Nvaleurs pour l'emplacement. La régénération des coefficients de votre modèle pour ce petit intervalle produira probablement une erreur standard beaucoup plus importante.

Mais peut-être que vous ne vous souciez pas de l' emplacement au-delà de sa capacité de prédiction y. Ce sont des données que vous venez d'avoir et le codage couleur sur votre intrigue a révélé un motif intéressant. Dans ce cas, vous pouvez être plus intéressé par la prévisibilité du modèle que par l' interprétabilité de votre coefficient préféré. Je soupçonne que les valeurs AIC sont plus utiles dans ce cas. Je ne connais pas encore l'AIC; mais je soupçonne que cela peut pénaliser le terme mixte car il n'y a qu'une petite plage dans laquelle vous pouvez changer d'emplacement pour fixe x. Il y a très peu d'explications sur cet emplacement qui xn'expliquent pas déjà.

— pglezen
source

Vous devez signaler les deux groupes séparément (ou peut-être envisager une modélisation à plusieurs niveaux). Le simple fait de combiner les groupes viole l'une des hypothèses de base de la régression (et de la plupart des autres techniques statistiques inférentielles), l'indépendance des observations. Ou, pour le dire autrement, la variable de regroupement (emplacement) est une variable cachée à moins qu'elle ne soit prise en compte dans votre analyse.

Dans un cas extrême, ignorer une variable de regroupement peut conduire au paradoxe de Simpson. Dans ce paradoxe, vous pouvez avoir deux groupes dans les deux qui ont une corrélation positive, mais si vous les combinez, vous avez une corrélation négative (fausse, incorrecte). (Ou vice versa, bien sûr.) Voir http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/ .

— MikeG
source