J'ai un ensemble de données contenant 365 observations de trois variables à savoir pm
, temp
et rain
. Maintenant, je veux vérifier le comportement de la pm
réponse aux changements dans les deux autres variables. Mes variables sont:
pm10
= Réponse (dépendante)temp
= prédicteur (indépendant)rain
= prédicteur (indépendant)
Voici la matrice de corrélation pour mes données:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Le problème est que lorsque j'étudiais la construction de modèles de régression, il a été écrit que la méthode additive consiste à commencer par la variable qui est la plus étroitement liée à la variable de réponse. Dans mon ensemble de données, il rain
y a une forte corrélation avec pm
(par rapport à temp
), mais en même temps c'est une variable fictive (pluie = 1, pas de pluie = 0), donc j'ai maintenant un indice d'où je dois commencer. Je joins deux images à la question: Le premier est un diagramme de dispersion des données, et la seconde image est un nuage de points pm10
contre rain
, je suis incapable d'interpréter scatterplot de pm10
contre rain
. Quelqu'un peut-il m'aider à commencer?