Je suis relativement nouveau dans R et j'essaie d'adapter un modèle à des données qui se composent d'une colonne catégorielle et d'une colonne numérique (entière). La variable dépendante est un nombre continu.
Les données ont le format suivant:
predCateg, predIntNum, ResponseVar
Les données ressemblent à ceci:
ranking, age_in_years, wealth_indicator
category_A, 99, 1234.56
category_A, 21, 12.34
category_A, 42, 234.56
....
category_N, 105, 77.27
Comment pourrais-je modéliser cela (probablement, en utilisant un GLM), dans R?
[[Éditer]]
Il m'est venu à l'esprit (après une analyse plus approfondie des données), que la variable indépendante catégorielle est en fait ordonnée. J'ai donc modifié la réponse fournie précédemment comme suit:
> fit2 <- glm(wealth_indicator ~ ordered(ranking) + age_in_years, data=amort2)
>
> fit2
Call: glm(formula = wealth_indicator ~ ordered(ranking) + age_in_years,
data = amort2)
Coefficients:
(Intercept) ordered(ranking).L ordered(ranking).Q ordered(ranking).C age_in_years
0.0578500 -0.0055454 -0.0013000 0.0007603 0.0036818
Degrees of Freedom: 39 Total (i.e. Null); 35 Residual
Null Deviance: 0.004924
Residual Deviance: 0.00012 AIC: -383.2
>
> fit3 <- glm(wealth_indicator ~ ordered(ranking) + age_in_years + ordered(ranking)*age_in_years, data=amort2)
> fit3
Call: glm(formula = wealth_indicator ~ ordered(ranking) + age_in_years +
ordered(ranking) * age_in_years, data = amort2)
Coefficients:
(Intercept) ordered(ranking).L ordered(ranking).Q
0.0578500 -0.0018932 -0.0039667
ordered(ranking).C age_in_years ordered(ranking).L:age_in_years
0.0021019 0.0036818 -0.0006640
ordered(ranking).Q:age_in_years ordered(ranking).C:age_in_years
0.0004848 -0.0002439
Degrees of Freedom: 39 Total (i.e. Null); 32 Residual
Null Deviance: 0.004924
Residual Deviance: 5.931e-05 AIC: -405.4
Je suis un peu confus par ce que ordered(ranking).C
, ordered(ranking).Q
et ordered(ranking).L
moyenne dans la production, et apprécierait un peu d' aide pour comprendre cette sortie, et comment l'utiliser pour prédire la variable de réponse.
factor(ranking)
et nonas.factor(ranking)
?