Je suis relativement nouveau dans R et j'essaie d'adapter un modèle à des données qui se composent d'une colonne catégorielle et d'une colonne numérique (entière). La variable dépendante est un nombre continu.
Les données ont le format suivant:
predCateg, predIntNum, ResponseVar
Les données ressemblent à ceci:
ranking, age_in_years, wealth_indicator
category_A, 99, 1234.56
category_A, 21, 12.34
category_A, 42, 234.56
....
category_N, 105, 77.27
Comment pourrais-je modéliser cela (probablement, en utilisant un GLM), dans R?
[[Éditer]]
Il m'est venu à l'esprit (après une analyse plus approfondie des données), que la variable indépendante catégorielle est en fait ordonnée. J'ai donc modifié la réponse fournie précédemment comme suit:
> fit2 <- glm(wealth_indicator ~ ordered(ranking) + age_in_years, data=amort2)
>
> fit2
Call: glm(formula = wealth_indicator ~ ordered(ranking) + age_in_years,
data = amort2)
Coefficients:
(Intercept) ordered(ranking).L ordered(ranking).Q ordered(ranking).C age_in_years
0.0578500 -0.0055454 -0.0013000 0.0007603 0.0036818
Degrees of Freedom: 39 Total (i.e. Null); 35 Residual
Null Deviance: 0.004924
Residual Deviance: 0.00012 AIC: -383.2
>
> fit3 <- glm(wealth_indicator ~ ordered(ranking) + age_in_years + ordered(ranking)*age_in_years, data=amort2)
> fit3
Call: glm(formula = wealth_indicator ~ ordered(ranking) + age_in_years +
ordered(ranking) * age_in_years, data = amort2)
Coefficients:
(Intercept) ordered(ranking).L ordered(ranking).Q
0.0578500 -0.0018932 -0.0039667
ordered(ranking).C age_in_years ordered(ranking).L:age_in_years
0.0021019 0.0036818 -0.0006640
ordered(ranking).Q:age_in_years ordered(ranking).C:age_in_years
0.0004848 -0.0002439
Degrees of Freedom: 39 Total (i.e. Null); 32 Residual
Null Deviance: 0.004924
Residual Deviance: 5.931e-05 AIC: -405.4
Je suis un peu confus par ce que ordered(ranking).C, ordered(ranking).Qet ordered(ranking).Lmoyenne dans la production, et apprécierait un peu d' aide pour comprendre cette sortie, et comment l'utiliser pour prédire la variable de réponse.
factor(ranking)et nonas.factor(ranking)?