J'ai un problème de régression multiple, que j'ai essayé de résoudre en utilisant une régression multiple simple:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Cela semble expliquer les 85% de variance (selon R au carré), ce qui semble assez bon.
Cependant, ce qui m'inquiète, c'est l'intrigue Residuals vs Fitted, voir ci-dessous:
Je soupçonne que la raison pour laquelle nous avons de telles lignes parallèles est parce que la valeur Y n'a que 10 valeurs uniques correspondant à environ 160 valeurs X.
Peut-être devrais-je utiliser un autre type de régression dans ce cas?
Edit : J'ai vu dans l' article suivant un comportement similaire. Notez qu'il s'agit d'un papier d'une seule page, donc lorsque vous le prévisualisez, vous pouvez tout lire. Je pense que cela explique assez bien pourquoi j'observe ce comportement, mais je ne sais toujours pas si une autre régression fonctionnerait mieux ici?
Edit2: L'exemple le plus proche de notre cas auquel je peux penser est le changement des taux d'intérêt. La FED annonce un nouveau taux d'intérêt tous les quelques mois (nous ne savons pas quand ni à quelle fréquence). Entre-temps, nous rassemblons quotidiennement nos variables indépendantes (telles que le taux d'inflation quotidien, les données boursières, etc.). Par conséquent, nous aurons une situation où nous pourrons avoir de nombreuses mesures pour un taux d'intérêt.
R
package qui le fait estordinal
, mais il y en a aussi d'autres