Avertissement: Ceci est pour un projet de devoirs.
J'essaie de trouver le meilleur modèle pour les prix des diamants, en fonction de plusieurs variables et je semble avoir un assez bon modèle jusqu'à présent. Cependant, j'ai rencontré deux variables qui sont évidemment colinéaires:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
La table et la profondeur dépendent l'une de l'autre, mais je veux toujours les inclure dans mon modèle prédictif. J'ai fait quelques recherches sur les diamants et j'ai découvert que la table et la profondeur sont la longueur à travers le haut et la distance de la pointe du haut au bas d'un diamant. Étant donné que ces prix des diamants semblent être liés à la beauté et que la beauté semble être des proportions liées, j'allais inclure leur rapport, par exemple , pour prédire les prix. Est-ce une procédure standard pour traiter les variables colinéaires? Sinon, c'est quoi?
Edit: Voici un tracé de Depth ~ Table: