Je veux inclure le terme et son carré (variables prédictives) dans une régression parce que je suppose que les faibles valeurs de ont un effet positif sur la variable dépendante et les valeurs élevées ont un effet négatif. Le devrait capturer l'effet des valeurs plus élevées. J'espère donc que le coefficient de sera positif et le coefficient de sera négatif. Outre , j'inclus également d'autres variables prédictives.
J'ai lu dans certains articles ici que c'est une bonne idée de centrer les variables dans ce cas pour éviter la multicolinéarité. Lorsque vous effectuez une régression multiple, quand devez-vous centrer vos variables prédictives et quand devez-vous les normaliser?
Dois-je centrer les deux variables séparément (à la moyenne) ou dois-je seulement centrer puis prendre le carré ou dois-je seulement centrer et inclure le origine ?
Est-ce un problème si est une variable de comptage?
Afin d'éviter que soit une variable de comptage, j'ai pensé à le diviser par une zone théoriquement définie, par exemple 5 kilomètres carrés. Cela devrait être un peu similaire à un calcul de densité de points.
Cependant, je crains que dans cette situation, mon hypothèse initiale sur le signe des coefficients ne tienne plus, comme lorsque et x² = 4
=
mais serait alors plus petit car .