En théorie, l'échelle de vos entrées n'est pas pertinente pour la régression logistique. Vous pouvez "théoriquement" multiplier par et l'estimation de s'ajustera en conséquence. Elle sera fois plus petite que la , en raison de la propriété d'invariance des MLE.X110101010β110−101010β1
Mais essayez d'amener R à effectuer la régression ajustée ci-dessus - cela va paniquer (il ne sera même pas en mesure de construire la matrice X).
C'est un peu comme l'algorithme de décomposition cholesky pour calculer une racine carrée de matrice. Oui, en mathématiques exactes , la décomposition cholesky n'implique jamais de prendre la racine carrée d'un nombre négatif, mais arrondir les erreurs, et l'arithmétique à virgule flottante peut conduire à de tels cas.
Vous pouvez prendre n'importe quelle combinaison linéaire de vos variables X, et les valeurs prévues seront les mêmes.
Si nous suivons les conseils de @ simone, et en utilisant les variables X redimensionnées pour ajuster le modèle . Mais nous pouvons utiliser la propriété d'invariance de MLE pour obtenir la version bêta que nous voulons, après avoir utilisé des variables X d'entrée numériquement stables. Il se peut que la version bêta de l'échelle d'origine soit plus facile à interpréter que la version bêta de celle transformée de @ simone. Nous avons donc la transformée ( ème observation pour la ème variable), appelons-la , définie par:xijijx~ij
x~ij=ajxij+bj
Le choix de @ simone correspond à et (en utilisant pour désigner la statistique du ème ordre de la ème variable, c'est-à-dire ). Les et peuvent être considérés comme des paramètres d'algorithme (choisis pour rendre l'algorithme plus stable et / ou plus rapide). Nous ajustons ensuite une régression logistique en utilisant , et obtenons des estimations de paramètres . Ainsi, nous écrivons le prédicteur linéaire:aj=1x[N]j−x[1]jbj=x¯¯¯jx[N]j−x[1]jx[i]jijx[N]j≥x[N−1]j≥⋯≥x[1]jajbjx~ijβ~j
zi=β~0+∑jx~ijβ~j
Remplacez maintenant l'équation par et vous obtenez:x~ij
zi=β~0+∑j(ajxij+bj)β~j=β0+∑jxijβj
Où
β0=β~0+∑jbjβ~jβj=ajβ~j
Vous pouvez voir qu'en théorie, les paramètres ne font aucune différence: tout choix (à l'exception de ) entraînera la même vraisemblance, car le prédicteur linéaire est inchangé. Il fonctionne même pour des transformations linéaires plus complexes, telles que la représentation de la matrice X par ses principales composantes (ce qui implique des rotations). Nous pouvons donc retransformer les résultats pour obtenir les bêtas que nous voulons pour l'interprétation.aj,bjaj=0