Régression linéaire et mise à l'échelle des données

10

Le graphique suivant montre les coefficients obtenus par régression linéaire (avec mpgcomme variable cible et tous les autres comme prédicteurs).

Pour le jeu de données mtcars ( ici et ici ) avec et sans mise à l'échelle des données:

Comment interpréter ces résultats? Les variables hpet ne dispsont significatives que si les données sont mises à l'échelle. Sont amet qsectout aussi importants ou sont amplus importants que qsec? De quelle variable faut-il dire qu'ils sont des déterminants importants mpg?

Merci pour votre perspicacité.

feature-selection linear-regression feature-scaling

— rnso
source

Si cela ne vous dérange pas, pouvez-vous simplement exécuter quelques modèles différents et vérifier les fonctionnalités réellement importantes? La mise à l'échelle des données se fait lorsque nous avons des échelles très très différentes pour différentes colonnes et qu'elles diffèrent mal de votre tracé (jolis tracés), il est assez clair que la mise à l'échelle a aidé le modèle à trouver les vues réelles sur les données car sans mise à l'échelle, la modèle n'a pas d'autre option que de donner plus de poids à la variable qui a de grandes échelles à condition que ce que vous prédisez soit aussi un nombre un peu élevé.

— Aditya

Merci pour ton commentaire sur l'intrigue. Je ne suis pas sûr de ce que vous entendez par "exécuter quelques modèles différents". Pouvez-vous découvrir quelles fonctionnalités sont vraiment importantes en utilisant d'autres techniques telles que le réseau de neurones afin que l'on puisse ensuite comparer avec les résultats de la régression linéaire.

— rnso

Désolé de ne pas être clair, ce que je voulais dire, c'est d'essayer différents algorithmes ml comme basés sur les arbres, etc. et de comparer toutes leurs fonctionnalités Importances ..

— Aditya

4

Le fait que les coefficients de hp et disp soient faibles lorsque les données sont non mises à l'échelle et élevés lorsque les données sont mises à l'échelle signifie que ces variables aident à expliquer la variable dépendante mais que leur amplitude est grande, de sorte que les coefficients dans le cas non mis à l'échelle doivent être faibles.

En termes d '«importance», je dirais que la valeur absolue des coefficients dans le cas mis à l'échelle est une bonne mesure de l'importance, plus que dans le cas non mis à l'échelle, car là, l'ampleur de la variable est également pertinente, et elle devrait ne pas.

Bien sûr, la variable la plus importante est wt.

— David Masip
source

4

Vous ne pouvez pas vraiment parler de signification dans ce cas sans erreurs standard; ils évoluent avec les variables et les coefficients. De plus, chaque coefficient dépend des autres variables du modèle, et la colinéarité semble en fait augmenter l'importance de hp et disp.

Le redimensionnement des variables ne devrait pas du tout changer la signification des résultats. En effet, lorsque j'ai relancé la régression (avec les variables telles quelles et normalisées en soustrayant la moyenne et en les divisant par les erreurs standard), chaque estimation de coefficient (sauf la constante) avait exactement le même t-stat qu'avant la mise à l'échelle, et le Le test F d'importance globale est resté exactement le même.

Autrement dit, même lorsque toutes les variables ont été mises à l'échelle pour avoir une moyenne de zéro et une variance de 1, il n'y a pas une seule taille d'erreur standard pour chacun des coefficients de régression, donc il suffit de regarder l'amplitude de chaque coefficient dans le la régression standardisée est encore trompeuse quant à la signification.

Comme l'a expliqué David Masip, la taille apparente des coefficients a une relation inverse avec la magnitude des points de données. Mais même lorsque les coefficients sur disp et hp sont énormes, ils ne sont toujours pas significativement différents de zéro.

En fait, hp et disp sont fortement corrélés l'un avec l'autre, r = 0,79, de sorte que les erreurs standard sur ces coefficients sont particulièrement élevées par rapport à la magnitude du coefficient car elles sont tellement colinéaires. Dans cette régression, ils font un contrepoids étrange, c'est pourquoi on a un coefficient positif et on a un coefficient négatif; cela ressemble à un cas de sur-ajustement et ne semble pas significatif.

Un bon moyen de voir quelles variables expliquent le plus de variation en mpg est le R ajusté (ajusté). C'est littéralement le pourcentage de la variation de y qui s'explique par la variation des x variables. (Le R ajusté au carré comprend une légère pénalité pour chaque variable x supplémentaire dans l'équation, pour contrebalancer le sur-ajustement.)

Un bon moyen de voir ce qui est important - à la lumière des autres variables - est de regarder la variation du R au carré ajusté lorsque vous omettez cette variable de la régression. Ce changement est le pourcentage de variance dans la variable dépendante que ce facteur explique, après avoir maintenu constant les autres variables. (Formellement, vous pouvez tester si les variables laissées pour compte ont un test F ; c'est ainsi que fonctionnent les régressions pas à pas pour la sélection des variables.)

Pour illustrer cela, j'ai effectué des régressions linéaires uniques pour chacune des variables séparément, en prédisant le mpg. La variable wt explique à elle seule 75,3% de la variation de mpg, et aucune variable ne l'explique davantage. Cependant, de nombreuses autres variables sont corrélées avec wt et expliquent une partie de cette même variation. (J'ai utilisé des erreurs standard robustes, ce qui pourrait entraîner de légères différences dans les calculs d'erreur standard et de signification, mais n'affectera pas les coefficients ou le R au carré.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

Lorsque toutes les variables sont là-dedans ensemble, le R au carré est de 0,869 et le R au carré ajusté est de 0,807. Donc, ajouter 9 variables supplémentaires pour rejoindre wt explique simplement 11% de la variation (ou simplement 5% de plus, si nous corrigeons le sur-ajustement). (Beaucoup de variables expliquaient une partie de la même variation de mpg que le poids.) Et dans ce modèle complet, le seul coefficient avec une valeur de p inférieure à 20% est le poids, à p = 0,089.

— cactus_pardner
source