Transformation des données: toutes les variables ou seulement celles qui ne sont pas normales?

Dans Andy Field's Discovering Statistics Using SPSS, il déclare que toutes les variables doivent être transformées.

Cependant, dans la publication: "Examen des relations variant dans l'espace entre l'utilisation des terres et la qualité de l'eau à l'aide de la régression pondérée géographiquement I: conception et évaluation du modèle", ils indiquent spécifiquement que seules les variables non normales ont été transformées.

Cette analyse est-elle spécifique? Par exemple, dans une comparaison des moyennes, la comparaison des journaux aux données brutes donnerait évidemment une différence significative, alors que lorsque l'on utilise quelque chose comme la régression pour étudier la relation entre les variables, cela devient moins important.

Modifier: Voici la page de texte intégral dans la section "Transformation des données":

Et voici le lien vers le document: http://www.sciencedirect.com/science/article/pii/S0048969708009121

normal-distribution data-transformation

— I Heart Beats
source

Sur la base de la nouvelle image que vous avez publiée, l'auteur semble confondre "variable" avec "observation". En haut de la p. 154 il souligne à juste titre que lorsque vous transformez une variable, vous devez transformer toutes ses valeurs (observations) de la même manière, sinon il devient impossible de comparer quoi que ce soit. (Affirmer que cela "ne changera pas les relations entre les variables" nécessite cependant une interprétation extrêmement généreuse pour être correct.) Le bas de la p. 154 est si clairement faux, phrase par phrase (même dans les notes de bas de page), qu'il ne vaut même pas la peine d'énumérer tous les problèmes.

— whuber

Réponses:

Vous citez plusieurs conseils, qui sont sans aucun doute tous utiles, mais il est difficile d'en trouver beaucoup de mérite.

Dans chaque cas, je m'appuie totalement sur ce que vous citez comme résumé. Pour la défense des auteurs, j'aimerais croire qu'ils ajoutent les qualifications appropriées au matériel environnant ou autre. (Des références bibliographiques complètes en nom (s) habituel (s), date, titre, (éditeur, lieu) ou (titre de la revue, volume, pages) amélioreraient la question.)

Champ

Ces conseils sont utiles, mais au mieux largement simplifiés. Les conseils de Field semblent être généralement destinés; par exemple, la référence au test de Levene implique une concentration temporaire sur l'analyse de la variance.

$(1,0)$

Plus généralement, il est courant - dans de nombreux domaines, la situation habituelle - que certains prédicteurs soient transformés et les autres laissés tels quels.

Il est vrai que rencontrer dans un article ou une dissertation un mélange de transformations appliquées différemment à différents prédicteurs (y compris comme cas spécial, transformation d'identité ou laisser tel quel) est souvent un sujet de préoccupation pour un lecteur. Le mélange est-il un ensemble de choix bien pensé, ou était-il arbitraire et capricieux?

De plus, dans une série d'études, la cohérence de l'approche (toujours appliquer des logarithmes à une réponse, ou ne jamais le faire) aide énormément à comparer les résultats, et une approche différente la rend plus difficile.

Mais cela ne veut pas dire qu'il ne pourrait jamais y avoir de raisons pour un mélange de transformations.

Je ne vois pas que la majeure partie de la section que vous citez a beaucoup d'incidence sur les conseils clés que vous mettez en surbrillance en jaune. C'est en soi un sujet de préoccupation: c'est une drôle de chose d'annoncer une règle absolue et de ne pas vraiment l'expliquer. Inversement, l'injonction "Remember" suggère que les motifs de Field ont été fournis plus tôt dans le livre.

Papier anonyme

Le contexte ici est celui des modèles de régression. Comme souvent, parler d'OLS met étrangement l'accent sur la méthode d'estimation plutôt que sur le modèle, mais nous pouvons comprendre ce qui est prévu. GWR I interprète comme une régression pondérée géographiquement.

L'argument ici est que vous devez transformer les prédicteurs non normaux et laisser les autres tels quels. Encore une fois, cela soulève une question sur ce que vous pouvez et devez faire avec les variables indicatrices, qui ne peuvent pas être distribuées normalement (ce qui, comme ci-dessus, peut être répondu en soulignant que la non-normalité dans ce cas n'est pas un problème). Mais l'injonction a le revers de la médaille en impliquant que c'est la non-normalité des prédicteurs qui est le problème. Pas si; cela ne fait pas partie de la modélisation de régression de supposer quoi que ce soit sur les distributions marginales des prédicteurs.

$X\beta$

Il y a tellement de bons conseils sur les transformations dans ce forum que je me suis concentré sur ce que vous citez.

PS Vous ajoutez une déclaration commençant par "Par exemple, dans une comparaison des moyennes, la comparaison des journaux aux données brutes entraînerait évidemment une différence significative." Je ne sais pas exactement ce que vous avez en tête, mais comparer des valeurs pour un groupe avec des logarithmes de valeurs pour un autre groupe serait tout simplement absurde. Je ne comprends pas du tout le reste de votre déclaration.

— Nick Cox
source

Nick, je voulais faire passer mon message rapidement et de manière concise, ce que je pense avoir fait. Dans le monde de Google, j'ai fourni suffisamment d'informations pour accéder facilement aux documents originaux, si nécessaire. Merci d'avoir répondu, quoique de manière approximative, vous m'avez fourni exactement les informations que je cherchais: avoir à transformer toutes les variables, comme le suggère Field, dans sa section de transformation des données est une approche incorrecte de la transformation des données.

— I Heart Beats

+1. Je m'émerveille de la façon dont vous avez réussi à traiter avec tact des éléments qui sont tout à fait faux. Le survol des pages ici et là dans le livre SPSS donne un aperçu de certaines des questions vraiment confuses que nous recevons sur ce site: je pense qu'elles doivent provenir des lecteurs de ce livre. Il est plein d'erreurs, de désinformation et de confabulation pure et simple.

— whuber

@I Heart Beats Heureux que vous ayez trouvé la réponse utile, mais ma demande de références appropriées est valable. Autant dire que les références incomplètes sont toujours défendables car les personnes intéressées peuvent toujours Google. Au contraire, une bonne érudition et une bonne science sont aidées par de bonnes pratiques bibliographiques, en donnant des détails complets et en évitant aux (nombreux) lecteurs de faire un travail inutile.

— Nick Cox

@Nick voir les modifications dans ma question. Je crois que cet article est open source, et j'ai ajouté une page complète du texte pour le contexte.

— I Heart Beats

Merci d'avoir amélioré les références. Vous avez cité plus de Field. Il y a une section supplémentaire visible, y compris l'affirmation selon laquelle "la transformation des données ne changera pas les relations entre les variables". Soit cela pivote sur un sens idiosyncrasique de «relation», soit (plus probablement, je le crains), cela ne sert à rien, voire tout à fait faux. Je regrette (dans un sens) d'être d'accord avec @whuber au sujet du livre en question sur les preuves devant nous . (Mise à jour: whuber faisait essentiellement le même point simultanément: voir son commentaire sur la question.)

— Nick Cox

Tout d'abord, les deux citations sont trompeuses dans la mesure où aucune transformation appliquée aux données destinées à être utilisées dans un modèle de régression n'est pas faite pour rendre les PDF variables plus distribués normalement, elle est faite pour rendre les résidus du modèle plus symétriques, car une hypothèse dans la régression classique est que les erreurs sont gaussiennes. Cela implique un niveau de rigueur et de rigueur plus profond que la simple symétrisation d'un PDF.

De plus, les deux citations sont faibles en ce que personne ne se penche sur les motivations de leurs ordonnances (au moins sur la base des informations fournies). En l'occurrence, je ne suis pas d'accord avec les deux.

Dans le passage que vous avez souligné, le livre SPSS prétend que les mélanges de transformations (par exemple, logarithme naturel pour une variable, racine carrée pour une autre) ne sont pas autorisés. Pourquoi est-ce illégal? Les mélanges de transformations ne violent aucune hypothèse de régression à ma connaissance. Veuillez vérifier tous les textes de régression sur les hypothèses de régression pour confirmer que c'est le cas. Les mélanges de transformation peuvent présenter un problème de description substantiel en termes d'interprétation, mais il ne s'agit pas de savoir si les mélanges sont illégaux ou non. Le type SPSS a tort.

En ce qui concerne le deuxième texte, encore une fois, les transformations sont totalement une question de choix de l'analyste - que l'on les fasse du tout, transforme toutes les entrées ou certaines variables et pas d'autres. Rien de tout cela ne viole aucune hypothèse.

Là où je pense que la deuxième citation déraille, c'est dans l'affirmation que, "... pour éviter la multicollinéarité potentielle ... un seul indicateur d'utilisation du sol (a été utilisé) ..." Ce sont des conseils manifestement mauvais et genre de chose que certains analystes feront comme une technique de réduction de dimension où ils factoriseront l'analyse d'un tas de variables et choisiront la variable de charge la plus élevée sur chaque facteur. Cette heuristique existe depuis des années et n'est pas celle que j'utilise ou recommande. Encore une fois, c'est une question de préférence et de formation des analystes. Mais ce point ne vise pas à répondre à vos questions spécifiques.

À la fin de la journée, les deux citations se présentent comme des affirmations des opinions des auteurs en l'absence de toute preuve à l'appui, sur la base des informations fournies.

— Mike Hunter
source

Nous faisons des remarques globalement similaires, mais je veux ajouter que de bons textes expliquent que les erreurs gaussiennes sont l'hypothèse la moins importante dans la modélisation de régression et ne sont pas nécessaires à de nombreuses fins.

— Nick Cox

Bon texte: stat.columbia.edu/~gelman/arm :)

— Matthew Drury