Est-ce une bonne pratique de standardiser vos données dans une régression avec des données de panel / longitudinales?

En général, je standardise mes variables indépendantes en régressions, afin de comparer correctement les coefficients (de cette façon ils ont les mêmes unités: les écarts-types). Cependant, avec des données de panel / longitudinales, je ne sais pas comment je devrais standardiser mes données, surtout si j'évalue un modèle hiérarchique.

Pour voir pourquoi cela peut être un problème potentiel, supposons que vous avez individus mesurés le long de périodes et que vous avez mesuré une variable dépendante, et une variable indépendante . Si vous exécutez une régression de regroupement complète, vous pouvez normaliser vos données de cette manière: $i = 1, \ldots, n$ $t=1,\ldots, T$ $y_{i,t}$ $x_{i,t}$ , car il ne changera pas la statistique t. D'un autre côté, si vous correspondez à une régression non regroupée, c'est-à-dire une régression pour chaque individu, vous devez standardiser vos données par individu uniquement, pas l'ensemble de données entier (en code R): $x.z = (x- \text{mean}(x))/\text{sd}(x)$

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Cependant, si vous ajustez un modèle hiérarchique simple avec une interception variable selon les individus, alors vous utilisez un estimateur de rétrécissement, c'est-à-dire que vous estimez un modèle entre une régression groupée et non groupée. Comment dois-je standardiser mes données? Vous utilisez toutes les données comme une régression groupée? Utiliser uniquement des individus, comme dans le cas non partagé?

r regression standardization

— Manoel Galdino
source

Réponses:

$x$ $x^2$ $x^2$

$x$

— Frank Harrell
source

@Frank Harrell - de bons points sur les problèmes associés aux conditions que vous décrivez, mais si l'on a toutes les variables continues avec des échelles différentes, la standardisation n'est-elle pas le seul moyen de comparer les pentes?

— DQdlM

@Frank, je suppose que cela dépend du type de modèles que vous utilisez, mais la standardisation des variables prédictives est souvent utile. Leur centrage signifie que l'interception devient interprétable à mesure que le résultat moyen prévu et l'importance relative de différents prédicteurs deviennent plus évidents. Je laisse généralement les prédicteurs binaires seuls, mais parfois d'autres options de mise à l'échelle méritent d'être envisagées. Enfin, dans certains cas, le fait d'avoir des prédicteurs avec des écarts-types très différents peut entraîner des problèmes de calcul / convergence.

— Michael Bishop

R^{2}

$R^2$

χ^{2}

$\chi^2$

Si vous avez des variables binaires, ne les standardisez pas, seulement une continue. Voir cet article de Gelman (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >, suggérant de diviser les variables par deux écarts-types. Dans tous les cas, cela aide à atteindre la convergence si vous ajustez un modèle bayésien.

— Manoel Galdino

x

$x$

x^{2}

$x^{2}$

Il existe une alternative à la normalisation pour amener les variables mesurées à différentes échelles à la même métrique. Cela s'appelle Proportion of Maximum Scaling (POMS), et il ne meurt pas avec les distributions multivariées comme la transformation z a tendance à le faire.

Todd Little recommande explicitement POMS sur la standardisation z dans son livre sur la modélisation des équations structurelles longitudinales. La transformation en Z pose des problèmes supplémentaires lors du traitement des données longitudinales, voir ici: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

— user142548
source