Quand les modèles linéaires incorrects deviennent-ils robustes?

Des questions:

Des modèles linéaires inappropriés sont-ils utilisés dans la pratique ou s'agit-il d'une sorte de curiosité décrite de temps en temps dans des revues scientifiques? Si oui, dans quels domaines sont-ils utilisés?
Existe-t-il d'autres exemples de tels modèles?
Enfin, les erreurs standard, les valeurs de , etc. extraites de l'OLS pour de tels modèles seraient-elles correctes, ou devraient-elles être corrigées d'une manière ou d'une autre? $p$ $R^2$

Contexte: Des modèles linéaires incorrects sont décrits de temps à autre dans la littérature. En général, ces modèles peuvent être décrits comme

y = une + b \sum_{je} w_{je} X_{je} + ε

$y = a + b \sum_i w_i x_i + \varepsilon$

ce qui les différencie de la régression, c'est que les ne sont pas des coefficients estimés dans le modèle, mais sont des poids qui sont $w_j$

égal pour chaque variable ( régression pondérée par unité ), $w_i = 1$
basé sur des corrélations (Dana et Dawes, 2004), $w_i = \rho(y, x_i)$
choisis au hasard (Dawes, 1979),
$-1$ pour les variables liées négativement à , pour les variables liées positivement à (Wainer, 1976). $y$ $1$ $y$

Il est également courant d'utiliser une sorte de mise à l'échelle des fonctionnalités, comme la conversion de variables en scoresDonc, ce type de modèle peut être simplifié pour une régression linéaire univariée $Z$

y = une + b v + ε

$y = a + b v + \varepsilon$

où , et peut être simplement estimé en utilisant la régression OLS. $v = \sum w_i x$

Références:
Dawes, Robyn M. (1979). La beauté robuste des modèles linéaires inappropriés dans la prise de décision . Psychologue américain, 34, 571-582.

Graefe, A. (2015). Amélioration des prévisions à l'aide de prédicteurs également pondérés . Journal of Business Research, 68 (8), 1792-1799.

Wainer, Howard (1976). Estimation des coefficients dans les modèles linéaires: cela ne fait pas de bruit . Bulletin psychologique 83 (2), 213.

Dana, J. et Dawes, RM (2004). La supériorité des alternatives simples à la régression pour les prédictions en sciences sociales . Journal of Educational and Behavioral Statistics, 29 (3), 317-331.

— Tim
source

Dans quel sens les statistiques dérivées de ces modèles seraient-elles "incorrectes"?

— whuber

w_{i}

$w_i$

b

$b$

y

$y$

w_{i}

$w_i$

Ce n'était pas un commentaire éclairé - les papiers sont toujours sur ma pile "à lire". Je me suis simplement demandé: - "pourquoi 'impropre'?". Il n'est pas rare qu'un prédicteur soit une combinaison linéaire d'autres variables - une moyenne de plusieurs mesures, un score de composante principale, une prédiction provenant d'une autre régression, le niveau d'une série chronologique lissée exponentiellement, ou une valeur calculée à partir d'une valeur bien établie ou un index ad hoc. Le fait de ne pas estimer les poids à partir de la réponse épargne les degrés de liberté, ce qui permet d'éviter un sur-ajustement avec des échantillons de plus petite taille.

— Scortchi - Réintégrer Monica

x_{i}

$x_i$

w_{i}

$w_i$

x_{i}

$x_i$

w_{i} = ρ (y, x_{i})

$w_i = \rho(y, x_i)$

ρ

$\rho$

En fait, il me semble qu'il s'agit d'un assortiment de structures de covariance supposées. En d'autres termes, il s'agit d'un type de modélisation antérieure bayésienne.

$\downarrow$ $|\hat\beta|<|\beta|$ $\hat{R}^2<R^2$

Mon expérience personnelle est que le supérieur à l'approche bayésienne est d'utiliser une meilleure modélisation; transformer les paramètres, utiliser d'autres normes et / ou utiliser des méthodes non linéaires. Autrement dit, une fois que la physique du problème et les méthodes sont correctement explorées et coordonnées, les statistiques F, le coefficient de détermination, etc. s'améliorent plutôt qu'ils ne se dégradent.

— Carl
source