Qu'est-il arrivé à la signification statistique dans la régression lorsque la taille des données est gigantesque?

13

Je lisais cette question concernant la régression à grande échelle ( lien ) où whuber a souligné un point intéressant comme suit:

"Presque tous les tests statistiques que vous exécutez seront si puissants qu'il est presque sûr d'identifier un effet" significatif ". Vous devez vous concentrer beaucoup plus sur l'importance statistique, comme la taille de l'effet, plutôt que sur la signification."

--- whuber

Je me demandais si c'est quelque chose qui peut être prouvé ou tout simplement des phénomènes courants dans la pratique?

Tout pointeur vers une preuve / discussion / simulation serait vraiment utile.

regression statistical-significance

— Bayesric
source

1

La taille de l'effet est importante. (+1 à la réponse de Glen_b). Pour donner un exemple rapide: si nous étions obèses nous ne changeons notre régime existant à un nouveau régime plus cher si elle conduit à la perte de poids de 0,05 kg après un mois , même si elle avait un

-value

. Nous serions toujours obèses, juste plus pauvres. Pour autant que nous sachions, une telle perte de poids mineure pourrait être simplement due à la clinique de santé que les enregistrements ont été pris en se déplaçant du sol d'un immeuble sans ascenseur au quatrième étage du même bâtiment. (Nice question + 1)

p

$p$

\leq 0.0000000001

$\leq 0.0000000001$

— usεr11852

10

C'est assez général.

Imaginez qu'il y ait un petit effet, mais non nul (c'est-à-dire une certaine déviation par rapport au zéro que le test est capable de détecter).

À de petits échantillons, les chances de rejet seront très proches du taux d'erreur de type I (le bruit domine le petit effet).

À mesure que la taille des échantillons augmente, l'effet estimé devrait converger vers cet effet sur la population, tandis que dans le même temps, l'incertitude de l'effet estimé diminue (normalement ), jusqu'à ce que la probabilité que la situation nulle soit suffisamment proche de l'effet estimé qu'elle est toujours plausible dans un échantillon de la population sélectionné au hasard se réduit à zéro. $\sqrt{n}$

Ce qui veut dire qu'avec des points nuls, le rejet finit par devenir certain, car dans presque toutes les situations réelles, il y aura essentiellement toujours une certaine déviation par rapport au nul.

— Glen_b -Reinstate Monica
source

"... parce que dans presque toutes les situations réelles, il y aura essentiellement toujours un certain écart par rapport au zéro." Il est donc là et on peut même le voir. Ce serait une jolie propriété ou non?

— Trilarion

"Null" se réfère ici à l'hypothèse nulle que le coefficient est égal à zéro?

— Arash Howaida du

Je pense que la réponse de Glen_b est générale et applicable à tout test d'hypothèse avec un point nul. Dans le contexte de la régression, oui, la valeur nulle est que le coefficient est égal à zéro. Ma propre compréhension cependant ...

— Bayesric

4

Ce n'est pas une preuve, mais il n'est pas difficile de montrer l'influence de la taille de l'échantillon dans la pratique. Je voudrais utiliser un exemple simple de Wilcox (2009) avec des changements mineurs:

Imaginez que pour une mesure générale de l'anxiété, un chercheur affirme que la population d'étudiants du Collège a une moyenne d'au moins 50. Pour vérifier cette affirmation, supposons que dix étudiants du Collège soient échantillonnés au hasard dans le but de tester avec $H_0: \mu \geq 50$ . (Wilcox, 2009: 143) $\alpha = .05$

Nous pouvons utiliser le test t pour cette analyse:

T = \frac{\bar{X} - μ_{o}}{s / \sqrt{n}}

$T = \frac{\bar X - \mu_o}{s/\sqrt{n}}$

En supposant que la moyenne de l'échantillon ( ) est de 45 et l'écart-type de l'échantillon ( $\bar X$ $s$ ) est 11,

T = \frac{45 - 50}{11 / \sqrt{10}} = - 1.44.

$T = \frac{45-50}{11/\sqrt{10}}=-1.44.$

Si vous regardez un tableau contenant des valeurs critiques de la distribution de Student avec degrés de liberté $t$ $ν$ , vous verrez que pour , . Donc avec , nous ne parvenons pas à rejeter l'hypothèse nulle. Supposons maintenant que nous avons la même moyenne d'échantillon et l'écart-type, mais 100 observations à la place: $v = 10 -1$ $P(T \leq - 1.83)= .05$ $T=-1.44$

T = \frac{45 - 50}{11 / \sqrt{100}} = - 4.55

$T = \frac{45-50}{11/\sqrt{100}}= -4.55$

$v = 100 - 1$ $P(T \leq -1.66) = .05$ $s/\sqrt{n}$ $T = \frac{\hat\beta_j-\beta_j^{(0)}}{se(\hat\beta_j)}$ .

Wilcox, RR, 2009. Statistiques de base: comprendre les méthodes conventionnelles et les idées modernes . Oxford University Press, Oxford.

— TEG - Réintégrer Monica
source

1

Merci d'avoir répondu. Votre réponse fournit une démonstration concrète de la réponse de Glen_b: lorsque la taille de l'échantillon est très grande, une petite déviation par rapport au zéro (il y a toujours une petite déviation dans la pratique) sera capturée comme effet significatif.

— Bayesric

2

En régression, pour le modèle global, le test est sur F. Ici

F = \frac{\frac{R S S_{1} - R S S_{2}}{p_{2} - p_{1}}}{\frac{R S S_{2}}{n - p_{2}}}

$F = \frac{\frac{RSS_1-RSS_2}{p_2 - p_1}}{\frac{RSS_2}{n-p_2}}$

R S S_{1}

$RSS_1$

R S S_{2}

$RSS_2$

— Peter Flom - Réintégrer Monica
source

1

Merci d'avoir répondu. Cependant, je suis sceptique quant à "quand N devient plus grand, F devient plus grand"; lorsque N augmente, RSS2 augmente également, il n'est pas clair pour moi pourquoi F deviendra plus grand.

— Bayesric le

@Peter Flom ce n'est pas réel, mais pouvez-vous jeter un œil ici stats.stackexchange.com/questions/343518/…

— user3022875