Tests statistiques communs en tant que modèles linéaires

(MISE À JOUR: J'ai plongé plus profondément dans cela et j'ai publié les résultats ici )

La liste des tests statistiques nommés est énorme. De nombreux tests courants reposent sur l'inférence de modèles linéaires simples, par exemple, un test t à un échantillon est simplement y = β + ε qui est testé par rapport au modèle nul y = μ + ε, c'est-à-dire que β = μ où μ est une valeur nulle valeur - généralement μ = 0.

Je trouve que c'est un peu plus instructif à des fins pédagogiques que d'apprendre par cœur des modèles nommés, quand les utiliser et leurs hypothèses comme s'ils n'avaient rien à voir les uns avec les autres. Cette approche favorise ne favorise pas la compréhension. Cependant, je ne trouve pas de bonne ressource pour collecter cela. Je suis plus intéressé par les équivalences entre les modèles sous-jacents plutôt que par la méthode d' inférence à partir d'eux. Bien que, pour autant que je puisse voir, les tests de rapport de vraisemblance sur tous ces modèles linéaires donnent les mêmes résultats que l'inférence "classique".

Voici les équivalences que j'ai apprises jusqu'à présent, en ignorant le terme d'erreur et en supposant que toutes les hypothèses nulles sont absentes d'un effet: $\varepsilon \sim \mathcal N(0, \sigma^2)$

Test t à un échantillon: . $y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0$

Test t pour échantillons : $y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0$

Ceci est identique à un test t à un échantillon sur les différences par paire.

Test t à deux échantillons: $y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

où x est un indicateur (0 ou 1).

Corrélation de Pearson: $y = \beta_1 * x + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

Remarquez la similitude avec un test t à deux échantillons qui n'est qu'une régression sur un axe x binaire.

Corrélation Spearman: $rank(y) = \beta_1 * rank(x) + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

Ceci est identique à une corrélation de Pearson sur x et y transformés par rang.

ANOVA unidirectionnelle: $y = \beta_1*x_1 + \beta_2*x_2 + \beta_3*x_3 +... \qquad \mathcal{H}_0: \beta_1, \beta_2, \beta_3, ... = \beta$

où sont des indicateurs sélectionnant le pertinent (un est 1; les autres sont 0). Le modèle pourrait probablement être écrit sous forme matricielle comme . $x_i$ $\beta$ $x$ $Y = \beta * X$

ANOVA bidirectionnelle: $y = \beta_1 * X_1 + \beta_2 * X_2 + \beta_3 * X_1 * X_2 \qquad \mathcal{H}_0: \beta_3 = 0$

pour deux facteurs à deux niveaux. Ici sont des vecteurs de bêtas où l'un est sélectionné par le vecteur indicateur . Le montré ici est l'effet d'interaction. $\beta_i$ $X_i$ $\mathcal{H}_0$

Pourrions-nous ajouter plus de "tests nommés" à cette liste de modèles linéaires? Par exemple, régression multivariée, autres tests "non paramétriques", tests binomiaux ou RM-ANOVA?

MISE À JOUR: des questions ont été posées et des réponses sur l'ANOVA et les tests t en tant que modèles linéaires ici sur SO. Voir cette question et les questions connexes balisées .

— Jonas Lindeløv
source

Je pense que ces comparaisons sont appropriées, mais qu'à un moment donné, il existe également de subtiles différences. Par exemple, prenez l'ANOVA unidirectionnelle: où une régression linéaire vous fournira les coefficients et dans la plupart des logiciels la signification par coefficient avec les tests de Wald (ce qui pourrait ne pas être approprié), une ANOVA fournira une seule valeur p indiquant si l'un des coefficients est significativement différent de zéro. Un test de rapport de vraisemblance entre un modèle nul et le modèle de régression d'intérêt pourrait être plus comparable. En tant que tel, je n'égaliserais pas complètement ces tests / modèles.

— IWS

Bon point; J'ai mis à jour la question en disant que «je suis plus intéressé par les équivalences entre les modèles sous-jacents plutôt que par la méthode d' inférence à partir d'eux». Les tests de rapport de vraisemblance sur les ANOVA unidirectionnelles et les termes d'interaction donnent des valeurs de p identiques à celles des analyses "classiques" pour autant que mes tests le soient.

— Jonas Lindeløv

Assez juste, mais déduction faite, notez que les modèles de régression offrent également une flexibilité supplémentaire lors de la gestion de la non-linéarité (bien que les transformations puissent également être testées avec ces `` tests nommés '', les splines sont une question différente) ou de la gestion de l'hétéroscédasticité, sans même mentionner la famille de modèles généralisés qui traitent également des variables dépendantes non continues. Néanmoins, je peux voir expliquer les tests nommés car les variations restrictives des modèles de régression à des fins pédagogiques peuvent avoir du mérite, donc +1

— IWS

La corrélation de rang de Spearman est-elle vraiment un modèle linéaire?

— Martin Dietz

@MartinDietz: Oui, après avoir transformé les rangs x et y, il est linéaire. Code R:x = rnorm(100); y = rnorm(100); summary(lm(rank(x) ~ rank(y))); cor.test(x, y, method='spearman')

— Jonas Lindeløv

Pas une liste exhaustive mais si vous incluez des modèles linéaires généralisés , la portée de ce problème devient considérablement plus grande.

Par exemple:

Le test de tendance de Cochran-Armitage peut être formulé par:

E [logit (p) | t] = β_{0} + β_{1} t H_{0} : β_{1} = 0

$E[\mbox{logit} (p) | t] = \beta_0 + \beta_1 t \qquad \mathcal{H}_0: \beta_1 = 0$

Le test d'indépendance de Pearson Chi-Square pour une table de contingence $p \times k$ est un modèle log-linéaire pour les fréquences cellulaires donné par:

E [Journal (μ)] = β_{0} + β_{je .} + β_{. j} + γ_{je j} je, j > 1 H_{0} : γ_{je j} = 0, je, j > 1

$E[\log (\mu)] = \beta_0 + \beta_{i.} + \beta_{.j} + \gamma_{ij} \quad i,j > 1 \qquad\mathcal{H}_0: \gamma_{ij} = 0, \quad i,j > 1$

De plus, le test t pour les variances inégales est bien approximé en utilisant l'estimation d'erreur robuste de Huber White.

— AdamO
source