Statistiquement significatif vs indépendant / dépendant

Quelle est la différence entre avoir quelque chose de statistiquement significatif (comme une différence entre deux échantillons) et indiquer si un groupe de nombres est indépendant ou dépendant.

statistical-significance independence

— Elpezmuerto
source

La signification dans un test t d'échantillons indépendants signifie simplement que la probabilité (si le zéro était vrai) d'échantillonner une différence moyenne aussi extrême que la différence moyenne que vous avez réellement échantillonnée est inférieure à 0,05.

Cela n'a aucun rapport avec la dépendance / l'indépendance. "Dépendant" signifie que la distribution de certaines observations individuelles est liée à la distribution d'autres, par exemple A) ce sont les mêmes personnes qui passent le même test une deuxième fois, B) les personnes de chaque groupe sont appariées sur une variable de pré-test, C) les personnes des deux groupes sont apparentées (c'est-à-dire la famille). "Indépendant" signifie qu'il n'y a pas une telle connexion.

— Brian
source

Notant également que p = 0,05 est un seuil quelque peu arbitraire. Si vous pensez que 1:20 est une chance trop élevée de faux positif, alors votre p devrait être plus bas.

— naught101

Pourquoi s'arrêter aux tests? $t$

Vous pouvez penser que deux variables ne sont pas corrélées comme deux vecteurs orthogonaux, exactement comme les axes et dans un système de coordonnées cartésiennes bidimensionnel. $x$ $y$

Lorsque l'un des deux vecteurs, disons et est corrélé avec l'autre, il y aura une certaine partie de x qui pourra être projetée sur y et vice versa. Dans cet esprit, il est assez facile de voir que depuis, $\mathbf{x}$ $\mathbf{y}$

\begin{aligned} ⟨ x, y ⟩ & = ‖ x ‖ ‖ y ‖ \cos (θ) \\ \frac{⟨ x, y ⟩}{‖ x ‖ ‖ y ‖} & = \cos (θ) = r \end{aligned}

$\begin{align*} \left<\mathbf{x},\mathbf{y}\right>&=\|x\|\|y\|\cos\left(\theta\right)\\ \frac{\left<\mathbf{x},\mathbf{y}\right>}{\|x\|\|y\|}&=\cos\left(\theta\right)=r \end{align*}$

Où est le coefficient de corrélation de Pearson et est le produit intérieur des arguments. Quand j'ai appris cela, j'ai été totalement époustouflé par la simplicité géométrique de l'idée de corrélation. Et ce n'est certainement pas le seul moyen de mesurer la corrélation entre deux (ou plus) variables. $r$ $\left<\cdot,\cdot\right>$

Les tests de signification sont un jeu de balle différent. Souvent, nous voulons savoir à quel point deux (ou plus) groupes diffèrent sur une variable de résultat à la suite d'une manipulation qui a été effectuée sur lesdits groupes. Comme Brian l'a dit, vous voulez savoir si les deux groupes proviennent de la même distribution, donc vous calculez la probabilité d'échantillonnage de la différence moyenne (mise à l'échelle par l'erreur standard de la moyenne) que vous avez obtenue de votre expérience, étant donné que l'hypothèse nulle (il n'y a pas de différence significative dans les moyens) est vrai. Dans la recherche comportementale (et souvent ailleurs) si cette probabilité est inférieure à 0,05, vous pouvez conclure que la différence entre les deux (ou plus) moyennes est probablement due à votre manipulation.

EDIT : Dilip Sarwate a souligné que deux variables non corrélées peuvent être statistiquement dépendantes, j'ai donc retiré la première partie. Merci pour ça.

— Phillip Cloud
source

Wow, mes antécédents en mathématiques sont beaucoup plus avancés que mes antécédents en statistiques. Je trouve que c'est une façon vraiment intuitive de comprendre le r de Pearson. Cette réponse est vraiment utile, merci!

— naught101

Surtout le concept que la covariance n'est qu'un produit intérieur!

— naught101

-1 pour "Vous pouvez penser à deux variables indépendantes (parfois appelées non corrélées)" L'indépendance n'est pas la même chose que non corrélée; les variables aléatoires non corrélées peuvent être très dépendantes.

— Dilip Sarwate

OK, merci d'avoir résolu le problème. J'inverse mon vote négatif.

— Dilip Sarwate