Pourquoi le test F est-il si sensible à l'hypothèse de normalité?

16

Pourquoi le test F pour la différence de variance est-il si sensible à l'hypothèse d'une distribution normale, même pour un grand ? $N$

J'ai essayé de chercher sur le Web et j'ai visité la bibliothèque, mais rien de tout cela n'a donné de bonnes réponses. Il dit que le test est très sensible pour violation de l'hypothèse de distribution normale, mais je ne comprends pas pourquoi. Quelqu'un at-il une bonne réponse à cela?

normality-assumption f-test

— Magnus Johannesen
source

6

Quel test

F

$F$ vous intéresse?

— S.Kolassa - Rétablir Monica

Test F pour mesurer la différence de variance.

— Magnus Johannesen

35

Je suppose que vous voulez dire le test F pour le rapport des variances lorsque vous testez une paire de variances d'échantillon pour l'égalité (parce que c'est la plus simple qui est assez sensible à la normalité; le test F pour ANOVA est moins sensible)

Si vos échantillons sont tirés de distributions normales, la variance de l'échantillon a une distribution chi carré mise à l'échelle

Imaginez qu'au lieu de données tirées de distributions normales, vous ayez une distribution plus lourde que la normale. Ensuite, vous obtiendriez trop de grandes variances par rapport à cette distribution chi carré mise à l'échelle, et la probabilité que la variance de l'échantillon atteigne l'extrême droite dépend très bien des queues de la distribution à partir de laquelle les données ont été tirées =. (Il y aura également trop de petites variations, mais l'effet est un peu moins prononcé)

Maintenant, si les deux échantillons sont tirés de cette distribution à queue plus lourde, la plus grande queue sur le numérateur produira un excès de grandes valeurs F et la plus grande queue sur le dénominateur produira un excès de petites valeurs F (et vice versa pour la queue gauche)

Ces deux effets auront tendance à conduire au rejet dans un test bilatéral, même si les deux échantillons ont la même variance . Cela signifie que lorsque la vraie distribution est plus lourde que la normale, les niveaux de signification réels ont tendance à être plus élevés que nous le souhaitons.

Inversement, le prélèvement d'un échantillon à partir d'une distribution à queue plus claire produit une distribution des variances d'échantillon qui est trop courte - les valeurs de variance ont tendance à être plus "intermédiaires" que celles obtenues avec des données provenant de distributions normales. Encore une fois, l'impact est plus fort dans la queue bien supérieure que dans la queue inférieure.

Maintenant, si les deux échantillons sont tirés de cette distribution à queue plus claire, cela se traduit par un excès de valeurs F près de la médiane et trop peu dans l'une ou l'autre queue (les niveaux de signification réels seront inférieurs à ceux souhaités).

Ces effets ne semblent pas nécessairement beaucoup diminuer avec une plus grande taille d'échantillon; dans certains cas, cela semble empirer.

À titre d'illustration partielle, voici 10000 variances d'échantillon (pour $n=10$ ) pour les distributions normales, $t_5$ et uniformes, mises à l'échelle pour avoir la même moyenne qu'un $\chi^2_9$ :

Il est un peu difficile de voir la queue lointaine car elle est relativement petite par rapport au pic (et pour le $t_5$ les observations dans la queue s'étendent assez loin devant où nous avons tracé), mais nous pouvons voir quelque chose de l'effet sur la distribution sur la variance. Il est peut-être encore plus instructif de les transformer par l'inverse du chi carré cdf,

qui dans le cas normal semble uniforme (comme il se doit), dans le cas t a un grand pic dans la queue supérieure (et un plus petit pic dans la queue inférieure) et dans le cas uniforme est plus semblable à une colline mais avec un large pic autour de 0,6 à 0,8 et les extrêmes ont une probabilité beaucoup plus faible qu'ils ne le devraient si nous échantillonnions à partir de distributions normales.

$F_{9,9}$

$t_5$

Il y aurait de nombreux autres cas à étudier pour une étude complète, mais cela donne au moins une idée du type et de la direction de l'effet, ainsi que de la manière dont il se produit.

— Glen_b -Reinstate Monica
source

1

Démo vraiment sympa

— shadowtalker

3

Comme Glen_b l' a brillamment illustré dans ses simulations, le test F pour un rapport de variances est sensible aux queues de la distribution. La raison en est que la variance d'une variance d'échantillon dépend du paramètre de kurtosis, et donc que la kurtosis de la distribution sous-jacente a un fort effet sur la distribution du rapport des variances d'échantillon.

$S_N^2$ $S_n^2$ $n<N$ $^\dagger$

\frac{S_{N}^{2}}{S_{n}^{2}} \overset{Environ}{\sim} \frac{n - 1}{N - 1} + \frac{N - n}{N - 1} \cdot F (ré F_{C}, ré F_{n}),

$\frac{S_N^2}{S_n^2} \overset{\text{Approx}}{\sim} \frac{n-1}{N-1} + \frac{N-n}{N-1} \cdot F(DF_C, DF_n),$

$\kappa$

ré F_{n} = \frac{2 n}{κ - (n - 3) / (n - 1)} ré F_{C} = \frac{2 (N - n)}{2 + (κ - 3) (1 - 2 / N + 1 / N n)} .

$DF_n = \frac{2n}{\kappa - (n-3)/(n-1)} \quad \quad \quad DF_C = \frac{2(N-n)}{2+(\kappa-3)(1-2/N+1/Nn)}.$

Dans le cas particulier d'une distribution méso-catalytique (par exemple, la distribution normale), vous avez $\kappa=3$ , ce qui donne les degrés de liberté standard $DF_n = n-1$ et $DF_C = N-n$ .

Bien que la distribution du rapport de variance soit sensible à la kurtosis sous-jacente, elle n'est en fait pas très sensible à la normalité en soi . Si vous utilisez une distribution mésocytique avec une forme différente de la normale, vous constaterez que l'approximation de la distribution F standard fonctionne assez bien. Dans la pratique, le kurtosis sous-jacent est inconnu, donc la mise en œuvre de la formule ci-dessus nécessite la substitution d'un estimateur $\hat{\kappa}$ . Avec une telle substitution, l'approximation devrait fonctionner assez bien.

$^\dagger$ Notez que cet article définit la variance de la population en utilisant la correction de Bessel (pour les raisons indiquées dans l'article, pp. 282-283). Ainsi, le dénominateur de la variance de la population est $N-1$ dans cette analyse, pas $N$ . (Il s'agit en fait d'une façon plus utile de faire les choses, puisque la variance de la population est alors un estimateur non biaisé du paramètre de variance de la superopopulation.)

— Réintégrer Monica
source

+1 Ceci est un article très intéressant. Certes, avec les distributions mésokurtiques, il est plus difficile d'obtenir une distribution du rapport de variance aussi éloignée du F que possible avec une gamme complète de choix de distribution, mais il n'est pas si difficile d'identifier les cas (à la taille de l'échantillon dans ma réponse, 10 et 10) où le taux d'erreur réel de type I est plus que légèrement éloigné d'un taux nominal de 0,05. Les 3 premiers cas que j'ai essayés (distributions avec kurtosis de population = 3 - tous symétriques également) avaient des taux de rejet de type I de 0,0379, 0,0745 et 0,0785. ... ctd

— Glen_b -Reinstate Monica

ctd ... J'ai peu de doute que des cas plus extrêmes pourraient être identifiés avec un peu de réflexion sur la façon d'aggraver l'approximation. J'imagine que cela (que le niveau de signification ne serait pas beaucoup affecté) pourrait mieux tenir dans des échantillons plus grands, cependant.

— Glen_b -Reinstate Monica