Gamme de valeurs d'asymétrie et de kurtosis pour une distribution normale

Je veux savoir quelle est la plage des valeurs d' asymétrie et de kurtosis pour lesquelles les données sont considérées comme normalement distribuées.

J'ai lu de nombreux arguments et j'ai surtout obtenu des réponses mitigées. Certains disent que l'asymétrie et pour le kurtosis est une plage acceptable pour une distribution normale. Certains disent que l'asymétrie est une plage acceptable. J'ai trouvé une discussion détaillée ici: Quelle est la plage acceptable d'asymétrie et de kurtosis pour une distribution normale des données concernant ce problème. Mais je n'ai trouvé aucune déclaration décisive. $(-1,1)$ $(-2,2)$ $(-1.96,1.96)$

Quelle est la base pour décider d'un tel intervalle? Est-ce un choix subjectif? Ou y a-t-il une explication mathématique derrière ces intervalles?

normal-distribution skewness kurtosis

— Chevalier noir
source

Qu'est-ce qui définit «acceptable»?

— Glen_b -Reinstate Monica

C'est une bonne question. Je n'ai pas de réponse claire à cela.

— Dark_Knight

Ai-je raison de penser que derrière votre question se trouve une méthode implicite, quelque chose du genre: "Avant d'estimer ce modèle / d'effectuer ce test, vérifiez l'asymétrie et le kurtosis de l'échantillon. S'ils sont tous les deux dans des plages prédéfinies, utilisez procédure théorique normale, sinon utiliser autre chose. " ...?

— Glen_b -Reinstate Monica

Dans l'affirmative, sur quelles procédures, avec des hypothèses normales, pourriez-vous utiliser une telle approche? Sur quelles variables vérifieriez-vous cela? Quelles sont les procédures alternatives que vous utiliseriez si vous concluiez qu'elles n'étaient pas "acceptables" selon certains critères?

— Glen_b -Reinstate Monica

En outre - et cela peut être important pour le contexte, en particulier dans les cas où un certain raisonnement est proposé pour choisir certaines limites - pouvez-vous inclure des citations dont les plages comme celles-ci proviennent et que vous pouvez obtenir (en particulier lorsque les plages suggérées sont assez différent)? Une chose qu'il serait utile de savoir dans un tel contexte - pour quelles situations utilise-t-il ce genre de chose?

— Glen_b -Reinstate Monica

Réponses:

Le message original manque quelques points majeurs: (1) Aucune "donnée" ne peut jamais être distribuée normalement. Les données sont nécessairement discrètes. La question valable est: "le processus qui a produit les données est-il un processus normalement distribué?" Mais (2) la réponse à la deuxième question est toujours «non», quel que soit le résultat d'un test statistique ou d'une autre évaluation basée sur des données. Les processus normalement distribués produisent des données avec une continuité infinie, une symétrie parfaite et des probabilités spécifiées avec précision dans des plages d'écart type (par exemple 68-95-99.7), dont aucune n'est jamais précisément vraie pour les processus qui donnent naissance à des données que nous pouvons mesurer avec n'importe quoi appareil de mesure que nous, humains, pouvons utiliser.

Ainsi, vous ne pouvez jamais considérer que les données sont normalement distribuées et vous ne pouvez jamais considérer le processus qui a produit les données comme un processus précisément distribué normalement. Mais, comme Glen_b l'a indiqué, cela n'a peut-être pas trop d'importance, selon ce que vous essayez de faire avec les données.

Les statistiques d'asymétrie et de kurtosis peuvent vous aider à évaluer certains types d'écarts par rapport à la normalité de votre processus de génération de données. Ce sont des statistiques très variables, cependant. Les erreurs standard données ci-dessus ne sont pas utiles car elles ne sont valables que dans le cadre de la normalité, ce qui signifie qu'elles ne sont utiles que comme test de normalité, un exercice essentiellement inutile. Il serait préférable d'utiliser le bootstrap pour trouver les se, bien que de grands échantillons soient nécessaires pour obtenir des se précis.

En outre, le kurtosis est très facile à interpréter, contrairement au post ci-dessus. Il s'agit de la moyenne (ou valeur attendue) des valeurs Z, chacune portée à la quatrième puissance. Grand | Z | les valeurs sont aberrantes et contribuent fortement à la kurtosis. Petit | Z | les valeurs, où le "pic" de la distribution est, donnent des valeurs Z ^ 4 qui sont minuscules et ne contribuent pratiquement pas à la kurtosis. J'ai prouvé dans mon article https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ que le kurtosis est très bien approximé par la moyenne des valeurs Z ^ 4 * I (| Z |> 1). Par conséquent, le kurtosis mesure la propension du processus de génération de données à produire des valeurs aberrantes.

— Peter Westfall
source

Juste pour clarifier, qu'entendez-vous exactement par "processus normalement distribué"? Je comprends ce que vous dites sur la discrétion et la continuité des variables aléatoires, mais qu'en est-il de l'hypothèse concernant la distribution normale qui peut être faite en utilisant le théorème de la limite centrale?

— Dark_Knight

Le CLT n'est pas pertinent ici - nous parlons de la distribution qui produit des valeurs de données individuelles, pas des moyennes. Un "processus normalement distribué" est un processus qui produit des variables aléatoires normalement distribuées. Un générateur de nombres aléatoires d'ordinateur normal parfait serait un exemple (une telle chose n'existe pas, mais ils sont sacrément bons dans le logiciel que nous utilisons.)

— Peter Westfall

De plus, comme aucun processus qui produit des données que nous pouvons analyser n'est un processus normal, il s'ensuit également que la distribution des moyennes produites par un tel processus n'est jamais précisément non plus, quelle que soit la taille de l'échantillon. Mais oui, les distributions de ces moyennes pourraient être proches des distributions normales selon le CLT. La proximité de ces distributions à la normale dépend (i) de la taille de l'échantillon et (ii) du degré de non-normalité du processus de génération de données qui produit les valeurs de données individuelles.

— Peter Westfall

Salut Peter - pouvez-vous éviter les références comme "ci-dessus" car l'ordre de tri va changer. Ce qui est au-dessus pour vous ne l'est peut-être pas pour la prochaine personne à regarder. Si vous voulez dire le post de Gung ou mon post (toujours en cours d'édition, car je travaille sur un certain nombre d'aspects), vous pouvez simplement les identifier par leur auteur.

— Glen_b -Reinstate Monica

Vous semblez affirmer ci-dessus qu'une kurtose plus élevée implique une tendance plus élevée à produire des valeurs aberrantes. À moins que vous ne définissiez les valeurs aberrantes de manière tautologique (c'est-à-dire pour rendre la déclaration vraie), ce n'est pas une affirmation qui est vraie dans le cas général. Par exemple, il est relativement facile de construire des paires de distributions où celle avec une queue plus lourde a un kurtosis inférieur.

— Glen_b -Reinstate Monica

Ce que vous semblez demander ici, c'est une erreur standard pour l'asymétrie et le kurtosis d'un échantillon tiré d'une population normale. Notez qu'il existe différentes façons d'estimer des choses comme l' asymétrie ou la queue grasse (kurtosis), qui affecteront évidemment ce que sera l'erreur standard. Les mesures les plus courantes auxquelles les gens pensent sont plus techniquement connues comme les 3e et 4e moments normalisés.

$[1, \infty)$ $3$ ${\rm kurtosis} - 3$ $[-2, \infty)$ ${\rm skewness}^2 + 1$ $24/N$ $0$

Pour ce que ça vaut, les erreurs standard sont:

\begin{aligned} S E (s k e w n e s s) & = \sqrt{\frac{6 N (N - 1)}{(N - 2) (N + 1) (N + 3)}} \\ S E (k u r t o s je s) & = 2 \times S E (s k e w n e s s) \sqrt{\frac{N^{2} - 1}{(N - 3) (N + 5)}} \end{aligned}

$\begin{align} SE({\rm skewness}) &= \sqrt{\frac{6N(N-1)}{(N-2)(N+1)(N+3)}} \\[10pt] SE({\rm kurtosis}) &= 2\times SE({\rm skewness})\sqrt{\frac{N^2-1}{(N-3)(N+5)}} \end{align}$

$0$

$<|.5|$
$[|.5|, |1|)$
$\ge |1|$

Un bon aperçu introductif de l'asymétrie et du kurtosis peut être trouvé ici .

— gung - Réintégrer Monica
source

[Dans ce qui suit, je suppose que vous proposez quelque chose comme "vérifier l'asymétrie et le kurtosis des échantillons, s'ils sont tous les deux dans des plages prédéfinies, utilisez une procédure théorique normale, sinon utilisez autre chose".]

Il y a une multitude d'aspects à cela, dont nous n'aurons de l'espace que pour une poignée de considérations. Je commencerai par énumérer ce que je pense que les questions importantes peuvent être à examiner avant de passer à l'utilisation d'un critère comme celui-ci. Je vais essayer de revenir et d'écrire un peu sur chaque élément plus tard:

Questions à considérer

Dans quelle mesure divers types de non-normalité auraient-ils une incidence sur tout ce que nous faisons?
À quel point est-il difficile de détecter ces écarts en utilisant des plages sur l'asymétrie et le kurtosis des échantillons?

Une chose avec laquelle je suis d'accord dans la proposition - elle examine une paire de mesures liées à la taille de l'effet ( combien d' écart par rapport à la normalité) plutôt qu'à la signification. En ce sens, il sera plus près d'aborder quelque chose d'utile qu'un test formel d'hypothèse, qui tendra à rejeter même des écarts insignifiants à de grands échantillons, tout en offrant la fausse consolation du non-rejet d'écarts beaucoup plus importants (et plus impactants) à petits échantillons. (Les tests d'hypothèse répondent à la mauvaise question ici.)

Bien sûr, pour de petits échantillons, c'est toujours problématique dans le sens où les mesures sont très "bruyantes", donc nous pouvons toujours être induits en erreur (un intervalle de confiance nous aidera à voir à quel point cela pourrait être mauvais).

Cela ne nous dit pas comment un écart d'asymétrie ou de kurtosis est lié à des problèmes avec ce pour quoi nous voulons la normalité - et les différentes procédures peuvent être très différentes dans leurs réponses à la non-normalité.

Cela ne nous aide pas si notre déviation par rapport à la normalité est d'une nature à laquelle aveuglement et kurtosis seront aveugles.
Si vous utilisez ces exemples de statistiques comme base pour choisir entre deux procédures, quel est l'impact sur les propriétés de l'inférence résultante (par exemple, pour un test d'hypothèse, à quoi ressemblent votre niveau de signification et votre pouvoir?)
Il existe un nombre infini de distributions qui ont exactement la même asymétrie et kurtosis que la distribution normale, mais qui sont nettement non normales. Ils n'ont même pas besoin d'être symétriques! Comment l'existence de telles choses influe-t-elle sur l'utilisation de telles procédures? L'entreprise est-elle condamnée dès le départ?
Quelle variation de l'asymétrie et du kurtosis des échantillons pourriez-vous voir dans les échantillons tirés de distributions normales? (Quelle proportion d'échantillons normaux finirions-nous par jeter selon une règle?)

[Ce problème est en partie lié à certains des points abordés par Gung dans sa réponse.]
Pourrait-il y avoir quelque chose de mieux à faire à la place?

Enfin, si après avoir examiné toutes ces questions, nous décidons que nous devons aller de l'avant et utiliser cette approche, nous arrivons à des considérations découlant de votre question:

Quelles sont les bonnes limites à placer sur l'asymétrie et sur le kurtosis pour diverses procédures? De quelles variables devons-nous nous soucier dans quelles procédures?

(Par exemple, si nous effectuons une régression, notez qu'il est incorrect de traiter un IV et même le DV brut de cette façon - aucun de ceux-ci n'est supposé provenir d'une distribution normale commune)

Je reviendrai et ajouterai quelques réflexions, mais tout commentaire / question que vous pourriez avoir en attendant pourrait être utile.

— Glen_b -Reinstate Monica
source

0

$0$

Et je ne comprends pas non plus pourquoi avons-nous besoin d'une plage particulière de valeurs d'asymétrie et de kurtosis pour effectuer un test de normalité?

— Dark_Knight