À partir de la fonction de densité de distribution, nous pourrions identifier une moyenne (= 0) pour la distribution de Cauchy, comme le montre le graphique ci-dessous. Mais pourquoi dit-on que la distribution de Cauchy n'a pas de moyen?
À partir de la fonction de densité de distribution, nous pourrions identifier une moyenne (= 0) pour la distribution de Cauchy, comme le montre le graphique ci-dessous. Mais pourquoi dit-on que la distribution de Cauchy n'a pas de moyen?
Réponses:
Vous pouvez vérifier mécaniquement que la valeur attendue n'existe pas, mais cela doit être physiquement intuitif, du moins si vous acceptez le principe de Huygens et la loi des grands nombres . La conclusion de la loi des grands nombres échoue pour une distribution de Cauchy, elle ne peut donc pas avoir de moyen. Si vous faites la moyenne de variables aléatoires de Cauchy indépendantes, le résultat ne converge pas vers car avec une probabilité de . Il reste une distribution de Cauchy de la même taille. Ceci est important en optique.0 n → ∞ 1
La distribution de Cauchy est l'intensité normalisée de la lumière sur une ligne provenant d'une source ponctuelle. Le principe de Huygens dit que vous pouvez déterminer l'intensité en supposant que la lumière est réémise par n'importe quelle ligne entre la source et la cible. Ainsi, l'intensité de la lumière sur une ligne située à mètres peut être déterminée en supposant que la lumière frappe d'abord une ligne située à mètre et qu'elle est réémise à n'importe quel angle. L'intensité de la lumière sur une ligne située à une distance de mètres peut être exprimée par la convolution à fois la distribution de la lumière sur une ligne située à mètre de distance. C'est-à-dire que la somme de distributions de Cauchy indépendantes est une distribution de Cauchy échelonnée par un facteur de .n n 1 n n
Si la distribution de Cauchy avait une moyenne, alors le e centile de la convolution à fois divisé par devrait converger vers selon la loi des grands nombres. Au lieu de cela, il reste constant. Si vous marquez le e centile sur une ligne (transparente) à mètre de distance, à mètres de distance, etc., ces points forment une ligne droite à degrés. Ils ne se plient pas vers .n n 0 25 1 2 45 0
Cela vous parle de la distribution de Cauchy en particulier, mais vous devez connaître le test de l'intégrale car il existe d'autres distributions sans moyenne qui n'ont pas une interprétation physique claire.
Réponse ajoutée en réponse au commentaire de @ whuber sur la réponse de Michael Chernicks (et complètement réécrite pour supprimer l'erreur signalée par whuber.)
La valeur de l'intégrale pour la valeur attendue d'une variable aléatoire de Cauchy est dite non définie car la valeur peut être "faite" pour être ce que l'on aime. L'intégrale (interprétée dans le sens d'une intégrale de Riemann) est ce qu'on appelle communément une intégrale impropre et sa valeur doivent être calculées comme valeur limite: ou
La valeur principale de Cauchy est obtenue sous la forme d'une limite unique: au lieu de la double limite ci-dessus. La valeur principale de l'intégrale de l' attente est facilement considérée comme depuis la limitand a une valeur pour tous . Mais cela ne peut pas être utilisé pour dire que la moyenne d'une variable aléatoire de Cauchy est . C'est-à-dire que la moyenne est définie comme la valeur de l'intégrale au sens habituel et non au sens principal.
Pour , considérons l’intégrale qui se rapproche d'une valeur limite de comme . Lorsque , nous obtenons la valeur principale décrite ci-dessus. Ainsi, nous ne pouvons pas attribuer un sens non ambigu à l'expression
Si l’on utilise l’approche théorique de la probabilité et que l’intégrale de la valeur attendue est définie au sens d’une intégrale de Lebesgue, la question est alors plus simple. n'existe que lorsque est fini, et donc est indéfini pour une variable aléatoire de Cauchy puisque n'est pas fini.
Bien que les réponses ci-dessus soient des explications valables sur les raisons pour lesquelles la distribution de Cauchy n’a aucune attente, je trouve que le rapport de deux variables normales indépendantes est tout aussi éclairant: nous avoir et la seconde attente est .
Le Cauchy n'a pas de moyenne car le point que vous sélectionnez (0) n'est pas une moyenne. C'est une médiane et un mode . La moyenne d'une distribution absolument continue est définie comme où est la fonction de densité et l'intégrale est prise sur le domaine de (qui est to dans le cas de Cauchy). Pour la densité de Cauchy, cette intégrale n'est simplement pas finie (la moitié de à est et la moitié de à est ).
Il est préférable de considérer la distribution de Cauchy comme la distribution uniforme sur un cercle unitaire. Il serait donc surprenant que le calcul de la moyenne ait un sens. Supposons que soit une sorte de "fonction de moyennage". Autrement dit, supposons que, pour chaque sous-ensemble fini du cercle unité, était un point du cercle unité. Clairement, doit être "non naturel". Plus précisément, ne peut pas être équivariant en ce qui concerne les rotations. Pour obtenir la distribution de Cauchy sous sa forme plus usuelle, mais moins révélatrice, projetez l'unité du cercle sur l'axe des x à partir de (0,1) et utilisez cette projection pour transférer la distribution uniforme du cercle sur l'axe des x.
Pour comprendre pourquoi la moyenne n'existe pas, considérons x comme une fonction du cercle unité. Il est assez facile de trouver un nombre infini d'arcs disjoints sur le cercle unitaire, tels que, si l'un des arcs a une longueur d, alors x> 1/4 d sur cet arc. Ainsi, chacun de ces arcs disjoints contribue pour plus de 1/4 à la moyenne, et la contribution totale de ces arcs est infinie. Nous pouvons refaire la même chose, mais avec x <-1 / 4d, avec une contribution totale moins l'infini. Ces intervalles peuvent être affichés avec un diagramme, mais peut-on créer des diagrammes pour la validation croisée?
La moyenne ou la valeur attendue d’une variable aléatoire est une intégrale de Lebesgue définie sur une mesure de probabilité : P E X = ∫ X d P
La non-existence de la moyenne de la variable aléatoire de Cauchy signifie simplement que l'intégrale de Cauchy rv n'existe pas. En effet, les queues de distribution de Cauchy sont des queues lourdes (à comparer aux queues de distribution normale). Cependant, la non-existence de la valeur attendue n'interdit pas l'existence d'autres fonctions d'une variable aléatoire de Cauchy.
Voici plus d'une explication visuelle. (Pour ceux d'entre nous qui ont des difficultés en mathématiques.). Prenez un générateur de nombres aléatoires répartis de Cauchy et essayez de calculer la moyenne des valeurs obtenues. Voici une bonne page sur une fonction pour cela. https://math.stackexchange.com/questions/484395/how-to-generate-a-cauchy-random-variable Vous constaterez que la "densité" des valeurs aléatoires la rend plus grande au fur et à mesure que vous disparaissez. . Par conséquent, il n'a pas de moyen.
Pour compléter les excellentes réponses, je ferai quelques commentaires sur la raison pour laquelle la non-convergence de l'intégrale est pertinente pour la pratique statistique. Comme d’autres l’ont mentionné, si nous permettions à la valeur principale d’être une "moyenne", les scripts ne sont plus valables! Indépendamment de cela, réfléchissez aux conséquences du fait que, dans la pratique, tous les modèles sont des approximations. Plus précisément, la distribution de Cauchy est un modèle pour une variable aléatoire non bornée. En pratique, les variables aléatoires sont limitées, mais les limites sont souvent vagues et incertaines. Utiliser des modèles non bornés est un moyen d’atténuer cet inconvénient, cela rend inutile l’introduction de limites incertaines (et souvent non naturelles) dans les modèles. Mais pour que cela ait un sens, les aspects importants du problème ne doivent pas être affectés. Cela signifie que, si nous devions introduire des limites, cela ne devrait pas altérer de manière importante le modèle. Mais lorsque l'intégrale est non convergente, cela ne se produit pas! Le modèle est instable, en ce sens que l'attente de la RV dépendrait de limites largement arbitraires. (Dans les applications, il n'y a pas nécessairement de raison de rendre les limites symétriques!)
Pour cette raison, il est préférable de dire que l'intégrale est divergente que de dire qu'elle est "infinie", la dernière étant proche d'impliquer une valeur définie quand aucune n'existe! Une discussion plus approfondie est ici .
Je voulais être un peu difficile pendant une seconde. Le graphique en haut est faux. L'axe des x est en écarts-types, ce qui n'existe pas pour la distribution de Cauchy. Je suis pointilleux parce que j'utilise la distribution Cauchy tous les jours de ma vie dans mon travail. Il existe un cas pratique où la confusion pourrait causer une erreur empirique. La distribution t de Student avec 1 degré de liberté est la norme de Cauchy. Il listera généralement les différents sigmas nécessaires à la signification. Ces sigmas ne sont PAS des écarts-types, ce sont des erreurs probables et mu est le mode.
Si vous souhaitez utiliser correctement le graphique ci-dessus, que l'axe des x soit constitué de données brutes ou que vous souhaitiez des erreurs de taille équivalente, vous devez leur attribuer des erreurs probables égales. Une erreur probable est 0,67 écart-type de taille sur la distribution normale. Dans les deux cas, il s’agit de la plage semi-interquartile.
Maintenant, pour répondre à votre question, tout ce que tout le monde a écrit ci-dessus est correct, et c’est la raison mathématique. Cependant, je soupçonne que vous êtes un étudiant et que vous êtes nouveau dans le sujet. Les solutions mathématiques contre-intuitives à l'évidence visuelle risquent donc de ne pas sembler vraies.
J'ai deux échantillons du monde réel presque identiques, tirés d'une distribution de Cauchy, qui ont tous deux le même mode et la même erreur probable. L'un a une moyenne de 1,27 et l'autre une moyenne de 1,33. Celui avec une moyenne de 1,27 a un écart-type de 400, celui avec une moyenne de 1,33 a un écart-type de 5,15. L'erreur probable pour les deux est de 0,32 et le mode est de 1. Cela signifie que pour les données symétriques, la moyenne n'est pas dans les 50% centraux. Une seule observation supplémentaire suffit pour que la moyenne et / ou la variance ne soient plus significatives pour un test. La raison en est que la moyenne et la variance ne sont pas des paramètres et que la moyenne et la variance de l'échantillon sont elles-mêmes des nombres aléatoires.
La réponse la plus simple est que les paramètres de la distribution de Cauchy n'incluent pas de moyenne et, par conséquent, aucune variance autour d'une moyenne.
Il est probable que dans votre pédagogie passée, l’importance de la moyenne était qu’elle était généralement une statistique suffisante. Dans les statistiques à long terme basées sur les fréquences, la distribution de Cauchy n'a pas de statistique suffisante. Il est vrai que la médiane de l’échantillon, pour une distribution de Cauchy avec un support sur l’ensemble des réels, est une statistique suffisante, mais c’est parce qu’elle en hérite comme statistique d’ordre. C'est en quelque sorte suffisant, faute d'un moyen facile d'y penser. Maintenant, dans les statistiques bayésiennes, il existe une statistique suffisante pour les paramètres de la distribution de Cauchy et si vous utilisez un précédent uniforme, il est également impartial. Je soulève cette question parce que si vous devez les utiliser quotidiennement, vous avez appris toutes les méthodes pour les évaluer.
Aucune statistique d'ordre valide ne peut être utilisée comme estimateur pour les distributions de Cauchy tronquées, ce que vous rencontrerez probablement dans le monde réel. Il n'y a donc pas de statistique suffisante dans les méthodes basées sur la fréquence pour la plupart des applications du monde réel, mais pas pour toutes. .
Ce que je suggère, c’est de s’éloigner de la moyenne, mentalement, en tant que réalité. C'est un outil, comme un marteau, qui est très utile et peut généralement être utilisé. Parfois, cet outil ne fonctionne pas.
Une note mathématique sur les distributions normale et de Cauchy. Lorsque les données sont reçues sous forme de série chronologique, la distribution normale ne se produit que lorsque les erreurs convergent vers zéro lorsque t va à l'infini. Lorsque les données sont reçues sous forme de série chronologique, la distribution de Cauchy se produit lorsque les erreurs divergent à l'infini. L'une est due à une série convergente, l'autre à une série divergente. Les distributions de Cauchy n'arrivent jamais à un point précis de la limite, elles basculent d'un point à l'autre de telle sorte que 50% du temps, elles sont d'un côté et 50% du temps de l'autre. Il n'y a pas de retour médian.
Pour le dire simplement, la zone sous la courbe se rapproche de l'infini lorsque vous effectuez un zoom arrière. Si vous échantillonnez une région finie, vous pouvez trouver une moyenne pour cette région. Cependant, il n'y a pas de moyen pour l'infini.