Alors qu'un certain nombre de messages sur le site traitent de diverses propriétés du Cauchy, je n'ai pas réussi à en trouver un qui les a vraiment disposés ensemble. J'espère que cela pourrait être un bon endroit pour en collecter. Je peux développer cela.
Queues lourdes
Alors que le Cauchy est symétrique et à peu près en forme de cloche, un peu comme la distribution normale, il a des queues beaucoup plus lourdes (et moins d'une "épaule"). Par exemple, il y a une probabilité faible mais distincte qu'une variable aléatoire de Cauchy posera plus de 1000 intervalles interquartiles de la médiane - à peu près du même ordre qu'une variable aléatoire normale étant au moins 2,67 intervalles interquartiles de sa médiane.
Variance
La variance du Cauchy est infinie.
Edit: JG dit dans les commentaires qu'il n'est pas défini. Si nous prenons la variance comme la moyenne de la moitié de la distance au carré entre des paires de valeurs - qui est identique à la variance lorsque les deux existent, alors elle serait infinie. Cependant, selon la définition habituelle, JG est correct. [Néanmoins, contrairement aux moyennes d'échantillon, qui ne convergent pas vraiment vers quoi que ce soit à mesure que n devient grand, la distribution des variances d'échantillon continue de croître en taille à mesure que la taille de l'échantillon augmente; l'échelle augmente proportionnellement à n, ou de façon équivalente, la distribution de la variance logarithmique croît linéairement avec la taille de l'échantillon. Il semble productif de considérer réellement que la version de la variance qui produit l'infini nous dit quelque chose.]
Les écarts-types de l'échantillon existent, bien sûr, mais plus l'échantillon est grand, plus il a tendance à être grand (par exemple, l'écart-type médian de l'échantillon à n = 10 est voisin de 3,67 fois le paramètre d'échelle (la moitié de l'IQR), mais à n = 100 c'est environ 11,9).
Signifier
La distribution de Cauchy n'a même pas de moyenne finie; l'intégrale de la moyenne ne converge pas. Par conséquent, même les lois des grands nombres ne s'appliquent pas - à mesure que n croît, les moyennes d'échantillonnage ne convergent pas vers une certaine quantité fixe (en effet, il n'y a rien pour elles de converger).
En fait, la distribution de la moyenne de l'échantillon à partir d'une distribution de Cauchy est la même que la distribution d'une seule observation (!). La queue est si lourde que l'ajout de plus de valeurs dans la somme rend une valeur vraiment extrême probablement suffisante pour compenser simplement la division par un plus grand dénominateur lors de la prise de la moyenne.
Prévisibilité
Vous pouvez certainement produire des intervalles de prédiction parfaitement sensibles pour des observations à partir d'une distribution de Cauchy; il existe des estimateurs simples et assez efficaces qui fonctionnent bien pour estimer l'emplacement et l'échelle et des intervalles de prédiction approximatifs peuvent être construits - de sorte qu'en ce sens, au moins, les variables de Cauchy sont «prévisibles». Cependant, la queue s'étend très loin, de sorte que si vous voulez un intervalle à forte probabilité, il peut être assez large.
Si vous essayez de prédire le centre de la distribution (par exemple dans un modèle de type régression), cela peut dans un certain sens être relativement facile à prévoir; le Cauchy est assez pointu (il y a beaucoup de distribution "proche" du centre pour une mesure d'échelle typique), donc le centre peut être relativement bien estimé si vous avez un estimateur approprié.
Voici un exemple:
J'ai généré des données à partir d'une relation linéaire avec des erreurs de Cauchy standard (100 observations, interception = 3, pente = 1,5) et des lignes de régression estimées par trois méthodes qui sont raisonnablement robustes aux valeurs aberrantes y: ligne de groupe Tukey 3 (rouge), régression de Theil (vert foncé) et régression L1 (bleu). Aucun n'est particulièrement efficace au Cauchy - bien qu'ils constitueraient tous d'excellents points de départ pour une approche plus efficace.
Néanmoins, les trois coïncident presque par rapport au bruit des données et se trouvent très près du centre où les données s'exécutent; en ce sens, le Cauchy est clairement "prévisible".
La médiane des résidus absolus n'est que légèrement supérieure à 1 pour aucune des lignes (la plupart des données se situent assez près de la ligne estimée); en ce sens également, le Cauchy est "prévisible".
Pour l'intrigue de gauche, il y a une grande valeur aberrante. Afin de mieux voir les données, j'ai réduit l'échelle sur l'axe des y vers le bas à droite.