Si la moyenne est si sensible, pourquoi l'utiliser en premier lieu?


84

On sait que la médiane résiste aux valeurs aberrantes. Si tel est le cas, quand et pourquoi utiliserions-nous la moyenne en premier lieu?

Une chose à laquelle je peux penser est peut-être de comprendre la présence de valeurs aberrantes, c’est-à-dire que si la médiane est loin de la moyenne, la distribution est alors faussée et il faut peut-être examiner les données pour décider de ce qui doit être fait avec les valeurs aberrantes. Y a-t-il d'autres utilisations?


14
En ce qui concerne la première question, note rapide: la moyenne statistique n’est que le premier instant d’une population , alors que la médiane ne l’est pas. En cherchant à utiliser le CLT, la loi des grands nombres, etc., vous êtes à nouveau lié à l’existence de moments finis. Bien que nous prenions par exemple la distribution de Cauchy: la médiane existe, alors que la moyenne ne le fait pas;)
Dmitrij Celov

2
@Dmitrij C'est une réponse profonde et perspicace. Pourquoi ne pas en dire plus dans une réponse?
whuber

Si vous n'utilisiez pas le moyen, vous feriez mal à ses sentiments? (Désolé, je n'ai pas pu résister.)
Daniel R Hicks

3
@ Daniel R Hicks: Et c'est assez méchant, n'est-ce pas? (Désolé, je n'ai pas pu résister aussi).
Muhammad Alkarouri

3
Cette question est beaucoup plus intéressante que d'habitude: "Comment se fait-il que nous n'utilisons pas toujours des algorithmes robustes?" question, mais peut avoir la même pensée sous-jacente que "robuste == magique" et si nous utilisions seulement des méthodes robustes, nous n'aurions pas à examiner nos données, à les comprendre, ni à nous préoccuper de différents types de problèmes de précision, "robuste". Toujours, +1.
Wayne

Réponses:


113

Dans un sens, la moyenne est utilisée car elle est sensible aux données. Si la distribution est symétrique et que les queues ressemblent à la distribution normale, la moyenne est un résumé très efficace de la tendance centrale. La médiane, tout en étant robuste et bien définie pour toute distribution continue, n’est que aussi efficace que la moyenne si les données provenaient d’une distribution normale. C'est cette relative inefficacité de la médiane qui nous empêche de l'utiliser encore plus que nous ne le faisons. L'inefficacité relative se traduit par une inefficacité absolue mineure à mesure que la taille de l'échantillon augmente , de sorte que pour un grand nous pouvons être plus sûrs d'utiliser la médiane. n2πn

Il est intéressant de noter que pour une mesure de la variation (étendue, dispersion), il existe un estimateur très robuste qui est aussi efficace que l’écart type, à savoir la différence moyenne de Gini. C'est la différence absolue moyenne entre deux observations quelconques. [Vous devez multiplier l'écart type de l'échantillon par une constante pour estimer la même quantité estimée par la différence moyenne de Gini.] L'estimateur de Hodges-Lehmann, c’est-à-dire la médiane de toutes les moyennes paires, est une mesure efficace de la tendance centrale. Nous l'utiliserions davantage si son interprétation était plus simple.


13
+1 pour avoir mentionné l’estimateur de tendance centrale de Hodges-Lehmann. À bien des égards, il se situe entre la moyenne et la médiane. Si seulement il était facile de calculer dans un grand échantillon, il serait plus populaire que la moyenne ou la médiane comme mesure de localisation, je pense.
ttnphns

BTW, @Frank, savez-vous quelle distribution d'échantillonnage théorique suit le centre de Hodges-Lehmann? Je ne - et je prends des intérêts.
ttnphns

16
Merci pour le commentaire. Une seule ligne dans R peut calculer efficacement jusqu'à N = 5000: w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2. Un programme trivial de C, Fortran ou Ratfor pourrait être appelé par R pour le rendre fulgurant. Le paquet ICSNP dans R a une implémentation assez efficace avec sa hl.locfonction. Pour N = 5000, il était 2,66 fois plus rapide que le code ci-dessus (temps total 1,5 secondes). Ce serait bien d’obtenir également un intervalle de confiance de manière efficace.
Frank Harrell

@ FrankHarrel que pouvez-vous dire des estimateurs et pour l'écart type? Quelle constante dois-je utiliser pour estimer utilisant la différence moyenne de Gini pour des distributions non normales? Je ne pouvais pas trouver les articles décrivant la procédure de calcul de cette constante dans des sources en accès ouvert ... De plus, je n'ai trouvé aucune information sur la robustesse de la différence moyenne de Gini. Pouvez-vous nous donner une idée de l'endroit où chercher? Q n σSnQnσ
Demidov allemande le

1
Nous parlons de mesures de dispersion afin que la comparaison des modèles ne soit pas en cause (et ne confondez pas avec "l'indice de Gini"). La différence moyenne de Gini est une mesure absolue. Il est plus facile à interpréter que les autres mesures. Le fait que vous deviez calculer une constante différente pour chaque distribution m'indique que nous ne souhaitons pas utiliser cette constante.
Frank Harrell

36

Déjà beaucoup de bonnes réponses, mais, prenant du recul et obtenant un peu plus de base, je dirais que c'est parce que la réponse que vous obtenez dépend de la question que vous posez. La moyenne et la médiane répondent à différentes questions - parfois l'une est appropriée, parfois l'autre.

Il est simple de dire que la médiane doit être utilisée lorsqu'il y a des valeurs aberrantes, des distributions asymétriques ou autres. Mais ce n'est pas toujours le cas. Prenez le revenu - presque toujours rapporté avec la médiane, et généralement c'est vrai. Mais si vous examinez le pouvoir de dépenser de toute une communauté, cela n’est peut-être pas juste. Et dans certains cas, même le mode peut être meilleur (surtout si les données sont groupées).


8
+1 pour le point évident que personne d'autre ne semblait vouloir aborder: ce sont des concepts différents qui répondent à des questions différentes. En outre, dans de nombreux cas, on perd beaucoup en condensant toute la distribution en un seul numéro récapitulatif, de sorte que parfois ils font tous les deux un travail moche.
Michael McGowan

25

Quand une valeur est pour nous un déchet, nous l’appelons "inhabituelle" et voulons que l’analyse lui soit résistante (et préfère la médiane); lorsque cette même valeur est attrayante, nous l'appelons "extrême" et souhaitons que l'analyse y soit sensible (et préfère la moyenne). Dialectique...

La moyenne réagit également à un décalage de valeur, quel que soit le lieu dans lequel la répartition a lieu. Par exemple, dans 1 2 3 4 5vous pouvez augmenter n'importe quelle valeur de 2 - l'augmentation de la moyenne sera la même. La réaction de la médiane est moins "cohérente": ajoutez 2 aux points de données 4 ou 5 et la médiane n'augmentera pas; mais ajoutez 2 au point 2 - pour que le décalage se situe au - dessus de la médiane et que celle-ci change radicalement (beaucoup plus que la moyenne ne changera).

La moyenne est toujours exactement localisée. La médiane n'est pas; par exemple, 1 2 3 4 toute valeur comprise entre 2 et 3 peut être appelée médiane. Ainsi, les analyses basées sur les médianes ne constituent pas toujours une solution unique.

La moyenne est un lieu de déviation minimale de la somme des carrés. De nombreuses tâches d'optimisation basées sur l'algèbre linéaire (y compris la célèbre régression OLS) minimisent cette erreur carrée et impliquent donc le concept de moyenne. La médiane est un lieu de déviation minimale de la somme des absolus. Les techniques d'optimisation visant à minimiser cette erreur sont non linéaires et plus complexes / mal connues.


2
+1 Je crains un peu que le premier paragraphe ne soit mal compris car la détection des valeurs aberrantes est un processus entièrement subjectif. Je ne pense pas que vous vouliez dire cela, cependant.
whuber

8
+1 | Je pense que la première phrase implique que l’application de la détection des valeurs aberrantes est tout à fait subjective et, par conséquent, je vote pour garder tel quel.
John

2
Je voulais dire que la détection outliar est une procédure stricte avec des racines philosophiques ou morales subjectives
ttnphns

3
@ttnphns, l'orthographe "étrange" au lieu de "aberrant" est intentionnelle, ou pas?
Mpiktas

1
Typo involontaire.
ttnphns

16

Il y a beaucoup de réponses à cette question. En voici une que vous ne verrez probablement pas ailleurs, alors je l'inclue ici car je pense que c'est pertinent pour le sujet. Les gens croient souvent que parce que la médiane est considérée comme une mesure robuste en ce qui concerne les valeurs aberrantes, elle est également robuste pour la plupart des choses. En fait, il est également jugé robuste de biaiser les distributions asymétriques. Ces deux propriétés robustes de la médiane sont souvent enseignées ensemble. On peut noter que les distributions asymétriques sous-jacentes ont également tendance à générer de petits échantillons qui semblent être des valeurs aberrantes et la sagesse conventionnelle est de pouvoir utiliser les médianes dans de telles situations.

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(juste une démonstration que ceci est biaisé et la forme de base)

hist(rexg(1e4, 0, 1, 1))

terrain

Voyons maintenant ce qui se passe si nous échantillonnons dans cette distribution diverses tailles d’échantillons et calculons la médiane et les moyens de voir quelles sont leurs différences.

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

parcelle 2

Comme on peut le voir sur le graphique ci-dessus, la médiane (en rouge) est beaucoup plus sensible au n que la moyenne. Ceci est contraire à certaines idées reçues concernant l’utilisation de médianes avec un faible ns, en particulier si la distribution peut être faussée. Et, cela renforce le point que la moyenne est une valeur connue alors que la médiane est sensible à d'autres propriétés, l'une si n étant.

Cette analyse est similaire à celle de Miller, J. (1988). Un avertissement sur le temps de réaction médian. Journal of Experimental Psychology: Perception et performance humaines , 14 (3): 539–543.

RÉVISION

Après avoir réfléchi au problème de l’asymétrie, j’ai estimé que l’impact sur la médiane pourrait être simplement dû au fait que, dans les petits échantillons, il est plus probable que la médiane se trouve dans la queue de la distribution, alors que la moyenne sera presque toujours pondérée par des valeurs plus proches de la mode. Par conséquent, si l’on échantillonnait simplement avec une probabilité de valeurs aberrantes, on obtiendrait peut-être les mêmes résultats.

J'ai donc pensé aux situations dans lesquelles des valeurs aberrantes peuvent se produire et dans lesquelles des expérimentateurs peuvent tenter de les éliminer.

Si des valeurs aberrantes se produisent régulièrement, par exemple une fois sur un échantillon de données, les médianes sont robustes face à l’effet de cette valeur aberrante et à l’histoire classique de l’utilisation des médianes.

Mais ce n'est généralement pas ainsi que les choses se passent.

On peut trouver une valeur aberrante dans très peu de cellules d'une expérience et décider d'utiliser la médiane plutôt que la moyenne dans ce cas. Encore une fois, la médiane est plus robuste, mais son impact réel est relativement faible car il y a très peu de valeurs aberrantes. Ce serait certainement un cas plus courant que celui ci-dessus, mais l’effet de l’utilisation d’une médiane serait probablement si faible que cela n’aurait pas beaucoup d’importance.

Peut-être plus communément des valeurs aberrantes pourraient être une composante aléatoire des données. Par exemple, la moyenne réelle et l'écart type de la population peuvent être d'environ 0 mais il y a un pourcentage du temps que nous échantillonnons d'une population aberrante où la moyenne est de 3. Considérez la simulation suivante, dans laquelle une telle population est échantillonnée en faisant varier l'échantillon Taille.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

résultats

La médiane est en rouge et la moyenne en noir. Ceci est une conclusion similaire à celle d'une distribution asymétrique.

Dans un exemple relativement pratique d'utilisation des médianes pour éviter les effets des valeurs aberrantes, on peut trouver des situations où l'estimation est affectée par n beaucoup plus lorsque la médiane est utilisée que lorsque la moyenne est utilisée.


Bel exemple, mais cela dépend vraiment de la distribution. Si vous utilisez une distribution normale ou une distribution uniforme, le graphique est très différent, les deux lignes étant superposées. C'est la distribution exponentielle qui produit la différence.
nico

1
-1 Cette réponse confond "sensibilité" avec "partialité".
whuber

4
Beaucoup mieux; J'ai enlevé le vote négatif. Mais la nouvelle explication m'intrigue: pouvez-vous indiquer une source - un texte, un document ou un site Web - qui affirme en fait que "[la médiane] est également considérée comme étant robuste face aux biais dans les distributions asymétriques" et explique Qu'est-ce que cela pourrait signifier? Je n'ai jamais rencontré une telle affirmation auparavant et je ne suis pas sûr de ce qu'elle dit vraiment.
whuber

3
Il s’agit davantage de connaissances traditionnelles pour faire face aux temps de réaction (connus pour être biaisés) dans la recherche en psychologie. J'ai mis en référence un article qui réfute la sagesse populaire en psychologie (que je regrette de ne pas faire référence plus tôt).
John

3
BTW, malgré le papier de Miller (1988), les gens utilisent toujours les temps de réaction médians dans les études avec manipulations de probabilité où les conditions ont un nombre différent d’échantillons et où le plus bas est généralement assez petit.
John

11
  • À partir de la moyenne, il est facile de calculer la somme sur tous les éléments. Par exemple, si vous connaissez le revenu moyen et la taille de la population, vous pouvez immédiatement calculer le revenu total de la population entière.

  • La moyenne est simple à calculer en O(n)complexité temporelle. Calculer la médiane en temps linéaire est possible mais nécessite plus de réflexion. La solution évidente nécessitant un tri est plus O(n log n)complexe en temps ( ).

Et je suppose qu'il y a une autre raison pour que la moyenne soit plus populaire que la médiane:

  • La moyenne est enseignée à plus de personnes à l'école et probablement avant l'enseignement de la médiane

Pour votre point de complexité temporelle, cela dépend de la façon dont les valeurs sont stockées. Si les valeurs sont déjà triées, il est certainement possible de calculer la médiane en complexité temporelle O (1).
luiscubal

Je suis d'accord - son applicabilité dans les calculs comme les sommes est l'un des principaux avantages de la moyenne. Bien que je préfère souvent la médiane lorsque l'objectif est de décrire quelque chose, nous utilisons souvent la moyenne lorsqu'il s'agit d'une entrée dans un autre calcul.
Jonathan

5

"On sait que la médiane est résistante aux valeurs aberrantes. Si tel est le cas, quand et pourquoi utiliserions-nous la moyenne en premier lieu?"

Dans les cas où l'on sait qu'il n'y a pas de valeurs aberrantes, par exemple quand on connaît le processus de génération de données (par exemple en statistique mathématique).

Il convient de souligner le trivial, que ces deux quantités (moyenne et médiane) ne mesurent pas la même chose et que la plupart des utilisateurs demandent la première lorsque ce qu’ils devraient réellement s'intéresser à la dernière (ce point est bien illustré par tests de Wilcoxon basés sur la médiane qui sont plus facilement interprétés que les tests t).

Ensuite, il y a les cas où, pour une raison fortuite ou une autre, une réglementation impose l'utilisation de la méchanceté.


2

Si l'inquiétude concerne la présence de personnes aberrantes, il existe des moyens simples de vérifier vos données.

Les valeurs aberrantes, presque par définition, entrent dans nos données lorsque quelque chose change, que ce soit dans le processus de génération des données ou dans le processus de collecte des données. c'est-à-dire que les données cessent d'être homogènes. Si vos données ne sont pas homogènes, ni la moyenne ni la médiane n’ont alors plus de sens, car vous essayez d’estimer la tendance centrale de deux ensembles de données séparés qui ont été mélangés.

La meilleure méthode pour assurer l'homogénéité consiste à examiner les processus de génération et de collecte de données pour vous assurer que toutes vos données proviennent d'un seul ensemble de processus. Rien ne vaut un petit pouvoir cérébral, ici.

À titre de vérification secondaire, vous pouvez utiliser l'un des nombreux tests statistiques: le khi-carré, le test Q de Dixon, le test de Grubb ou le diagramme de contrôle / comportement (en règle générale, X-bar R ou XmR). D'après mon expérience, lorsque vos données peuvent être ordonnées telles qu'elles ont été collectées, les diagrammes de comportement des processus détectent mieux les valeurs aberrantes que les tests des valeurs aberrantes. Cette utilisation des graphiques peut être quelque peu controversée, mais je pense que cela est tout à fait conforme à l'intention initiale de Shewhart et c'est une utilisation explicitement préconisée par Donald Wheeler. Que vous utilisiez les tests des valeurs aberrantes ou les tableaux de comportement du processus, rappelez-vous qu'une "valeur aberrante" détectée est simplement un signal de potentiella non-homogénéité qui doit encore être examinée. Il est rarement logique de jeter des points de données si vous ne pouvez pas expliquer pourquoi ils étaient des valeurs aberrantes.

Si vous utilisez R, le package outliers fournit les tests des valeurs aberrantes. Pour les diagrammes de comportement des processus, il existe qcc , IQCC et qAnalyst. J'ai une préférence personnelle pour l'utilisation et la sortie du paquet qcc.


2

Quand pourriez-vous vouloir le moyen?

Exemples de la finance:

  • Le retour des obligations:
    • Le rendement obligataire médian sera généralement de quelques points de pourcentage.
    • Le rendement moyen des obligations peut être faible ou élevé en fonction du taux de défaut et du recouvrement en cas de défaut. La médiane va ignorer tout ça!
    • Bonne chance en expliquant à vos investisseurs: "Je sais que notre fonds est en baisse de 40% cette année, car près de la moitié des obligations ont fait faillite sans reprise, mais notre obligation médiane a rapporté 1%!"
  • Retour de capital de risque:
    • Même chose en sens inverse. Le capital médian de VC ou d'ange est un échec, et tout le rendement provient de quelques gagnants! (Note latérale / avertissement: les estimations des rendements de capital-risque ou de capital d'investissement sont très problématiques ... soyez prudent!)

Lors de la constitution d'un portefeuille diversifié, en décidant dans quoi investir et dans quel montant, la moyenne et la covariance des rendements sont susceptibles de jouer un rôle de premier plan dans votre problème d'optimisation.


D'accord, mais il semble que la moyenne ou la médiane ne soit au centre des préoccupations dans aucune de ces situations: c'est plutôt que les totaux peuvent être les quantités clés. Naturellement, cela implique à son tour que cela signifie de meilleurs résumés que les médianes. Mais accepter que le rendement du lien médian puisse être une réponse idiote, mais est-ce que quelqu'un le propose?
Nick Cox

@ NickCox Deux commentaires. (1) Que le rendement du lien médian soit stupide est le point! Il y a une grande théorie dans ces réponses, mais je pensais qu'un exemple extrêmement simple pourrait ajouter de la couleur. Pour citer la réponse de Frank, "la moyenne est utilisée parce qu'elle est sensible aux données" et les rendements du portefeuille donnent une situation simple et compréhensible dans laquelle vous souhaiteriez cela. (2) La distinction entre se soucier du "total" et se soucier du "moyen" peut devenir assez nébuleuse. "Dois-je investir dans un hedge fund?" Pour répondre à cette question, j'aimerais peut-être savoir: "Quel est le rendement moyen des fonds de couverture?"
Matthew Gunn

1
(1) je suis d'accord, comme dit; Ma question est seulement de savoir si la médiane est mentionnée sérieusement dans la littérature d’enseignement ou de recherche à cette fin. (2) Je ne pense pas que mon propos soit nébuleux; c'est une simple question de ce qui vient en premier, c'est-à-dire qui présente un intérêt primordial dans la pratique. Je vois des titres "gangs emprisonnés pour un total de 200 ans" et je sais pourquoi ils sont imprimés, mais c’est quand même une étrange façon de résumer. Inversement, 200 victimes dans une série de catastrophes sont primaires, plutôt que 5 catastrophes avec une moyenne de 40 victimes dans chacune. Le (petit) problème consiste à choisir le résumé qui convient le mieux.
Nick Cox

@ NickCox Point pris. Je conviens que vous vous souciez du total de vos propres investissements. Cependant, lorsque vous créez un portefeuille et déterminez la pondération de celui-ci sur des titres spécifiques, vous allez prendre soin des propriétés du rendement de ce titre. Je ne vais pas acheter TOUTES les obligations municipales, je ne me soucie pas directement du total, mais je me soucie de la rentabilité moyenne d'une obligation municipale. Quelles sont les propriétés risque / rendement si j'en ajoutais quelques-unes à mon portefeuille?
Matthew Gunn

D'accord. C'est le territoire ici.
Nick Cox
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.