La moyenne doit-elle être utilisée lorsque les données sont biaisées?


14

Souvent, les textes introductifs de statistiques appliquées distinguent la moyenne de la médiane (souvent dans le contexte des statistiques descriptives et motivent la synthèse de la tendance centrale en utilisant la moyenne, la médiane et le mode) en expliquant que la moyenne est sensible aux valeurs aberrantes dans les données d'échantillonnage et / ou à des distributions asymétriques de la population, ce qui est utilisé pour justifier une affirmation selon laquelle la médiane doit être préférée lorsque les données ne sont pas symétriques.

Par exemple:

La meilleure mesure de la tendance centrale pour un ensemble de données donné dépend souvent de la façon dont les valeurs sont réparties ... Lorsque les données ne sont pas symétriques, la médiane est souvent la meilleure mesure de la tendance centrale. Parce que la moyenne est sensible aux observations extrêmes, elle est tirée dans le sens des valeurs des données périphériques et, par conséquent, pourrait finir par se gonfler ou se dégonfler excessivement. "-
Pagano et Gauvreau, (2000) Principles of Biostatistics , 2e éd. (P&G était à portée de main, BTW, ne les distinguait pas en soi .)

Les auteurs définissent ainsi la «tendance centrale»: «La caractéristique la plus étudiée d'un ensemble de données est son centre, ou le point autour duquel les observations ont tendance à se regrouper».

Cela me semble être une façon moins que directe de dire n'utiliser que la médiane, point , car utiliser uniquement la moyenne lorsque les données / distributions sont symétriques revient à dire n'utiliser la moyenne que lorsqu'elle est égale à la médiane. Edit: whuber souligne à juste titre que je confond des mesures robustes de tendance centrale avec la médiane. Il est donc important de garder à l'esprit que je discute du cadrage spécifique de la moyenne arithmétique par rapport à la médiane dans les statistiques appliquées introductives (où, à part le mode, d'autres mesures de tendance centrale ne sont pas motivées).

Plutôt que de juger de l'utilité de la moyenne en fonction de son écart par rapport au comportement de la médiane, ne devrions-nous pas simplement les comprendre comme deux mesures différentes de la centralité? En d'autres termes, être sensible à l'asymétrie est une caractéristique de la moyenne. On pourrait tout aussi bien soutenir que "la médiane n'est pas bonne parce qu'elle est largement insensible à l'asymétrie, alors ne l'utilisez que lorsqu'elle est égale à la moyenne".

(Le mode ne se sent pas assez impliqué dans cette question.)


3
Personnellement, j'aime inclure les deux mesures, moyenne et médiane, qui donneront au lecteur non seulement quelques informations sur la tendance centrale, mais aussi une idée de la façon dont les données sont biaisées.
bdeonovic

1
Un certain contexte et des éclaircissements amélioreraient cette question. (1) Dans quel contexte ces textes d'introduction (hypothétiques) affirment-ils que la moyenne doit être préférée, et dans quel but? (2) Comment ces textes "jugent-ils exactement l'utilité de la moyenne par rapport à la médiane"? Pourriez-vous fournir un exemple ou un devis pour que nous puissions mieux comprendre?
whuber

2
À un moment donné, vous vous méprenez: la médiane n'est pas la seule statistique robuste à quelques observations extrêmes. Ainsi, la moyenne est indiquée sur la base d'une caractéristique (souvent) indésirable et non par comparaison avec la médiane. Mais je reçois également une lueur de votre inquiétude, et peut-être est-elle liée à la confusion implicite d'asymétrie et à l'existence de valeurs aberrantes qui se produit dans cette citation. C'est malheureusement mal conçu, car bien que le fait d'avoir des valeurs aberrantes implique parfois une asymétrie, l'inverse n'est pas souvent vrai.
whuber


2
À la lumière de la définition donnée à la "tendance centrale", il apparaît clairement pourquoi la moyenne ne serait pas une mesure utile en présence de biais ou de valeurs aberrantes. Que vous souhaitiez ou non vraiment estimer cette notion de tendance centrale semble être une autre affaire!
jsk

Réponses:


16

Je ne suis pas d'accord avec le conseil comme règle catégorique. (Ce n'est pas commun à tous les livres.)

Les problèmes sont plus subtils.

Si vous êtes réellement intéressé à faire des inférences sur la moyenne de la population, la moyenne de l'échantillon est au moins un estimateur non biaisé de celle-ci, et présente un certain nombre d'autres avantages. En fait, voir le théorème de Gauss-Markov - c'est le meilleur biais linéaire.

Si vos variables sont fortement asymétriques, le problème vient avec `` linéaire '' - dans certaines situations, tous les estimateurs linéaires peuvent être mauvais, donc les meilleurs d'entre eux peuvent toujours ne pas être attrayants, donc un estimateur de la moyenne qui n'est pas linéaire peut être meilleur , mais cela nécessiterait de connaître quelque chose (ou même beaucoup) sur la distribution. Nous n'avons pas toujours ce luxe.

Si vous n'êtes pas nécessairement intéressé par l'inférence relative à une moyenne de population (" quel est un âge typique? ", Disons ou s'il y a un changement de localisation plus général d'une population à une autre, qui pourrait être formulé en termes de n'importe quel emplacement, ou même d'un test d'une variable étant stochastiquement plus grande qu'une autre), en exprimant ensuite qu'en termes de population la moyenne n'est pas nécessaire ou probablement contre-productive (dans le dernier cas).

Je pense donc que cela revient à penser à:

  • quelles sont vos vraies questions? La population est-elle même une bonne chose à poser dans cette situation?

  • quelle est la meilleure façon de répondre à la question étant donné la situation (asymétrie dans ce cas)? Utiliser l'échantillon signifie-t-il la meilleure approche pour répondre à nos questions d'intérêt?

Il se peut que vous ayez des questions qui ne portent pas directement sur les moyennes de population, mais néanmoins les moyennes d'échantillonnage sont un bon moyen d'examiner ces questions ... ou vice versa - la question pourrait concerner les moyennes de population mais les moyennes d'échantillonnage pourraient ne pas être le meilleur moyen répondez à cette question.


14

Dans la vraie vie, nous devons choisir une mesure de tendance centrale basée sur ce que nous essayons de découvrir; et oui, parfois le mode est la bonne chose à utiliser. Parfois, c'est la moyenne Winsored ou Trimmed. Parfois, la moyenne géométrique ou harmonique. Parfois, il n'y a pas de bonne mesure de la tendance centrale.

Les livres d'introduction sont mal écrits, ils enseignent qu'il y a des règles de livre de cuisine à appliquer.

Prenez un revenu. Ceci est souvent très asymétrique et a parfois des valeurs aberrantes; bien sûr, nous voyons généralement un «revenu médian». Mais parfois, les valeurs aberrantes et l'asymétrie sont importantes. Cela dépend du contexte et nécessite une réflexion.

J'en ai écrit plus à ce sujet


2
Peter, merci beaucoup pour le lien vers votre message. Je souhaite que les textes d'introduction prennent 1 à 2 pages d'espace nécessaires pour fournir une réflexion aussi réfléchie que vous y avez fourni.
Alexis

4
Je n'en ai pas écrit mais je veux insérer une petite défense des textes introductifs. Tout texte introductif qui tenterait de donner une vision entièrement nuancée que les professionnels expérimentés reconnaîtraient comme tel serait critiqué par presque tous les destinataires visés; en fait, il ne serait même pas publié.
Nick Cox

5
Un commentaire de fond: lorsque les valeurs sont additives de telle sorte que les totaux ont un sens physique (par exemple), la moyenne est un résumé naturel quelle que soit la distribution des valeurs individuelles.
Nick Cox

3
@NickCox Je pense que les textes d'introduction peuvent faire beaucoup mieux qu'eux. Pour la moyenne et la médiane, ce n'est même pas un argument mathématique - c'est un argument de fond. Les textes d'introduction doivent dire à la personne qui les lit qu'ils ne sont pas vraiment qualifiés pour faire l'analyse des données.
Peter Flom - Réintègre Monica

2
@jsk. Ah d'accord. Je pense qu'ils doivent être expliqués explicitement dans les statistiques parce que beaucoup de gens semblent penser qu'ils sont prêts après un cours en analyse de données; en effet, dans de nombreux domaines (psychologie, sociologie, médecine, etc.), les personnes sont censées faire l'analyse des données après seulement 1, 2 ou parfois 3 cours. Dans les programmes de doctorat, par exemple, ils sont censés rédiger des mémoires. Pourquoi est-ce plus évident dans d'autres domaines? Je ne suis pas sûr.
Peter Flom - Réintègre Monica

6

Même lorsque les données sont biaisées (par exemple, les coûts des soins de santé calculés parallèlement à un essai clinique, où peu de patients ont coûté zéro parce qu'ils meurent juste après l'inscription, et peu de patients ont accumulé des tonnes de coûts en raison des effets secondaires d'un programme de soins de santé donné sous enquête ), la moyenne peut être préférée à la médiane pour au moins une raison pratique: la multiplication du coût moyen du nombre de patients donne aux décideurs des soins de santé l'impact budgétaire de la technologie des soins de santé à l'étude.


Reprenant le commentaire de Carlo: si vous êtes intéressé par un total de population (par exemple, par échantillonnage d'audit), alors vous êtes intéressé par la moyenne, période. Si la distribution est asymétrique ou sujette aux valeurs aberrantes, il vous suffit de la gérer. Vous ne pouvez pas Winsorize, rogner, sinon supprimer les valeurs aberrantes ou enregistrer la transformation. La stratification peut grandement aider; dans le cas de valeurs aberrantes extrêmes, celles-ci doivent être considérées comme des strates pour elles-mêmes.
Peter Westfall

3

Je pense que ce qui manque à la question ainsi qu'aux deux réponses jusqu'à présent, c'est que la discussion de la moyenne par rapport à la médiane dans les livres de statistiques d'introduction se produit généralement au début d'un chapitre sur la façon de résumer numériquement une distribution. Contrairement aux statistiques inférentielles, il s'agit généralement de produire des statistiques descriptives qui seraient un moyen utile de transmettre des informations sur la distribution des données numériquement plutôt que graphiquement. Le contexte dans lequel cela se produit est la section des statistiques descriptives d'un rapport ou d'un article de journal dans laquelle il n'y a généralement pas de place pour les résumés graphiques de toutes les variables de votre ensemble de données. Si la distribution est asymétrique, il semble judicieux dans ce contexte de choisir la médiane plutôt que la moyenne. Si la distribution est symétrique sans valeurs aberrantes,


1
Votre point sur les statistiques descriptives et inférentielles vaut la peine. Mais vous dites effectivement (pour les statistiques descriptives) "n'utilisez la moyenne que lorsqu'elle est identique à la médiane". Si la distribution est biaisée, la médiane représente mal le concept de la per capita , n'est-ce pas? N'est-il pas tout aussi valable de prendre la position "n'utiliser la médiane que lorsqu'elle est égale à la moyenne?" C'est tout aussi arbitraire et semble détourner l'attention du sens substantiel de ces mesures (pour les personnes qui les apprennent).
Alexis

1
Le but n'est pas de représenter le concept de per capita? Dit qui? Pourquoi présupposer que ce n'est pas le but?
Alexis

1
Je ne vois aucune grossièreté ou "agir choqué" venant de l'OP ... juste dire ...
Nick Stauner

1
Je ne vois pas que cela importe si vous faites des statistiques inférentielles ou descriptives dans ce cas. Si la mesure descriptive appropriée de la tendance centrale est la médiane, il faut alors tirer des conclusions sur la médiane; si la moyenne, alors la moyenne. Si aucune mesure descriptive n'a de sens, alors aucune mesure inférentielle n'aura de sens non plus.
Peter Flom - Réintègre Monica

1
@PeterFlom Qu'en est-il dans les cas où l'objectif final n'est pas l'inférence? Je conviens que la pertinence d'une statistique descriptive dépend entièrement de la raison de la production de la statistique. L'idée qu'il est possible qu '"aucune mesure descriptive n'a de sens" semble impliquer qu'une statistique descriptive ne peut pas être intrinsèquement significative. Je dirais que dans presque tous les cas, la médiane a un sens en tant que mesure du centre de la distribution par définition. Que cela ait du sens ou non à d'autres fins est une autre question.
jsk
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.