Comprendre intuitivement la «variance»


81

Quel est le moyen le plus simple et le plus simple d’expliquer le concept de variance à une personne? Qu'est-ce que cela signifie intuitivement? Si on doit expliquer cela à leur enfant, comment s'y prendrait-on?

C’est un concept que j’ai du mal à articuler - en particulier lorsque l’on fait le lien entre variance et risque. Je le comprends mathématiquement et je peux l'expliquer aussi. Mais lorsque vous expliquez des phénomènes réels, comment pouvez-vous faire comprendre la variance et son applicabilité dans le "monde réel", pour ainsi dire.

Supposons que nous simulons un investissement dans une action en utilisant des nombres aléatoires (lancer un dé ou utiliser une feuille Excel, peu importe). Nous obtenons un «retour sur investissement» en associant chaque instance de la variable aléatoire à «un changement» dans le retour. Par exemple.:

Lancer un 1 implique un changement de 0,8 par dollar investi, un 5 un changement de 1,1 par dollar et ainsi de suite.

Maintenant, si cette simulation est exécutée environ 50 fois (ou 20 ou 100), nous obtiendrons des valeurs et la valeur finale de l'investissement. Alors, que dit la «variance» si nous devions la calculer à partir de l'ensemble de données ci-dessus? Que voit-on "- Si la variance s'avère être 1,7654 ou 0,88765 ou 5,2342, qu'est-ce que cela signifie même? Qu'est-ce que je peux observer sur cet investissement? Quelles conclusions puis-je tirer - en termes simples?

N'hésitez pas à augmenter la question avec celle de l'écart type également! Bien que j’ai le sentiment que c’est «plus facile» à comprendre, mais quelque chose qui contribuerait à le rendre aussi «intuitivement» clair serait grandement apprécié!


3
Ne devrions-nous pas fusionner cette question avec la même que celle posée l'an dernier?
whuber

1
@ Whuber Je pense que ceux-ci devraient être fusionnés. Avoir plusieurs fois la même question (même si ici le contexte est différent) réduit la qualité moyenne des réponses.
robin girard

2
Je suis d'accord avec le fusionnement mais je sais comment calculer la variance et son utilisation aussi dans les statistiques. Je veux pouvoir exprimer ce concept à des personnes qui n'en sauraient rien et cela prend beaucoup de temps pour le faire, d'où la question. L'intention est assez différente de la question sur le DD, à mon humble avis
PhD

2
Je pense qu'aucun d'entre vous ne fait un très bon travail pour répondre à cela d'une manière compréhensible pour un profane. Je vois beaucoup d’hypothèses et presque chaque réponse se termine par quelque chose qui doit être interprété. Je ne me plains pas, j'essaie juste de le souligner. Moi aussi, je ne peux pas répondre à la question simplement. Peut-être que c'est trop difficile?

Je ne pense pas que l’une des réponses ci-dessous ait répondu à la question. La question, telle que je l’interprète, concerne plutôt la variance en tant que nombre, quand est-elle considérée comme grande ou petite. La réponse ci-dessous, par exemple, aborde la question de ce que signifie variance grande vs variance moyenne. Si je vous donne un jeu de données que vous ne pouvez pas raisonnablement visualiser, de sorte que vous devez vous fier aux chiffres, comment pouvez-vous savoir si la variance est grande / petite?
user31415

Réponses:


70

J'utiliserais probablement une analogie similaire à celle que j'ai appris à donner aux «laïcs» lors de l'introduction du concept de biais et de variance: l'analogie du jeu de fléchettes. Voir ci-dessous:

entrez la description de l'image ici

L'image ci-dessus, tirée de l' Encyclopedia of Machine Learning , est référencée dans "Introduction à la pratique de la statistique" de Moore et McCabe .

MODIFIER:

Voici un exercice qui, à mon avis, est plutôt intuitif: prenez un jeu de cartes (sorti de la boîte) et déposez-le d’une hauteur d’environ 1 pied. Demandez à votre enfant de ramasser les cartes et de vous les rendre. Ensuite, au lieu de laisser tomber le paquet, jetez-le aussi haut que possible et laissez les cartes tomber au sol. Demandez à votre enfant de ramasser les cartes et de vous les rendre.

Le plaisir relatif qu’ils ont lors des deux essais devrait leur donner une impression intuitive de la variance :)


1
Alors, qu'est-ce que cela signifie? Si quelqu'un voyait la variance statistique des fléchettes au tableau, que concluraient-ils? Qu'est-ce que cela signifie d'avoir intuitivement une variance faible / élevée ...
PhD

1
Je dirais quelque chose comme: Disons que nous avons lancé 4 fléchettes. Le nombre de mains nécessaires pour retirer les fléchettes du plateau augmente en même temps que la variance de la position des fléchettes augmente (Remarque: argument très informel dans la mesure où il existe un certain nombre de contre-exemples, tels que le regroupement de 3 fléchettes et la dernière sur le mur à 3 pieds du tableau de charge).

2
Votre diagramme semble également faire écho à la manière classique de distinguer précision et exactitude! Ça vient de me frapper!
PhD

2
AAAAAAAAAAAH! Bel exercice! Bon moyen de montrer à quelqu'un ce que signifie avoir une variance faible / élevée! La distance moyenne de la valeur moyenne (moyenne) des points de données :)
Doctorat

2
(+1) Le jeu de fléchettes analogique permettant de démontrer la différence entre biais et variance est tout simplement génial
steffen

36

J'avais l'habitude d'enseigner les statistiques à un profane par des blagues et j'ai découvert qu'ils apprenaient beaucoup.

Supposons que, pour la variance ou l'écart type, la blague suivante soit très utile:

Blague

Une fois que deux statisticiens de hauteur 4 pieds et 5 pieds doivent traverser une rivière de profondeur MOYENNE 3 pieds. Pendant ce temps, un troisième statisticien vient et dit: "Qu'est-ce que tu attends? Tu peux facilement traverser la rivière"

Je suppose que le profane connaît le terme «moyen». Vous pouvez également leur poser la même question: traverseraient-ils la rivière dans cette situation?

Qu'est-ce qui leur manque, c'est de la "variance" pour décider "que faire dans la situation?"

Il s’agit de vos compétences de présentation. Cependant, les blagues aident beaucoup le profane qui veut comprendre les statistiques. J'espère que ça aide!


1
Peut - être que je ne suis pas bon avec des blagues statistiques (je suis tout à fait bien avec les autres cependant :). Mais je ne pense pas comprendre ce que l’on entend par "que faire dans la situation"? Que doit-on faire exactement s'ils ont une idée de la variance? Comment doit-on l'interpréter?
PhD

6
@Nupul: En fait, "que faire dans la situation" signifie qu'ils traversent une rivière ou non? Si vous connaissez la variance (ou l'écart type), vous pouvez le décider facilement. Supposons que la variance soit égale à 0,25 (écart-type = 0,5), ils peuvent alors traverser la rivière en toute sécurité, car leur plage d'intervalle (ne confondez pas ceci avec un intervalle de confiance (IC)) est égale à 3 + 0,5 ou 3-0,5 et leurs hauteurs sont 4 et 5. Si la variance 4 est donc préférable de ne pas traverser la rivière. Au fait, amusez-vous bien ici stats.stackexchange.com/questions/1337/statistics-jokes
Biostat

Parfait! J? ai compris! :) Cela a du sens. En fait, combiner les réponses de différentes personnes m'aide à mieux comprendre la compréhension ...
PhD

Ou, si les requins ne mangent pas «en moyenne» les gens, c'est peu réconfortant s'ils sont de mauvaise humeur (comportement très variable). Dans l'analogie de la rivière, il s'agit de savoir si vous allez faire un pas qui vous mettra au dessus de votre tête.
Dean Radcliffe

12

Je me concentrerais sur l’écart type plutôt que sur la variance; la variance est sur la mauvaise échelle.

Tout comme la moyenne est une valeur typique, le SD est une différence typique (absolue) par rapport à la moyenne. Ce n'est pas différent de plier la distribution à la moyenne et de prendre celle-ci.


1
D'accord. Disons que nous nous concentrons sur le développement durable. Ma question est toujours de savoir comment faire comprendre intuitivement le développement durable à quelqu'un d'autre que «un niveau élevé de SD ne semble pas bon » ... comment pourrais-je expliquer le développement durable à un profane, puisqu'il s'agit de la racine carrée de la variance !!!
PhD

@Nupul - Lisez mon deuxième paragraphe: J'expliquerais le DS comme la différence typique par rapport à la moyenne.
Karl

4
"Ce n'est pas différent de plier la distribution à la moyenne et de prendre la moyenne de celle-ci." Ce commentaire, comme le reste de votre message, semble décrire l’écart absolu moyen et non l’écart-type.
Macro

3
@ Macro - oui; en essayant d'expliquer le SD, je l'approcherais par le MAD. Je pense qu'il vaut mieux ne pas chicaner sur la valeur absolue de la racine carrée par rapport à la valeur absolue moyenne.
Karl

7

Je suis en désaccord avec beaucoup de réponses préconisant aux gens de penser simplement que la variance est étendue. Comme les gens intelligents (Nassim Taleb) l'ont souligné, lorsque les gens pensent que la variance est étendue, ils supposent qu'il s'agit de MAD.

La variance est une description de la distance qui sépare les membres de la moyenne ET détermine l'importance de chaque observation par cette même distance. Cela signifie que les observations lointaines sont jugées de manière plus importante. D'où des carrés.

Je pense que la variance d'une variable uniforme continue est la plus facile à imaginer. Chaque observation peut avoir un carré dessiné. L'empilement de ces carrés crée une pyramide. Couper la pyramide en deux pour que la moitié du poids soit dans un côté et la moitié dans l'autre. Le visage où vous coupez est la variance.


2
Je ne sais pas pourquoi cette réponse n'a pas été plus votée. La remarque faite dans le deuxième paragraphe est cruciale pour comprendre la variance et la différencier de MAD, ce qui, comme il a été correctement souligné, est ce à quoi les gens pensent intuitivement quand on leur parle de "mesure de propagation". Et il n’est pas inconcevable pour un profane de comprendre l’idée que le poids attribué à la distance d’un point par rapport à la moyenne ne croît pas de manière linéaire, même s’ils ne comprennent pas les carrés mathématiquement.
Jeremy Radcliff

3
"MAD" = fr.wikipedia.org/wiki/Median_absolute_deviation pour ceux qui se demandent. Je ne pense pas que de tels acronymes devraient être supposés connaître sur une question comme celle-ci.

5

Peut-être que cela pourrait aider. Je m'excuse par avance de m'avoir mal compris en tant qu'amateur complet.

Imaginez que vous demandez à 1 000 personnes de deviner le nombre de haricots dans un bocal rempli de bonbons haricots. Imaginez maintenant que vous n’êtes pas nécessairement intéressé à connaître la bonne réponse (ce qui peut être utile) mais que vous souhaitez mieux comprendre comment les gens l’estiment.

La variance pourrait être expliquée à un profane comme la dispersion de réponses différentes (du plus élevé au plus faible). Vous pouvez continuer en ajoutant que si suffisamment de personnes devaient être interrogées, la réponse correcte devrait se situer quelque part au milieu de la propagation des commentaires des invités.

Je me réfère maintenant à certains de mes collègues les plus estimés pour l'arbitrage


5

J'étais en train d'essayer de décrypter la variance et ce qui l'a finalement mis en place, c'est de l'examiner graphiquement.

Supposons que vous tracez une droite numérique avec quatre points, -7, -1, 1 et 7. Dessinez maintenant un axe Y imaginaire avec les mêmes quatre points le long de la dimension Y, et utilisez les paires XY pour tracer le carré de chaque paire. de points. Vous vous retrouvez avec quatre carrés distincts composés de 49, 1, 1 et 49 plus petits carrés chacun. Chacun d’entre eux contribue à la somme globale des carrés qui, elle-même, peut être représentée par un grand carré de 10 x 10 avec 100 carrés plus petits.

La variance est la taille du carré moyen contribuant à ce carré plus grand. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Donc, 25 serait la variance. L’écart type serait la longueur d’un des côtés de ce carré moyen, ou 5.

Évidemment, cette analogie ne couvre pas toute la nuance du concept de variance. Il y a beaucoup de choses à expliquer, par exemple pourquoi nous utilisons souvent un dénominateur de n-1 pour estimer le paramètre de population, au lieu d'utiliser simplement n. Mais en tant que concept de base pour rattacher le reste d'une compréhension détaillée de la variance à, le dessiner simplement de manière à ce que je puisse voir que cela aide énormément. Cela aide à comprendre ce que nous voulons dire lorsque nous disons que la variance est l’écart quadratique moyen par rapport à la moyenne. Cela aide également à comprendre quelle relation a le SD avec cette moyenne.


1
Bienvenue dans la validation croisée! J'aime l'approche, mais il serait peut-être encore plus utile de souligner que les points sont répartis «autour de zéro» (c'est-à-dire qu'ils ont une moyenne nulle) et que vous mesurez la propagation par rapport à un «atome» situé à cet endroit. (+1) et j'ai hâte de voir d'autres réponses de votre part!
Matt Krause

4

Pratiquez beaucoup d’enseignement aux non-spécialistes sur l’écart type et la variance.

TL; DR; C'est à peu près comme la moyenne des distances par rapport à la moyenne. (ce qui est un peu déroutant et trompeur dans une telle version concise. Alors lisez l'article complet)

Je suppose qu'un profane connaît la moyenne. Je parle d’importance de connaître le DD et d’estimer les erreurs (voir PS ci-dessous). Ensuite, je vous promets qu'aucune connaissance en mathématiques élevées ou en statistiques sacrées ne sera utilisée - juste un raisonnement aride et une logique pure.

  1. Le problème. Disons que nous avons un thermomètre (je choisis un appareil de mesure en fonction de ce qui est le plus proche de l'auditif).

    Nous avons fait N mesures de la même température et le thermomètre nous a montré quelque chose comme 36,5, 35,9, 37,0, 36,6, ... (voir la photo). Nous savons que la température réelle était la même, mais le thermomètre nous repose un peu à chaque mesure.

    Comment pouvons-nous estimer combien cette petite racaille nous ment?

    Nous pouvons calculer la moyenne (voir la ligne rouge sur l'image ci-dessous). Pouvons-nous le croire? Même après la moyenne, a-t-il assez de précision pour nos besoins?

    Les valeurs du thermomètre et leur moyenne

  2. L'approche la plus facile . Nous pouvons prendre le point le plus éloigné, calculer la distance qui le sépare de la moyenne (ligne rouge) et dire que c’est ainsi que nous trouve le thermomètre, car c’est l’erreur maximale que nous voyons. On pourrait deviner, ce n'est pas la meilleure estimation. Si nous regardons la photo, la plupart des points se situent autour de la moyenne, comment pouvons-nous décider d'un seul point? En réalité, on peut s'exercer à la numérotation pour des raisons qui rendent cette estimation approximative et généralement mauvaise.

  3. La variance . Ensuite ... prenons toutes les distances et calculons la distance moyenne !

    (xix¯)x¯xi

    On pourrait alors imaginer que la formule de distance moyenne résumerait tout et serait divisée par N:

    (xix¯)N

    Mais il y a un problème. Nous pouvons facilement voir, par exemple. que 36,4 et 36,8 sont à la même distance de 36,6. mais si nous mettons les valeurs dans la formule ci-dessus, nous obtenons -0,2 et +0,2, et leur somme est égale à 0, ce qui n'est pas ce que nous voulons.

    Comment se débarrasser du signe? (À ce stade, les non-initiés disent généralement "Prendre une valeur absolue" et suggèrent que "prendre une valeur absolue est un peu artificiel, quelle est une autre manière?"). Nous pouvons concilier les valeurs! Alors la formule devient:

    (xix¯)2N

    Cette formule s'appelle "Variance" en statistique. Et il est beaucoup plus judicieux d'estimer l'étendue de nos valeurs de thermomètre (ou autre) que de simplement prendre la distance maximale.

  4. Écart type . Mais il reste encore un problème. Regardez la formule de la variance. Les carrés font nos unités de mesure ... au carré. Si le thermomètre mesure la température en ° C (ou ° F), notre estimation d'erreur est mesurée en (ou ). Comment neutraliser les carrés? - Utilise la racine carrée! ° F 2°C2°F2

    (xix¯)2N

    Nous arrivons donc à la formule de déviation standard qui est communément notée . Et c’est le meilleur moyen d’estimer la précision de nos appareils.σ

À ce stade, un profane comprend très bien comment nous arrivons ici et comment fonctionne l'écart-type / variance. À partir de ce moment, je passe généralement à la règle 68-95-99.7, décrivant également les termes concernant l’échantillonnage et la population, l’erreur type et les termes de déviation standard, etc.

PS Importance de connaître un exemple de discours sur le DD

Disons que vous avez un appareil de mesure qui coûte 1 000 000 $ . Et cela vous donne la réponse: 42. Pensez-vous qu’on a payé 1 000 000 $ pour 42? Phooey! On a payé 1000 000 pour la précision de cette réponse. Parce que Value - ne coûte rien sans connaître son erreur. Vous payez pour l'erreur, pas la valeur. Voici un bon exemple de vie.

Dans la vie courante, nous utilisons la plupart du temps une règle pour mesurer une distance. La règle vous donne une précision d'environ un millimètre (si vous n'êtes pas aux États-Unis). Et si vous deviez dépasser le millimètre et mesurer quelque chose avec une précision de 0.1mm? - Vous utiliseriez probablement un pied à coulisse. Maintenant, il est facile de vérifier qu’une règle la moins chère (mais toujours avec une précision millimétrique) coûte centimes, alors qu'un bon pied à coulisse coûte un dixième de dollar. 2 magnitudes d'un prix pour 1 magnitude de la précision. Et c'est très habituel de combien vous payez pour une erreur.


2

Je pense que l'expression clé à utiliser pour expliquer à la fois la variance et l'écart type est "mesure de la dispersion" . Dans la langue la plus élémentaire, la variance et l'écart type nous indiquent à quel point les données sont bien réparties. Pour être un peu plus précis, même s'ils s'adressent toujours au profane, ils nous disent à quel point les données sont bien réparties autour de la moyenne. En passant, notez que la moyenne est une "mesure de localisation" . Pour conclure l'explication au profane, il convient de souligner que l'écart type est exprimé dans les mêmes unités que les données avec lesquelles nous travaillons et que c'est pour cette raison que nous prenons la racine carrée de la variance. c'est-à-dire que les deux sont liés.

Je pense que cette brève explication ferait l'affaire. C'est probablement un peu similaire à une explication de manuel d'introduction de toute façon.



-2

J'appellerais cela la différence positive moyenne par rapport à la moyenne globale.


1
Tant que vous ne préciserez pas les deux types de "moyenne" que vous entendez (le premier est la moyenne et le second est la moyenne arithmétique), il est presque certain que votre déclaration sera interprétée de manière à la rendre incorrecte. De plus, le terme "différence positive" est étrange et ambigu: voulez-vous considérer uniquement les résidus positifs? Ou prendre les valeurs absolues des résidus? Ou autre chose? L2
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.