Qu'est-ce qu'un écart-type, comment est-il calculé et quelle est son utilisation en statistique?
Qu'est-ce qu'un écart-type, comment est-il calculé et quelle est son utilisation en statistique?
Réponses:
L'écart type est un nombre qui représente la «dispersion» ou la «dispersion» d'un ensemble de données. Il existe d'autres mesures de propagation, comme la portée et la variance.
Voici quelques exemples d'ensembles de données et leurs écarts-types:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Les ensembles de données ci-dessus ont la même moyenne.
La déviation signifie "distance de la moyenne".
"Standard" signifie ici "standardisé", ce qui signifie que l'écart-type et la moyenne sont dans les mêmes unités, contrairement à la variance.
Par exemple, si la hauteur moyenne est de 2 mètres , l'écart type pourrait être de 0,3 mètre , tandis que la variance serait de 0,09 mètre carré .
Il est pratique de savoir qu'au moins 75% des points de données se situent toujours à moins de 2 écarts-types de la moyenne (ou environ 95% si la distribution est normale).
Par exemple, si la moyenne est de 100 et que l'écart-type est de 15, alors au moins 75% des valeurs se situent entre 70 et 130.
Si la distribution se trouve être normale, 95% des valeurs se situent entre 70 et 130.
De manière générale, les résultats des tests de QI sont normalement distribués et ont une moyenne de 100. Une personne «très brillante» a deux écarts-types au-dessus de la moyenne, ce qui signifie un score de test de QI de 130.
Une citation de Wikipedia .
Il montre combien il y a de variation par rapport à la "moyenne" (moyenne ou valeur attendue / budgétée). Un écart-type faible indique que les points de données ont tendance à être très proches de la moyenne, tandis qu'un écart-type élevé indique que les données sont réparties sur une large plage de valeurs.
Lorsque nous décrivons une variable, nous la résumons généralement à l'aide de deux mesures: une mesure du centre et une mesure de l'écart. Les mesures courantes du centre incluent la moyenne, la médiane et le mode. La mesure courante de la propagation comprend la variance et la plage interquartile.
La variance (représentée par le sigma grec en minuscules élevé à la puissance deux) est couramment utilisée lorsque la moyenne est indiquée. La variance est l'écart quadratique moyen de la variable. L'écart est calculé en soustrayant la moyenne de chaque observation. Ceci est mis au carré car la somme serait autrement nulle et la mise au carré élimine ce problème tout en conservant la taille relative des écarts. Le problème avec l'utilisation de la variation comme mesure de l'écart est qu'elle est exprimée en unités carrées. Par exemple, si notre variable d'intérêt était la hauteur mesurée en pouces, la variance serait rapportée en pouces carrés, ce qui n'a guère de sens. L'écart type (représenté par le sigma grec en minuscules) est la racine carrée de la variance et renvoie la mesure de l'écart aux unités d'origine.
Lors de l'utilisation de l'écart-type, il faut faire attention aux valeurs aberrantes car elles biaiseront l'écart-type (et la moyenne) car elles ne sont pas des mesures résistantes de propagation. Un exemple simple illustrera cette propriété. La moyenne de mes terribles scores au bâton de cricket de 13, 14, 16, 23, 26, 28, 33, 39 et 61 est 28,11. Si nous considérons que 61 est une valeur aberrante et que nous l'avons supprimé, la moyenne serait de 24.
Voici comment je répondrais à cette question en utilisant un diagramme.
Disons que nous pesons 30 chats et calculons le poids moyen. Ensuite, nous produisons un nuage de points, avec le poids sur l'axe y et l'identité du chat sur l'axe x. Le poids moyen peut être tracé sous forme de ligne horizontale. Nous pouvons ensuite tracer des lignes verticales qui relient chaque point de données à la ligne moyenne - ce sont les écarts de chaque point de données par rapport à la moyenne, et nous les appelons des résidus. Maintenant, ces résidus peuvent être utiles car ils peuvent nous dire quelque chose sur la propagation des données: s'il y a beaucoup de gros résidus, alors les chats varient beaucoup en masse. Inversement, si les résidus sont principalement faibles, les chats sont assez étroitement regroupés autour du poids moyen. Donc, si nous pouvions avoir une métrique qui nous indique la moyennela longueur d'un résidu dans cet ensemble de données, ce serait un moyen pratique de dénoter l'étendue de la propagation dans les données. L'écart type est, en fait, la longueur du résidu moyen.
Je poursuivrais dans la même veine en donnant le calcul de sd, en expliquant pourquoi nous établissons une racine carrée puis carrée (j'aime l'explication courte et douce de Vaibhav). Je mentionnerais ensuite les problèmes des valeurs aberrantes, comme le fait Graham dans son dernier paragraphe.
Si l'information requise est la distribution de données sur la moyenne, l'écart-type est utile.
La somme de la différence de chaque valeur par rapport à la moyenne est nulle (évidemment, étant donné que la valeur est uniformément répartie autour de la moyenne), nous quadrillons donc chaque différence de manière à convertir les valeurs négatives en positives, à les additionner à l'ensemble de la population et à prendre leur racine carrée. Cette valeur est ensuite divisée par le nombre d'échantillons (ou la taille de la population). Cela donne l'écart type.
Un écart type est la racine carrée du deuxième moment central d'une distribution. Un moment central est la différence attendue de la valeur attendue de la distribution. Un premier moment central serait généralement égal à 0, nous définissons donc un deuxième moment central comme la valeur attendue de la distance au carré d'une variable aléatoire par rapport à sa valeur attendue.
Pour le mettre sur une échelle plus conforme aux observations originales, nous prenons la racine carrée de ce deuxième moment central et nous l'appelons l'écart type.
L'écart type est une propriété d'une population. Il mesure la «dispersion» moyenne de cette population. Toutes les obsrvations sont-elles regroupées autour de la moyenne ou sont-elles largement réparties?
Pour estimer l'écart type d'une population, nous calculons souvent l'écart type d'un «échantillon» de cette population. Pour ce faire, vous prenez des observations de cette population, calculez une moyenne de ces observations, puis calculez la racine carrée de l'écart quadratique moyen par rapport à cette «moyenne de l'échantillon».
Pour obtenir un estimateur non biaisé de la variance, vous ne calculez pas réellement l'écart quadratique moyen à partir de la moyenne de l'échantillon, mais vous divisez plutôt par (N-1) où N est le nombre d'observations dans votre échantillon. Il est à noter que cet "écart-type de l'échantillon" n'est pas un estimateur sans biais de l'écart-type, mais le carré de "l'écart-type de l'échantillon" est un estimateur sans biais de la variance de la population.
La meilleure façon dont j'ai compris l'écart-type est de penser à un coiffeur! (Vous devez collecter des données auprès d'un coiffeur et faire la moyenne de sa vitesse de coupe pour que cet exemple fonctionne.)
Il faut en moyenne 30 minutes au coiffeur pour couper les cheveux d'une personne.
Supposons que vous fassiez le calcul (la plupart des progiciels le feront pour vous) et que vous constatiez que l'écart type est de 5 minutes. Cela signifie ce qui suit:
Comment le sais-je? Vous devez regarder la courbe normale, où 68% se situe dans 1 écart-type et 96% se situe dans 2 écarts-types de la moyenne (dans ce cas, 30 minutes). Vous ajoutez ou soustrayez donc l'écart-type de la moyenne.
Si la cohérence est souhaitée, comme dans ce cas, alors plus l'écart-type est petit, mieux c'est. Dans ce cas, le coiffeur passe un maximum d'environ 40 minutes avec un client donné. Vous devez couper les cheveux rapidement afin de gérer un salon avec succès!