Aujourd'hui, j'ai enseigné une classe d'introduction à la statistique et un étudiant m'a posé une question que je reformule ici: "Pourquoi l'écart type est-il défini comme le carré de la variance et non comme le carré de la somme des carrés sur N?"
Nous définissons la variance de la population:
Et écart type: .
L'interprétation que nous pouvons donner à est qu'il donne l'écart moyen des unités de la population de la moyenne de la population de .
Cependant, dans la définition du sd, nous divisons le sqrt de la somme des carrés par . L'élève pose la question de savoir pourquoi nous ne divisons pas le carré du volume des carrés parplace. On arrive ainsi à la formule concurrente:
Je pensais que cette question n'était pas stupide. Je voudrais donner une réponse à l'étudiant qui va plus loin que de dire que le sd est défini comme sqrt de la variance qui est la déviation quadratique moyenne. Autrement dit, pourquoi l'élève devrait-elle utiliser la bonne formule et ne pas suivre son idée?
Cette question concerne un fil plus ancien et les réponses fournies ici . Les réponses vont dans trois directions:
- est la déviation quadratique moyenne (RMS), et non la déviation "typique" de la moyenne (c'est-à-dire, ). Ainsi, il est défini différemment.
- Il a de belles propriétés mathématiques.
- De plus, le sqrt ramènerait les "unités" à leur échelle d'origine. Cependant, ce serait également le cas pour , qui se divise par place.
Les deux points 1 et 2 sont des arguments en faveur du sd comme RMS, mais je ne vois pas d'argument contre l'utilisation de . Quels seraient les bons arguments pour convaincre les élèves du niveau d'introduction de l'utilisation de la distance RMS moyenne de la moyenne?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Serait-ce que ce qui se trouve à l'intérieur des parenthèses s'est en quelque sorte perdu dans la question?