Je ne suis pas sûr que ce soit un problème purement américain contre britannique. Le reste de cette page est extrait d'une FAQ que j'ai écrite ( http://www.graphpad.com/faq/viewfaq.cfm?faq=1383 ).
Comment calculer la SD avec n-1 dans le dénominateur
Calculez le carré de la différence entre chaque valeur et la moyenne de l'échantillon.
Ajoutez ces valeurs.
Divisez la somme par n-1. Le résultat est appelé la variance.
Prenez la racine carrée pour obtenir l'écart-type.
Pourquoi n-1?
Pourquoi diviser par n-1 plutôt que n lors du calcul d'un écart-type? À l'étape 1, vous calculez la différence entre chaque valeur et la moyenne de ces valeurs. Vous ne connaissez pas la véritable moyenne de la population; tout ce que vous savez, c'est la moyenne de votre échantillon. À l'exception des rares cas où la moyenne de l'échantillon est égale à la moyenne de la population, les données seront plus proches de la moyenne de l'échantillon que de la vraie moyenne de la population. Ainsi, la valeur que vous calculez à l'étape 2 sera probablement un peu plus petite (et ne peut pas être plus grande) que ce qu'elle serait si vous utilisiez la moyenne réelle de la population à l'étape 1. Pour compenser cela, divisez par n-1 plutôt que nv C'est ce qu'on appelle la correction de Bessel.
Mais pourquoi n-1? Si vous connaissiez la moyenne de l'échantillon et toutes les valeurs sauf une, vous pourriez calculer quelle doit être cette dernière valeur. Les statisticiens disent qu'il y a n-1 degrés de liberté.
Quand la SD doit-elle être calculée avec un dénominateur de n au lieu de n-1?
Les livres de statistiques montrent souvent deux équations pour calculer la SD, l'une en utilisant n et l'autre en utilisant n-1, dans le dénominateur. Certaines calculatrices ont deux boutons.
L'équation n-1 est utilisée dans la situation courante où vous analysez un échantillon de données et souhaitez tirer des conclusions plus générales. Le SD calculé de cette façon (avec n-1 dans le dénominateur) est votre meilleure estimation de la valeur du SD dans la population globale.
Si vous souhaitez simplement quantifier la variation dans un ensemble particulier de données et ne prévoyez pas d'extrapoler pour tirer des conclusions plus larges, vous pouvez calculer la SD en utilisant n dans le dénominateur. Le SD résultant est le SD de ces valeurs particulières. Cela n'a aucun sens de calculer la SD de cette façon si vous voulez estimer la SD de la population à partir de laquelle ces points ont été tirés. Cela n'a de sens d'utiliser n dans le dénominateur que lorsqu'il n'y a pas d'échantillonnage d'une population, il n'y a pas de désir de tirer des conclusions générales.
Le but de la science est presque toujours de généraliser, donc l'équation avec n au dénominateur ne doit pas être utilisée. Le seul exemple auquel je peux penser où cela pourrait avoir un sens est de quantifier la variation entre les résultats des examens. Mais beaucoup mieux serait de montrer un nuage de points de chaque score, ou un histogramme de distribution de fréquence.