Je suis un noob en statistiques, alors pourriez-vous m'aider ici.
Ma question est la suivante: que signifie réellement la variance groupée ?
Lorsque je recherche une formule pour la variance groupée sur Internet, je trouve beaucoup de littérature utilisant la formule suivante (par exemple ici: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
Mais que calcule-t- il réellement ? Parce que lorsque j'utilise cette formule pour calculer ma variance groupée, cela me donne une mauvaise réponse.
Par exemple, considérez ces «échantillon parent»:
La variance de cet échantillon parent est , et sa moyenne est .
Supposons maintenant que je divise cet échantillon parent en deux sous-échantillons:
- Le premier sous-échantillon est 2,2,2,2,2 avec une moyenne et une variance .
- Le deuxième sous-échantillon est 8,8,8,8,8 avec une moyenne et une variance .
Maintenant, clairement, l'utilisation de la formule ci-dessus pour calculer la variance regroupée / parent de ces deux sous-échantillons produira zéro, car et . Alors, que calcule réellement cette formule ?
D'un autre côté, après une longue dérivation, j'ai trouvé que la formule qui produit la variance pool / parent correcte est:
Dans la formule ci-dessus, et .d 2 = ¯ x 2 - ˉ x p
J'ai trouvé une formule similaire avec la mienne, par exemple ici: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html et également sur Wikipedia. Bien que je dois admettre qu'ils ne ressemblent pas exactement aux miens.
Encore une fois, que signifie réellement la variance groupée? Cela ne devrait-il pas signifier la variance de l'échantillon parent des deux sous-échantillons? Ou je me trompe complètement ici?
Merci d'avance.
EDIT 1: Quelqu'un dit que mes deux sous-échantillons ci-dessus sont pathologiques car ils ont une variance nulle. Eh bien, je pourrais vous donner un exemple différent. Considérez cet exemple parent:
La variance de cet échantillon parent est , et sa moyenne est .
Supposons maintenant que je divise cet échantillon parent en deux sous-échantillons:
- Le premier sous-échantillon est 1,2,3,4,5 avec une moyenne et une variance .
- Le deuxième sous-échantillon est 46,47,48,49,50 avec une moyenne et une variance .
Maintenant, si vous utilisez la «formule de la littérature» pour calculer la variance groupée, vous obtiendrez 2,5, ce qui est complètement faux, car la variance parent / groupée devrait être de 564,7. Au lieu de cela, si vous utilisez "ma formule", vous obtiendrez une réponse correcte.
Veuillez comprendre, j'utilise ici des exemples extrêmes pour montrer aux gens que la formule est vraiment fausse. Si j'utilise des "données normales" qui n'ont pas beaucoup de variations (cas extrêmes), les résultats de ces deux formules seront très similaires et les gens pourraient ignorer la différence en raison d'une erreur d'arrondi, pas parce que la formule elle-même est faux.