Sens réel de l'ellipse de confiance

12

En lisant la vraie signification de l'ellipse de confiance à 95%, j'ai tendance à trouver 2 explications:

L'ellipse qui contient 95% des données
Pas ce qui précède, mais l'ellipse qui explique la variance des données. Je ne suis pas sûr de bien comprendre, mais ils semblent signifier que si un nouveau point de données arrive, il y a 95% de chances que la nouvelle variance reste dans l'ellipse.

Pouvez-vous faire la lumière?

confidence-interval ellipse

— Kenny
source

15

En fait, aucune explication n'est correcte.

Une ellipse de confiance a à voir avec des paramètres de population non observés , comme la vraie moyenne de population de votre distribution bivariée. Une ellipse de confiance à 95% pour cette moyenne est vraiment un algorithme avec la propriété suivante: si vous deviez répliquer votre échantillonnage à partir de la distribution sous-jacente plusieurs fois et à chaque fois calculer une ellipse de confiance, alors 95% des ellipses ainsi construites contiendraient le sous-jacent signifier. (Notez que chaque échantillon produirait bien sûr une ellipse différente.)

Ainsi, une ellipse de confiance ne contiendra généralement pas 95% des observations. En fait, à mesure que le nombre d'observations augmente, la moyenne sera généralement de mieux en mieux estimée, conduisant à des ellipses de confiance de plus en plus petites, qui à leur tour contiennent une proportion de plus en plus petite des données réelles. (Malheureusement, certaines personnes calculent la plus petite ellipse qui contient 95% de leurs données, rappelant un quantile, ce qui en soi est tout à fait OK ... mais continuez à appeler cette "ellipse quantile" une "ellipse de confiance", qui, comme vous le voyez, conduit à la confusion.)

La variance de la population sous-jacente est liée à l'ellipse de confiance. Une variance élevée signifie que les données sont partout, donc la moyenne n'est pas bien estimée, donc l'ellipse de confiance sera plus grande que si la variance était plus petite.

Bien entendu, nous pouvons également calculer des ellipses de confiance pour tout autre paramètre de population que nous pourrions estimer. Ou nous pourrions regarder d'autres régions de confiance que les ellipses, surtout si nous ne savons pas que le paramètre estimé est (asymptotiquement) normalement distribué.

L'analogue unidimensionnel de l'ellipse de confiance est l' intervalle de confiance , et parcourir les questions précédentes dans cette balise est utile. Notre question actuellement la mieux votée dans cette balise est particulièrement intéressante: pourquoi un IC à 95% n'implique-t-il pas une chance de 95% de contenir la moyenne? La majeure partie de la discussion y est également valable pour les analogues de dimension supérieure de l'intervalle de confiance unidimensionnel.

— Stephan Kolassa
source

1

Cela dépend de la zone à laquelle ce concept s'applique. Ce qui a été dit ci-dessus est vrai pour les statistiques, mais lorsque nous appliquons les statistiques à d'autres sujets, les choses sont un peu différentes. En biomécanique, par exemple, nous utilisons le terme ellipse de confiance (bien qu'il y ait un débat pour savoir s'il doit s'agir d'une ellipse de prédiction) comme technique pour mesurer le centre du déplacement de pression lorsqu'un sujet se tient sur une plate-forme de force. Ensuite, l'ellipse qui est dessinée autour des deux axes (majeur et mineur) est censée contenir les 95% des points de données qui représentent le centre du déplacement de pression pendant la durée d'un essai.

— Cathrine Katsigianni
source