Exemples d'une statistique qui n'est pas indépendante de la distribution de l'échantillon?


14

Ceci est la définition de la statistique sur wikipedia

Plus formellement, la théorie statistique définit une statistique comme une fonction d'un échantillon où la fonction elle-même est indépendante de la distribution de l'échantillon; c'est-à-dire que la fonction peut être indiquée avant la réalisation des données. Le terme statistique est utilisé à la fois pour la fonction et pour la valeur de la fonction sur un échantillon donné.

Je pense que je comprends la plupart de cette définition, mais la partie - où la fonction est indépendante de la distribution de l'échantillon, je n'ai pas été en mesure de trier.

Ma compréhension des statistiques jusqu'à présent

Un échantillon est un ensemble de réalisations d'un certain nombre de variables aléatoires indépendantes identiquement distribuées (iid) avec la distribution F (10 réalisations d'un lancer de dés équitables à 20 faces, 100 réalisations de 5 lancées d'un dés équitables à 6 faces, tirer au hasard 100 personnes dans une population).

Une fonction, dont le domaine est cet ensemble, et dont la plage est les nombres réels (ou peut-être qu'elle peut produire d'autres choses, comme un vecteur ou un autre objet mathématique ...) serait considérée comme une statistique .

Quand je pense à des exemples, la moyenne, la médiane, la variance ont tous un sens dans ce contexte. Ils sont fonction d'un ensemble de réalisations (mesures de la pression artérielle à partir d'un échantillon aléatoire). Je peux aussi voir comment un modèle de régression linéaire pourrait être considéré comme une statistique yi=α+βxi - n'est-ce pas simplement une fonction sur un ensemble de réalisations?

Où je suis confus

En supposant que ma compréhension ci-dessus est correcte, je n'ai pas pu comprendre où une fonction pourrait ne pas être indépendante de la distribution de l'échantillon. J'ai essayé de trouver un exemple pour le comprendre, mais pas de chance. Toute opinion serait très appréciée!

Réponses:


45

Cette définition est une façon quelque peu maladroite de l'énoncer. Une "statistique" est toute fonction des valeurs observables. Tout ce que signifie cette définition, c'est qu'une statistique n'est qu'une fonction des valeurs observables, pas une fonction de la distribution ou de l'un de ses paramètres. Par exemple, si X1,X2,...,XnN(μ,1) puis une statistique serait une fonction T(X1,...,Xn) tandis que la fonction H(X1,....,Xn,μ) ne serait pas une statistique, car elle dépend deμ . Voici quelques exemples supplémentaires:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

Chaque statistique est fonction uniquement des valeurs observables, et non de leur distribution ou de ses paramètres. Il n'y a donc aucun exemple de statistique qui soit fonction de la distribution ou de ses paramètres (une telle fonction ne serait pas une statistique). Cependant, il est important de noter que la distribution d'une statistique (par opposition à la statistique elle-même) dépendra généralement de la distribution sous-jacente des valeurs. (Cela est vrai pour toutes les statistiques autres que les statistiques auxiliaires .)


Qu'en est-il d'une fonction dont les paramètres sont connus? Dans les commentaires ci-dessous, Alecos pose une excellente question de suivi. Qu'en est-il d'une fonction qui utilise une valeur hypothétique fixe du paramètre? Par exemple, qu'en est-il de la statistique n(x¯μ)μ=μ0est considérée comme étant égale à une valeur hypothétique connuμ0R. Ici, la fonction est en effet une statistique, tant qu'elle est définie sur le domaine restreint de manière appropriée. Ainsila fonctionH0:RnRavecH0(x1,...,xn)=n(x¯μ0)serait une statistique, mais la fonctionH:Rn+1RavecH(x1,...,xn,μ)=n(x¯μ)neseraitpasune statistique.


1
Une réponse très utile, compte tenu du paramètre statistique sous-jacent dans le cadre de la non-statistique était particulièrement utile.
Jake Kirsch

4
@CarlWitthoft Je ne comprends pas votre point. Si c'est une fonction des valeurs observables, alors c'est une statistique. Il peut être fonction d'un plus petit sous-ensemble des valeurs; cela peut toujours être une chose utile à considérer. Si vous voulez estimer la moyenne et que vous avez observations, vous pouvez toujours regarder ( X 1 + X 2 + + X 1000 ) / 1000 si le coût du traitement des données est élevé et le coût de l'erreur est petit. Ou pour une raison quelconque, vous voudrez peut-être considérer deux estimations indépendantes de la moyenne, et pourriez considérer ( X 1 + + X n1010(X1+X2++X1000)/1000et(X n / 2 + 1 ++Xn)/(n/2). Ce sont encore des statistiques. (X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)
James Martin

4
Ces exemples me semblent tout à fait valables. Voulez-vous dire que l'idée de diviser les données en un ensemble de formation et un ensemble de validation n'est pas valide?
James Martin

2
Je suis un peu confus par cela aussi. Permettez-moi de décrire le point @CarlWitthoft. Ce serait toujours une statistique en termes de définition mathématique, mais je pourrais voir un cas où un consultant prend une `` statistique '' d'observations, mais décide arbitrairement de supprimer quelques résultats (les consultants le font tout le temps, non?). Ce serait «valide» dans le sens où cela dépend toujours des observations, mais la façon dont les statistiques peuvent être présentées et interprétées ne serait probablement pas valide.
Jake Kirsch

2
@Carl Withhoft: En ce qui concerne le point que vous soulevez, il est important de faire la distinction entre une statistique (qui ne doit pas nécessairement inclure toutes les données et peut ne pas englober toutes les informations de l'échantillon) et une statistique suffisante (qui englobera tous les les informations relatives à certains paramètres). La théorie statistique a déjà des concepts bien développés comme la suffisance qui captent l'idée qu'une statistique inclut toutes les informations pertinentes dans l'échantillon. Il n'est ni nécessaire ni souhaitable d'essayer d'intégrer cette exigence dans la définition d'une "statistique".
Rétablir Monica

4

J'interprète cela comme disant que vous devez décider avant de voir les données quelle statistique vous allez calculer. Ainsi, par exemple, si vous voulez supprimer des valeurs aberrantes, vous devez décider avant de voir les données ce qui constitue une "valeur aberrante". Si vous décidez après avoir vu les données, votre fonction dépend des données.


c'est aussi utile! Donc, prendre une décision sur les observations à inclure dans la fonction après avoir connu les observations disponibles, ce qui est plus ou moins ce que je décrivais dans mon commentaire sur la réponse précédente.
Jake Kirsch

2
(+1) Il peut être utile de noter que cela est important car si vous définissez une règle a priori sur ce qui constitue un point de données qui sera supprimé, il est (relativement) facile de dériver une distribution pour la statistique (c.-à-d. Moyenne tronquée, etc. .). Il est vraiment difficile de dériver une distribution pour une mesure qui implique la suppression de points de données pour des raisons qui ne sont pas clairement définies au préalable.
Cliff AB
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.