Cette question va au cœur de ce qu'est la statistique et comment mener une bonne analyse statistique. Elle soulève de nombreuses questions, certaines de terminologie et d'autres de théorie. Pour les clarifier, commençons par noter le contexte implicite de la question et partons de là pour définir les termes clés «paramètre», «propriété» et «estimateur». On répond aux différentes parties de la question au fur et à mesure de leur discussion. La dernière section de conclusion résume les idées clés.
Espaces d'états
Une utilisation statistique courante de «la distribution», comme dans «la distribution normale avec PDF proportionnel à "est en fait un abus (grave) de l'anglais, car évidemment ce n'est pas une distribution: c'est toute une famille de distributionsparamétréespar les symbolesμetσ. Une notation standard pour c'est le "espace d'état"Ω, unensembleexp( - 12( x - μ ) / σ)2) dXμσΩdes distributions. (Je simplifie un peu ici par souci d'exposé et je continuerai de simplifier au fur et à mesure, tout en restant le plus rigoureux possible.) Son rôle est de délimiter les cibles possibles de nos procédures statistiques: lorsque nous estimons quelque chose, nous sommes choisir un (ou parfois plusieurs) éléments de .Ω
Parfois, les espaces d'états sont explicitement paramétrés, comme dans . Dans cette description, il existe une correspondance biunivoque entre l'ensemble de tuples { ( μ , σ ) } dans le demi-plan supérieur et l'ensemble de distributions que nous utiliserons pour modéliser nos données. Une valeur d'une telle paramétrisation est que nous pouvons maintenant nous référer concrètement aux distributions en Ω au moyen d'une paire ordonnée de nombres réels.Ω = { N( μ , σ2) | μ ∈ R , σ> 0 }{ ( μ , σ) }Ω
Dans d'autres cas, les espaces d'états ne sont pas explicitement paramétrés. Un exemple serait l'ensemble de toutes les distributions continues unimodales. Ci-dessous, nous aborderons la question de savoir si un paramétrage adéquat peut de toute façon être trouvé dans de tels cas.
Paramétrisations
Généralement, une paramétrisation de est une correspondance ( fonction mathématique ) d'un sous-ensemble de R d (avec d fini) à Ω . Autrement dit, il utilise des ensembles ordonnés de d -tuples pour étiqueter les distributions. Mais ce n'est pas n'importe quelle correspondance: elle doit être "bien conduite". Pour comprendre cela, considérons l'ensemble de toutes les distributions continues dont les PDF ont des attentes finies. Cela serait largement considéré comme "non paramétrique" dans le sens où toute tentative "naturelle" de paramétrer cet ensemble impliquerait une séquence dénombrable de nombres réels (en utilisant une expansion dans n'importe quelle base orthogonale). Néanmoins, parce que cet ensemble a une cardinalité ℵΩRréréΩré , qui est la cardinalité des nombres réels, il doit existercertaineun-à-un entre ces distributions et R . Paradoxalement, cela semblerait en faire unespace d'étatparamétréavec unseulparamètre réel!ℵ1R
Le paradoxe est résolu en notant qu'un seul nombre réel ne peut pas jouir d'une "belle" relation avec les distributions: lorsque nous changeons la valeur de ce nombre, la distribution à laquelle il correspond doit dans certains cas changer radicalement. Nous excluons de telles paramétrisations "pathologiques" en exigeant que les distributions correspondant aux valeurs proches de leurs paramètres soient elles-mêmes "proches" les unes des autres. Discuter des définitions appropriées de «proche» nous mènerait trop loin, mais j'espère que cette description suffit à démontrer qu'il y a bien plus à être un paramètre que simplement nommer une distribution particulière.
Propriétés des distributions
Par l'application répétée, nous nous habituons à penser à une «propriété» d'une distribution comme une certaine quantité intelligible qui apparaît fréquemment dans notre travail, comme son attente, sa variance, etc. Le problème avec cela comme une définition possible de la «propriété» est qu'elle est trop vague et pas suffisamment générale. (C'est là que les mathématiques se trouvaient au milieu du XVIIIe siècle, où les «fonctions» étaient considérées comme des processus finis appliqués aux objets.) Au lieu de cela, la seule définition sensée de «propriété» qui fonctionnera toujours est de penser à une propriété comme étant un nombre qui est uniquement attribué à chaque distribution en Ω. Cela inclut la moyenne, la variance, tout moment, toute combinaison algébrique de moments, tout quantile et bien plus encore, y compris des choses qui ne peuvent même pas être calculées. Cependant, il n'inclut pas de choses qui n'auraient aucun sens pour certains des éléments de . Par exemple, si Ω se compose de toutes les distributions de Student t, alors la moyenne n'est pas une propriété valide pour Ω (car t 1 n'a pas de moyenne). Cela nous fait une fois de plus comprendre à quel point nos idées dépendent de ce en quoi consiste réellement Ω .ΩΩΩt1Ω
Les propriétés ne sont pas toujours des paramètres
Une propriété peut être une fonction tellement compliquée qu'elle ne servirait pas de paramètre. Prenons le cas de la «distribution normale». Nous pourrions vouloir savoir si la moyenne de la distribution vraie, lorsqu'elle est arrondie à l'entier le plus proche, est paire. C'est une propriété. Mais cela ne servira pas de paramètre.
Les paramètres ne sont pas nécessairement des propriétés
Lorsque les paramètres et les distributions sont en correspondance biunivoque, alors évidemment tout paramètre, et toute fonction des paramètres d'ailleurs, est une propriété selon notre définition. Mais il n'est pas nécessaire qu'il y ait une correspondance biunivoque entre les paramètres et les distributions: parfois, quelques distributions doivent être décrites par deux valeurs distinctes ou plus des paramètres. Par exemple, un paramètre d'emplacement pour des points sur la sphère utiliserait naturellement la latitude et la longitude. C'est très bien - sauf aux deux pôles, qui correspondent à une latitude donnée et à toute longitude valide. L' emplacement(point sur la sphère) est en effet une propriété mais sa longitude n'est pas nécessairement une propriété. Bien qu'il existe plusieurs esquives (il suffit de déclarer la longitude d'un pôle à zéro, par exemple), ce problème met en évidence la différence conceptuelle importante entre une propriété (qui est uniquement associée à une distribution) et un paramètre (qui est un moyen d'étiquetage la distribution et pourrait ne pas être unique).
Procédures statistiques
La cible d'une estimation est appelée une estimation . Ce n'est qu'une propriété. Le statisticien n'est pas libre de sélectionner l'estimateur: c'est la province de son client. Quand quelqu'un vient à vous avec un échantillon d'une population et vous demande d'estimer le 99e centile de la population, vous seriez probablement négligent de fournir un estimateur de la moyenne à la place! Votre travail, en tant que statisticien, consiste à identifier une bonne procédure pour estimer l'estimateur qui vous a été donné. (Parfois, votre travail consiste à persuader votre client qu'il a choisi le mauvais estimateur pour ses objectifs scientifiques, mais c'est une autre question ...)
Par définition, une procédure est un moyen d'obtenir un nombre à partir des données. Les procédures sont généralement données sous forme de formules à appliquer aux données, telles que «additionnez-les toutes et divisez-les par leur nombre». Littéralement, toute procédure peut être déclarée «estimateur» d'un estimateur donné. Par exemple, je pourrais déclarer que la moyenne de l'échantillon (une formule appliquée aux données) estime la variance de la population (une propriété de la population, en supposant que notre client a restreint l'ensemble des populations possibles pour inclure uniquement celles qui ont réellement des variances).Ω
Estimateurs
Un estimateur n'a pas besoin d'avoir un lien évident avec l'estimateur. Par exemple, voyez-vous un lien entre la moyenne de l'échantillon et une variance de la population? Moi non plus. Mais néanmoins, la moyenne de l'échantillon est en fait un estimateur décent de la variance de la population pour certains Ω (comme l'ensemble de toutes les distributions de Poisson). C'est là que réside une clé pour comprendre les estimateurs: leurs qualités dépendent de l'ensemble d'états possibles . Mais cela n'en est qu'une partie.Ω
Un statisticien compétent voudra savoir dans quelle mesure la procédure qu'il recommande se déroulera réellement. Appelons la procédure " " et laissons l'estimateur θ . Ne sachant pas quelle distribution est réellement la vraie, elle envisagera les performances de la procédure pour chaque distribution possible F ∈ Ω . Étant donné un tel F , et étant donné tout résultat possible s (c'est-à-dire un ensemble de données), elle comparera t ( s ) (ce que sa procédure estime) à θ ( F ) (la valeur de l'estimateur pour F ). tθ F∈ΩFst(s)θ(F)FIl est de la responsabilité de son client de lui dire à quel point ces deux sont proches ou éloignés. (Cela se fait souvent avec une fonction de "perte".) Elle peut alors envisager l' espérance de la distance entre et θ ( F ) . C'est le risque de sa procédure. Parce qu'il dépend de F , le risque est une fonction définie sur Ω .t(s)θ(F)FΩ
Les (bons) statisticiens recommandent des procédures basées sur la comparaison des risques. Par exemple, supposons que pour tout , le risque de la procédure t 1 soit inférieur ou égal au risque de t . Il n'y a alors aucune raison d'utiliser t : il est "inadmissible". Sinon, il est "admissible".F∈Ωt1tt
(Un statisticien "bayésien" comparera toujours les risques en faisant la moyenne sur une distribution "antérieure" d'états possibles (généralement fournie par le client). Un statisticien "fréquentiste" pourrait le faire, si un tel a priori existe à juste titre, mais est également disposé à comparer les risques par d'autres moyens que les Bayésiens évitent.)
Conclusions
Nous avons le droit de dire que tout admissible pour θ est un estimateur de θ . tθθ Nous devons, pour des raisons pratiques (car les procédures admissibles peuvent être difficiles à trouver), plier cela pour dire que tout qui présente un risque acceptable faible (en comparaison avec θ ) parmi les procédures praticables est un estimateur de θ . tθθ «Acceptable» et «praticable» sont bien sûr déterminés par le client: «acceptablement» fait référence à son risque et «praticable» reflète le coût (finalement payé par lui) de la mise en œuvre de la procédure.
Derrière cette définition concise se trouvent toutes les idées qui viennent d'être discutées: pour la comprendre, nous devons avoir à l'esprit un spécifique (qui est un modèle du problème, du processus ou de la population à l'étude), un estimant défini (fourni par le client), un fonction de perte spécifique (qui relie quantitativement t à l'estimateur et est également donnée par le client), l'idée de risque (calculée par le statisticien), une procédure de comparaison des fonctions de risque (la responsabilité du statisticien en consultation avec le client), et une idée des procédures qui peuvent réellement être mises en œuvre (la question de la "faisabilité"), même si aucune d'entre elles n'est explicitement mentionnée dans la définition.Ωt