Une propriété quantitative de la population est-elle un «paramètre»?


13

Je connais relativement bien la distinction entre les termes statistique et paramètre. Je vois une statistique comme la valeur obtenue en appliquant une fonction aux données d'échantillon. Cependant, la plupart des exemples de paramètres concernent la définition d'une distribution paramétrique. Un exemple courant est la moyenne et l'écart type pour paramétrer la distribution normale ou les coefficients et la variance d'erreur pour paramétrer une régression linéaire.

Cependant, il existe de nombreuses autres valeurs de la distribution de la population qui sont moins prototypiques (par exemple, minimum, maximum, r-carré en régression multiple, le quantile 0,25, la médiane, le nombre de prédicteurs avec des coefficients non nuls, l'asymétrie, le nombre des corrélations dans une matrice de corrélation supérieure à 0,3, etc.).

Ainsi, mes questions sont:

  • Une propriété quantitative d'une population doit-elle être qualifiée de "paramètre"?
  • Si oui, alors pourquoi?
  • Si non, quelles caractéristiques ne devraient pas être étiquetées comme paramètre? Que devraient-ils être étiquetés? Et pourquoi?

Élaboration sur la confusion

L'article de Wikipedia sur les estimateurs déclare:

Un «estimateur» ou «estimation ponctuelle» est une statistique (c'est-à-dire une fonction des données) qui est utilisée pour déduire la valeur d'un paramètre inconnu dans un modèle statistique.

Mais je peux définir la valeur inconnue comme 0,25 quantile et je peux développer un estimateur pour cette inconnue. C'est-à-dire que toutes les propriétés quantitatives d'une population ne sont pas des paramètres de la même manière que la moyenne et le sd sont des paramètres d'une distribution normale, mais il est légitime de chercher à estimer toute propriété quantitative d'une population.

Réponses:


15

Cette question va au cœur de ce qu'est la statistique et comment mener une bonne analyse statistique. Elle soulève de nombreuses questions, certaines de terminologie et d'autres de théorie. Pour les clarifier, commençons par noter le contexte implicite de la question et partons de là pour définir les termes clés «paramètre», «propriété» et «estimateur». On répond aux différentes parties de la question au fur et à mesure de leur discussion. La dernière section de conclusion résume les idées clés.

Espaces d'états

Une utilisation statistique courante de «la distribution», comme dans «la distribution normale avec PDF proportionnel à "est en fait un abus (grave) de l'anglais, car évidemment ce n'est pas une distribution: c'est toute une famille de distributionsparamétréespar les symbolesμetσ. Une notation standard pour c'est le "espace d'état"Ω, unensembleexp(12(xμ)/σ)2)dxμσΩdes distributions. (Je simplifie un peu ici par souci d'exposé et je continuerai de simplifier au fur et à mesure, tout en restant le plus rigoureux possible.) Son rôle est de délimiter les cibles possibles de nos procédures statistiques: lorsque nous estimons quelque chose, nous sommes choisir un (ou parfois plusieurs) éléments de .Ω

Parfois, les espaces d'états sont explicitement paramétrés, comme dans . Dans cette description, il existe une correspondance biunivoque entre l'ensemble de tuples { ( μ , σ ) } dans le demi-plan supérieur et l'ensemble de distributions que nous utiliserons pour modéliser nos données. Une valeur d'une telle paramétrisation est que nous pouvons maintenant nous référer concrètement aux distributions en Ω au moyen d'une paire ordonnée de nombres réels.Ω={N(μ,σ2)|μR,σ>0}{(μ,σ)}Ω

Dans d'autres cas, les espaces d'états ne sont pas explicitement paramétrés. Un exemple serait l'ensemble de toutes les distributions continues unimodales. Ci-dessous, nous aborderons la question de savoir si un paramétrage adéquat peut de toute façon être trouvé dans de tels cas.

Paramétrisations

Généralement, une paramétrisation de est une correspondance ( fonction mathématique ) d'un sous-ensemble de R d (avec d fini) à Ω . Autrement dit, il utilise des ensembles ordonnés de d -tuples pour étiqueter les distributions. Mais ce n'est pas n'importe quelle correspondance: elle doit être "bien conduite". Pour comprendre cela, considérons l'ensemble de toutes les distributions continues dont les PDF ont des attentes finies. Cela serait largement considéré comme "non paramétrique" dans le sens où toute tentative "naturelle" de paramétrer cet ensemble impliquerait une séquence dénombrable de nombres réels (en utilisant une expansion dans n'importe quelle base orthogonale). Néanmoins, parce que cet ensemble a une cardinalité ΩRΩ , qui est la cardinalité des nombres réels, il doit existercertaineun-à-un entre ces distributions et R . Paradoxalement, cela semblerait en faire unespace d'étatparamétréavec unseulparamètre réel!1R

Le paradoxe est résolu en notant qu'un seul nombre réel ne peut pas jouir d'une "belle" relation avec les distributions: lorsque nous changeons la valeur de ce nombre, la distribution à laquelle il correspond doit dans certains cas changer radicalement. Nous excluons de telles paramétrisations "pathologiques" en exigeant que les distributions correspondant aux valeurs proches de leurs paramètres soient elles-mêmes "proches" les unes des autres. Discuter des définitions appropriées de «proche» nous mènerait trop loin, mais j'espère que cette description suffit à démontrer qu'il y a bien plus à être un paramètre que simplement nommer une distribution particulière.

Propriétés des distributions

Par l'application répétée, nous nous habituons à penser à une «propriété» d'une distribution comme une certaine quantité intelligible qui apparaît fréquemment dans notre travail, comme son attente, sa variance, etc. Le problème avec cela comme une définition possible de la «propriété» est qu'elle est trop vague et pas suffisamment générale. (C'est là que les mathématiques se trouvaient au milieu du XVIIIe siècle, où les «fonctions» étaient considérées comme des processus finis appliqués aux objets.) Au lieu de cela, la seule définition sensée de «propriété» qui fonctionnera toujours est de penser à une propriété comme étant un nombre qui est uniquement attribué à chaque distribution en Ω. Cela inclut la moyenne, la variance, tout moment, toute combinaison algébrique de moments, tout quantile et bien plus encore, y compris des choses qui ne peuvent même pas être calculées. Cependant, il n'inclut pas de choses qui n'auraient aucun sens pour certains des éléments de . Par exemple, si Ω se compose de toutes les distributions de Student t, alors la moyenne n'est pas une propriété valide pour Ω (car t 1 n'a pas de moyenne). Cela nous fait une fois de plus comprendre à quel point nos idées dépendent de ce en quoi consiste réellement Ω .ΩΩΩt1Ω

Les propriétés ne sont pas toujours des paramètres

Une propriété peut être une fonction tellement compliquée qu'elle ne servirait pas de paramètre. Prenons le cas de la «distribution normale». Nous pourrions vouloir savoir si la moyenne de la distribution vraie, lorsqu'elle est arrondie à l'entier le plus proche, est paire. C'est une propriété. Mais cela ne servira pas de paramètre.

Les paramètres ne sont pas nécessairement des propriétés

Lorsque les paramètres et les distributions sont en correspondance biunivoque, alors évidemment tout paramètre, et toute fonction des paramètres d'ailleurs, est une propriété selon notre définition. Mais il n'est pas nécessaire qu'il y ait une correspondance biunivoque entre les paramètres et les distributions: parfois, quelques distributions doivent être décrites par deux valeurs distinctes ou plus des paramètres. Par exemple, un paramètre d'emplacement pour des points sur la sphère utiliserait naturellement la latitude et la longitude. C'est très bien - sauf aux deux pôles, qui correspondent à une latitude donnée et à toute longitude valide. L' emplacement(point sur la sphère) est en effet une propriété mais sa longitude n'est pas nécessairement une propriété. Bien qu'il existe plusieurs esquives (il suffit de déclarer la longitude d'un pôle à zéro, par exemple), ce problème met en évidence la différence conceptuelle importante entre une propriété (qui est uniquement associée à une distribution) et un paramètre (qui est un moyen d'étiquetage la distribution et pourrait ne pas être unique).

Procédures statistiques

La cible d'une estimation est appelée une estimation . Ce n'est qu'une propriété. Le statisticien n'est pas libre de sélectionner l'estimateur: c'est la province de son client. Quand quelqu'un vient à vous avec un échantillon d'une population et vous demande d'estimer le 99e centile de la population, vous seriez probablement négligent de fournir un estimateur de la moyenne à la place! Votre travail, en tant que statisticien, consiste à identifier une bonne procédure pour estimer l'estimateur qui vous a été donné. (Parfois, votre travail consiste à persuader votre client qu'il a choisi le mauvais estimateur pour ses objectifs scientifiques, mais c'est une autre question ...)

Par définition, une procédure est un moyen d'obtenir un nombre à partir des données. Les procédures sont généralement données sous forme de formules à appliquer aux données, telles que «additionnez-les toutes et divisez-les par leur nombre». Littéralement, toute procédure peut être déclarée «estimateur» d'un estimateur donné. Par exemple, je pourrais déclarer que la moyenne de l'échantillon (une formule appliquée aux données) estime la variance de la population (une propriété de la population, en supposant que notre client a restreint l'ensemble des populations possibles pour inclure uniquement celles qui ont réellement des variances).Ω

Estimateurs

Un estimateur n'a pas besoin d'avoir un lien évident avec l'estimateur. Par exemple, voyez-vous un lien entre la moyenne de l'échantillon et une variance de la population? Moi non plus. Mais néanmoins, la moyenne de l'échantillon est en fait un estimateur décent de la variance de la population pour certains Ω (comme l'ensemble de toutes les distributions de Poisson). C'est là que réside une clé pour comprendre les estimateurs: leurs qualités dépendent de l'ensemble d'états possibles . Mais cela n'en est qu'une partie.Ω

Un statisticien compétent voudra savoir dans quelle mesure la procédure qu'il recommande se déroulera réellement. Appelons la procédure " " et laissons l'estimateur θ . Ne sachant pas quelle distribution est réellement la vraie, elle envisagera les performances de la procédure pour chaque distribution possible F Ω . Étant donné un tel F , et étant donné tout résultat possible s (c'est-à-dire un ensemble de données), elle comparera t ( s ) (ce que sa procédure estime) à θ ( F ) (la valeur de l'estimateur pour F ). tθ FΩFst(s)θ(F)FIl est de la responsabilité de son client de lui dire à quel point ces deux sont proches ou éloignés. (Cela se fait souvent avec une fonction de "perte".) Elle peut alors envisager l' espérance de la distance entre et θ ( F ) . C'est le risque de sa procédure. Parce qu'il dépend de F , le risque est une fonction définie sur Ω .t(s)θ(F)FΩ

Les (bons) statisticiens recommandent des procédures basées sur la comparaison des risques. Par exemple, supposons que pour tout , le risque de la procédure t 1 soit inférieur ou égal au risque de t . Il n'y a alors aucune raison d'utiliser t : il est "inadmissible". Sinon, il est "admissible".FΩt1tt

(Un statisticien "bayésien" comparera toujours les risques en faisant la moyenne sur une distribution "antérieure" d'états possibles (généralement fournie par le client). Un statisticien "fréquentiste" pourrait le faire, si un tel a priori existe à juste titre, mais est également disposé à comparer les risques par d'autres moyens que les Bayésiens évitent.)

Conclusions

Nous avons le droit de dire que tout admissible pour θ est un estimateur de θ . tθθ Nous devons, pour des raisons pratiques (car les procédures admissibles peuvent être difficiles à trouver), plier cela pour dire que tout qui présente un risque acceptable faible (en comparaison avec θ ) parmi les procédures praticables est un estimateur de θ . tθθ «Acceptable» et «praticable» sont bien sûr déterminés par le client: «acceptablement» fait référence à son risque et «praticable» reflète le coût (finalement payé par lui) de la mise en œuvre de la procédure.

Derrière cette définition concise se trouvent toutes les idées qui viennent d'être discutées: pour la comprendre, nous devons avoir à l'esprit un spécifique (qui est un modèle du problème, du processus ou de la population à l'étude), un estimant défini (fourni par le client), un fonction de perte spécifique (qui relie quantitativement t à l'estimateur et est également donnée par le client), l'idée de risque (calculée par le statisticien), une procédure de comparaison des fonctions de risque (la responsabilité du statisticien en consultation avec le client), et une idée des procédures qui peuvent réellement être mises en œuvre (la question de la "faisabilité"), même si aucune d'entre elles n'est explicitement mentionnée dans la définition.Ωt


2
@ Nick Cox, dans sa réponse, soulève d'excellents points qui (dans mon interprétation) vont à "que faisons-nous quand nous savons que tout modèle et toute fonction de perte que nous spécifions seront quelque peu inexacts ou inadéquats?" La réponse à cela nous mènerait dans une direction différente; Tout ce que je veux dire ici, c'est que le cadre que j'ai défini - qui est le cadre classique auquel Tukey réagissait - nous donne une bonne base pour réfléchir à des questions plus larges d'analyse des données. Au minimum, il clarifie les hypothèses implicites qui entrent dans des termes standard comme «estimateur». Ω
whuber

11

Comme pour de nombreuses questions sur les définitions, les réponses doivent avoir un œil à la fois sur les principes sous-jacents et sur la façon dont les termes sont utilisés dans la pratique, qui peuvent souvent être au moins un peu vagues ou incohérents, même par des personnes bien informées, et plus encore. surtout, variable d'une communauté à l'autre.

Un principe commun est qu'une statistique est une propriété d'un échantillon, et une constante connue, et qu'un paramètre est la propriété correspondante de la population, et donc une constante inconnue. Le mot "correspondant" doit être compris ici comme assez élastique. Soit dit en passant, précisément cette distinction et précisément cette terminologie ont moins d'un siècle, ayant été introduites par RA Fisher.

Mais

  1. Une configuration d'échantillon et de population ne caractérise pas tous nos propres problèmes. Les séries chronologiques sont une grande classe d'exemples dans lesquels l'idée est plutôt un processus de génération sous-jacent, et quelque chose comme ça est sans doute l'idée plus profonde et plus générale.

  2. Il existe des configurations dans lesquelles les paramètres changent. Encore une fois, l'analyse des séries chronologiques fournit des exemples.

  3. Au point principal ici, nous ne considérons pas en pratique toutes les propriétés d'une population ou d'un processus comme des paramètres. Si une procédure suppose un modèle de distribution normale, le minimum et le maximum ne sont pas des paramètres. (En effet, selon le modèle, le minimum et le maximum sont de toute façon des nombres négatifs et positifs arbitrairement grands, pas que cela devrait nous inquiéter.)

Je dirais que pour une fois Wikipédia pointe dans la bonne direction ici, et la pratique et le principe sont tous deux respectés si nous disons qu'un paramètre est ce que nous estimons .

Cela aide également avec d'autres questions qui ont provoqué la perplexité. Par exemple, si nous calculons une moyenne ajustée de 25%, qu'est-ce que nous estimons? Une réponse raisonnable est la propriété correspondante de la population, qui est en fait définie par la méthode d'estimation. Une terminologie est qu'un estimateur a un estimant, quel qu'il soit. En commençant par une idée platonicienne d'une propriété "là-bas" (par exemple, le mode de distribution) et en pensant comment l'estimer est raisonnable, tout comme trouver de bonnes recettes pour analyser les données et réfléchir à ce qu'elles impliquent lorsqu'elles sont considérées comme une inférence.

Comme souvent en mathématiques appliquées ou en sciences, un paramètre a un double aspect. Nous le considérons souvent comme quelque chose de réel que nous découvrons, mais il est également vrai que c'est quelque chose défini par notre modèle de processus, de sorte qu'il n'a aucune signification en dehors du contexte du modèle.

Deux points bien différents:

  1. De nombreux scientifiques utilisent le mot «paramètre» de la même manière que les statisticiens utilisent la variable. J'ai un personnage scientifique aussi bien qu'un personnage statistique, et je dirais que c'est malheureux. Les variables et les propriétés sont de meilleurs mots.

  2. Il est remarquablement courant dans une utilisation plus large de l'anglais que l'on pense que paramètre signifie des limites ou des limites, qui peuvent provenir d'une certaine confusion d'origine entre "paramètre" et "périmètre".

Une note sur le point de vue estimand

La position classique est que nous identifions un paramètre à l'avance et décidons ensuite comment l'estimer, et cela reste une pratique majoritaire, mais inverser le processus n'est pas absurde et peut être utile pour certains problèmes. J'appelle cela le point de vue estimand. Cela fait partie de la littérature depuis au moins 50 ans. Tukey (1962, p.60) a insisté pour que

"Nous devons accorder encore plus d'attention au fait de commencer avec un estimateur et de découvrir ce qu'est un estimateur raisonnable, à découvrir ce qui est raisonnable de penser l'estimateur comme une estimation."

Un point de vue similaire a été élaboré formellement avec beaucoup de détails et de profondeur par Bickel et Lehmann (1975) et officieusement avec une grande lucidité par Mosteller et Tukey (1977, pp.32-34).

Il existe également une version élémentaire. L'utilisation (par exemple) de la médiane ou de la moyenne géométrique de l'échantillon pour estimer le paramètre de population correspondant a du sens, que la distribution sous-jacente soit symétrique ou non, et la même bonne volonté peut être étendue (par exemple) aux moyennes ajustées de l'échantillon, qui sont considérées comme des estimateurs de leurs homologues de la population. .

Bickel, PJ et EL Lehmann. 1975. Statistiques descriptives pour les modèles non paramétriques. II. Emplacement . Annals of Statistics 3: 1045-1069.

Mosteller, F. et JW Tukey. 1977. Analyse et régression des données. Reading, MA: Addison-Wesley.

Tukey, JW 1962. L'avenir de l'analyse des données . Annals of Mathematical Statistics 33: 1-67.


Une grande partie de cela regarde en contradiction avec la littérature statistique standard, en particulier votre définition de paramètre. Il semble confondre les processus de recherche d'une procédure pour calculer une estimation et identifier ce qui doit être estimé. Ce dernier - le choix de l'estimateur - est du ressort du scientifique ou de l'investigateur. Le premier est ensuite sélectionné par le statisticien pour avoir des propriétés souhaitables parmi toutes les procédures possibles pour estimer l'estimateur. Il y a aussi des problèmes techniques; il suffit de dire qu'un paramètre est plus restreint qu'un estimateur arbitraire.
whuber

J'élargirai ma réponse pour répondre à cela.
Nick Cox

1
Je suis d'accord avec Tukey bien que vous puissiez penser de ma réponse à ce fil que je suis l'un des statisticiens "ossifiés" qu'il défie. Le problème est que vous avez pris sa citation hors de son contexte. Tukey aborde spécifiquement la question de savoir comment évaluer les propriétés des procédures "lorsque les hypothèses sur lesquelles elles sont habituellement développées ne se vérifient pas". Cela ne change en rien la définition de choses comme les paramètres, les estimateurs et les estimants. En particulier, un paramètre n'est toujours pas «tout ce que nous estimons».
whuber

3
Beaucoup de matière à réflexion ici. En guise de réponse rapide: ma réponse ne visait pas à laisser entendre que nous sommes à Liberty Hall où tout se passe. Je me félicite du contexte de la citation de Tukey, car mon point de vue est qu'il est habituel que les hypothèses habituelles ne soient pas valables dans la mesure où tous les modèles sont des approximations qui ne correspondent pas exactement aux données. Loin de mordre, cette clause souligne la valeur des différents points de vue. En général, je ne cherche pas, ni qualifié pour produire, des définitions formelles plus abstraites et plus raffinées mathématiquement.
Nick Cox

6


pdf=12πσ2e12(xiμ)2σ2
12π3.1415926e2.718281828Xxi aussi. En d'autres termes, une fois que je sais que l'équation ci-dessus est ce avec quoi je dois travailler, je sais tout ce qu'il y a à savoir,μσ2X25th%μσ2μσ2


Y=β0+β1X1+β2X2+εwhere εN(0,σ2)
β0β1β2σ225th%YX=xiβ0β1 ,β2σ2β0β1β2σ2

(Tout cela suppose, bien sûr, que mon modèle de distribution de la population ou de génération de données est correct. Il convient, comme toujours, de garder à l'esprit que "tous les modèles sont faux, mais certains sont utiles" - George Box .)

Pour répondre plus explicitement à vos questions, je dirais:

  • Non, aucun ancien quantitatif correctement ne doit être étiqueté comme un "paramètre".
  • n / a
  • Les caractéristiques qui doivent être étiquetées comme "paramètre" dépendent de la spécification du modèle. Je n'ai pas un nom spécial pour d' autres caractéristiques quantitatives, mais je pense que ce serait bien de les appeler propriétés ou caractéristiques ou conséquences , etc.

Merci. Mais quelle terminologie utilisez-vous pour décrire toutes ces valeurs de population qui peuvent être dérivées d'un modèle paramétrique mais qui ne figurent pas dans l'ensemble de paramètres pratiques pour représenter ce modèle? Ou bien, il peut y avoir un cas où vous ne connaissez pas le modèle de population et ne vous en souciez pas particulièrement, mais êtes intéressé par un aspect particulier non standard du modèle de population.
Jeromy Anglim

Je n'ai pas de nom spécial généralement applicable, mais il existe des noms pour certaines valeurs particulières. Par exemple, si vous ne croyez pas vraiment que votre population est suffisamment proche d'une distribution bien étudiée, vous pouvez essayer de la caractériser par sa médiane, ses quartiles, ses points d'articulation, etc.
gung - Reinstate Monica

3
Un problème subtil concernant les paramètres est exposé par une vieille astuce informatique: prendre les représentations binaires (ou décimales) de β0,β1,β2, et σ et les entrelacer (par groupes de quatre) pour créer un nouveau nombre binaire (ou décimal) θ. Évidemment, le processus est réversible: vous pouvez lireβ0 des premier, cinquième, neuvième, ..., etc. chiffres de θ, etc. Par conséquent, "une fois que [vous] apprenez la valeur deθ, [vous] savez tout ce qu'il y a à savoir. "Mais θn'est pas un paramètre valide en raison de la manière déformée dont il étiquette les distributions possibles.
whuber

3

Il y a eu d'excellentes réponses à cette question, je pensais simplement résumer une référence intéressante qui fournit une discussion assez rigoureuse des estimateurs.

La page des laboratoires virtuels sur les estimateurs définit

  • une statistique comme "une fonction observable de la variable de résultat".
  • "au sens technique, un paramètre θ est fonction de la distribution de X "

Le concept de fonction d'une distribution est une idée très générale. Ainsi, chaque exemple fourni ci-dessus pourrait être considéré comme une fonction d'une certaine distribution.

  • Chaque quantile, y compris le min, la médiane, le 25e quantile, le max peut être fonction d'une distribution.
  • L'asymétrie est fonction d'une distribution. Si cette répartition de la population est normale, celle-ci sera nulle, mais cela n'arrête pas le calcul de ces valeurs.
  • Le comptage du nombre de corrélations supérieures à une certaine valeur est fonction de la matrice de covariance qui à son tour est fonction d'une distribution multivariée.
  • Le R au carré est fonction de la distribution.

1
L'une des raisons pour lesquelles j'ai proposé une réponse plus élaborée est que cette définition de "paramètre" n'est pas assez bonne. Pour un contre-exemple, voir mon commentaire sur la réponse de @ gung . Intuitivement, un ensemble de distributions paramétrées forme une variété topologique de dimension finie avec frontière; un paramètre doit être une fonction continue définie sur le collecteur. C'est plus qu'une simple exigence technique, car elle concerne les distributions d'échantillonnage des estimations.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.