Est-il préférable de sélectionner des distributions basées sur la théorie, l'ajustement ou autre chose?

Ceci est à la limite d'une question philosophique, mais je suis intéressé par la façon dont d'autres personnes ayant plus d'expérience pensent la sélection de distribution. Dans certains cas, il semble clair que la théorie pourrait mieux fonctionner (les longueurs de queue des souris sont probablement normalement distribuées). Dans de nombreux cas, il n'y a probablement pas de théorie pour décrire un ensemble de données, donc vous utilisez simplement quelque chose qui correspond assez bien à ce que vous avez, indépendamment de ce qu'il a été initialement développé pour décrire? Je peux imaginer quelques-uns des pièges liés à l'un ou l'autre de ceux-ci, et bien sûr, il semble y avoir le problème selon lequel vous devriez peut-être simplement utiliser une distribution empirique si vous n'en avez vraiment aucune idée.

Donc je suppose que ce que je demande vraiment: est-ce que quelqu'un a une manière cohérente d'approcher / de penser à ce problème? Et y a-t-il des ressources que vous pouvez suggérer pour bien traiter cela?

distributions overfitting heuristic

— HFBrowning
source

Cela dépend fondamentalement de la raison pour laquelle on ajuste ou suppose une distribution et de ce qu'elle est censée représenter. Nous posons de nombreuses questions sur ce site où il semble que les gens sentent qu'ils doivent ajuster une distribution aux données ou quantités dérivées (comme les résidus de régression) alors qu'en fait l'exercice est inutile (ou pire, trompeur) en ce qui concerne la résolution des problèmes statistiques qu'ils ont vraiment avoir est concerné. Pourriez-vous peut-être clarifier les types de cas auxquels vous pensez?

— whuber

Salut Whuber, merci pour le commentaire. Depuis que j'ai commencé à travailler un peu sur l'évaluation probabiliste des risques, je dois adapter toutes mes données aux distributions et cela m'a rendu curieux d'avoir une vue plus cohérente sur la façon dont la sélection de la distribution est effectuée. Donc, je suppose que pour clarifier, je ne suis vraiment intéressé que par les moments où vous devriez utiliser une distribution, et comment s'y prendre correctement. Comme je l'ai dit, certains cas ont été faciles à partir de la théorie, d'autres fois j'utilise une distribution empirique parce qu'elle semble la meilleure, mais ma prise de décision est plus aléatoire que je ne le souhaiterais.

— HFBrowning

C'est une boîte de vers intéressante, car ce que vous faites vraiment (quelque peu abstraitement), c'est essayer de propager l'incertitude d'échantillonnage à travers un calcul. La raison pour laquelle on examine la procédure à partir de ce niveau élevé est qu'elle révèle une erreur fondamentale qui est souvent commise: en remplaçant les données par des distributions, on ne parvient pas à inclure l'incertitude dans les paramètres de distribution estimés. La comptabilisation de ceci est appelée ARP de "deuxième ordre" par certains praticiens. J'aimerais vous suggérer de restreindre votre question pour vous concentrer sur ces questions plutôt que de poser des questions sur l'ajustement de la distribution en général.

— whuber

Le package que j'utilise pour mon PRA est un monte carlo de 2ème ordre ( package mc2d en R), donc j'assigne mes distributions soit en "incertitude", "variabilité" ou les deux. J'espère donc que je tiens compte de ce problème autant que possible. Cependant, mon intention initiale pour cette question était d'acquérir une vue de plus haut niveau, et j'ai évoqué l'évaluation des risques simplement pour donner un contexte pour expliquer pourquoi je suis intéressé. Et peut-être qu'il n'y a pas de meilleur moyen que "parfois vous faites cela, parfois vous le faites de cette façon" mais j'espérais que quelqu'un avait des suggestions :) Surtout parce que je ne peux pas facilement déterminer quand cela pourrait être mieux -

— HFBrowning

C'est certainement le bon endroit pour votre message. Êtes-vous en train de dire que vous rencontrez des difficultés pour effectuer les modifications? Soit dit en passant, je suis curieux de savoir comment vos procédures quantifient l'incertitude dans l'utilisation de la distribution empirique. Il s'accompagne également d'une variabilité d'échantillonnage (qui peut être profonde dans les queues, qui comptent souvent le plus dans les évaluations des risques), même si vous n'avez pas explicitement estimé de paramètres.

— whuber

Réponses:

Cela dépend certainement de ce que sont les données en question et de ce que l'on sait ou souhaite en supposer. Comme @whuber l'a dit récemment dans le chat , "Lorsque la loi physique est impliquée, vous pouvez presque toujours faire des suppositions raisonnables sur la manière appropriée de modéliser les données." (Je soupçonne que c'est plus vrai de lui que de moi cependant! Aussi, j'espère que cela n'est pas mal appliqué hors de son contexte d'origine ...) Dans des cas plus comme la modélisation de construction latente en sciences sociales, il est souvent utile de se concentrer sur distributions empiriques comme moyen de comprendre les nuances de phénomènes moins connus. Il est un peu trop facile de supposer une distribution normale et de rejeter les inadaptations dans la forme globale comme négligeables, et il est assez spécieux de rejeter les valeurs aberrantes comme erronées sans plus de justification que ce qu'elles ne font pas.

Bien sûr, une grande partie de ce comportement est motivée par les hypothèses d'analyses que l'on veut appliquer. Souvent, les questions les plus intéressantes vont bien au-delà de la description ou de la classification des distributions de variables. Cela influence également la bonne réponse pour un scénario donné; il peut y avoir des raisons (par exemple, des besoins en énergie ) de supposer une distribution normale lorsqu'elle ne convient pas particulièrement bien (ou ne correspond pas trop mal), car les méthodes non paramétriques et par ailleurs robustes ne sont pas parfaites non plus. Néanmoins, le risque de le faire habituellement est d'oublier de poser les questions intéressantes que l'on peut se poser sur la distribution d'une seule variable.

Par exemple, considérons la relation entre la richesse et le bonheur: une question populaire que les gens veulent généralement poser. Il peut être sûr de supposer que la richesse suit une distribution gamma ^{(Salem et Mount, 1974)} ou bêta généralisée ^{(Parker, 1999)} , mais est-il vraiment sûr de supposer que le bonheur est normalement distribué? Vraiment, il ne devrait pas être nécessaire de supposer cela du tout simplement pour répondre à la question d'origine, mais les gens le font parfois, puis ignorent les problèmes potentiellement importants tels que le biais de réponse et les différences culturelles. Par exemple, certaines cultures ont tendance à donner des réponses plus ou moins extrêmes (voir la réponse de @ chl sur l' analyse factorielle des questionnaires composés d'articles de Likert ), et les normes varient en ce qui concerne l'expression ouverte des émotions positives et négatives ^{(Tucker, Ozer, Lyubomirsky et Boehm, 2006 )} . Cela peut accroître l'importance des différences dans les caractéristiques de distribution empiriques comme l'asymétrie et le kurtosis. Si je comparais la relation de la richesse aux évaluations subjectives du bonheur en Russie, en Chine et aux États-Unis, je voudrais probablement évaluer les différences dans les tendances centrales des évaluations du bonheur. Ce faisant, j'hésiterais à supposer des distributions normales dans chacune pour le bien d'une ANOVA unidirectionnelle (même si elle peut être assez robuste aux violations) lorsqu'il y a des raisons de s'attendre à une distribution «plus épaisse» en Chine, une distribution faussée positivement en Russie et une distribution faussée aux États-Unis en raison de diverses normes culturelles et de biais de réponse. Pour un test de signification (même si je préfère probablement simplement rapporter la taille des effets, honnêtement), je préfère utiliser une méthode non paramétrique, et pour comprendre réellement le bonheur subjectif dans chaque population individuellement, je décrivez plutôt la distribution de façon empirique plutôt que d'essayer de la catégoriser comme une simple distribution théorique et d'ignorer ou de masquer tout inadéquat. C'est un gaspillage d'informations OMI.

^{Références

- Parker, SC (1999). Le bêta généralisé comme modèle de distribution des bénéfices. Economics Letters, 62 (2), 197–200.

- Salem, ABZ et Mount, TD (1974). Un modèle descriptif pratique de la distribution des revenus: la densité gamma. Econometrica, 42 (6), 1115–1127.

- Tucker, KL, Ozer, DJ, Lyubomirsky, S., et Boehm, JK (2006). Test de l'invariance de mesure dans la satisfaction avec l'échelle de vie: une comparaison des Russes et des Nord-Américains. Recherche sur les indicateurs sociaux, 78 (2), 341–360. Extrait de http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .}

— Nick Stauner
source

Merci pour ta réponse, Nick. J'ai trouvé l'exemple particulièrement utile.

— HFBrowning

les longueurs de queue des souris sont probablement normalement distribuées

J'en doute. Les distributions normales résultent de nombreux effets additifs indépendants. Les systèmes biologiques sont constitués de nombreuses boucles de rétroaction en interaction (effets multiplicatifs interdépendants). De plus, certains États sont souvent plus stables que d'autres (par exemple, les attracteurs). Donc, une sorte de distribution à longue queue ou multimodale décrirait probablement les longueurs de queue. En fait, la distribution normale est probablement un très mauvais choix par défaut pour décrire quoi que ce soit de biologique et sa mauvaise utilisation est responsable des nombreuses "valeurs aberrantes" rapportées dans cette littérature. La prévalence de cette distribution dans la nature est un mythe et pas seulement dans le sens "les cercles parfaits n'existent pas vraiment". Cependant, il ne s'ensuit pas que la moyenne et le sd sont inutiles en tant que statistiques sommaires.

Surtout parce que je ne peux pas facilement déterminer quand il pourrait être préférable de "faire confiance aux données" (comme celui-ci, j'ai un ensemble de données asymétriques à droite génial, mais n = 160 qui, compte tenu des données ne semble pas suffisant) et aller avec empirique, ou l'adapter à une distribution bêta comme un de mes collègues insiste. Je soupçonne qu'il n'a choisi cela que parce qu'il est limité à [0,1]. Tout cela semble vraiment ad hoc. J'espère que cela clarifie mon intention!

L'ajustement de distributions empiriques fournit des indications sur le processus sous-jacent, ce qui facilite le développement de distributions théoriques. Ensuite, la distribution théorique est comparée aux distributions empiriques pour tester les preuves de la théorie.

Si votre objectif est d'évaluer la probabilité de certains résultats sur la base des preuves actuellement disponibles et que vous n'avez aucune raison de choisir cette distribution particulière, je suppose que je ne vois pas en quoi des hypothèses supplémentaires pourraient être utiles. Au lieu de cela, il semble confondre les choses.

Cependant, si vous essayez de décrire ou de résumer les données, il peut être judicieux d'adapter la distribution.

— Livide
source

Même si je ne peux accepter qu'une seule réponse, je voulais vous remercier d'avoir souligné comment les distributions normales se produisent réellement. Cela m'a obligé à réfléchir plus attentivement à ce que cela signifie pour quelque chose d'être basé sur la théorie.

— HFBrowning

Dans certains cas, il semble clair que la théorie pourrait mieux fonctionner (les longueurs de queue des souris sont probablement normalement distribuées).

Les longueurs de queue ne sont certainement pas distribuées normalement.

Les distributions normales ont une probabilité non nulle de prendre des valeurs négatives; les longueurs de queue ne le font pas.

La célèbre ligne de George Box , " tous les modèles sont faux, mais certains sont utiles " fait le point assez bien. Les cas où nous pourrions raisonnablement affirmer la normalité (plutôt qu'une simple normalité approximative) sont en effet très rares, presque des créatures de légende, des mirages parfois entrevus presque du coin de l'œil.

Dans de nombreux cas, il n'y a probablement pas de théorie pour décrire un ensemble de données, donc vous utilisez simplement quelque chose qui correspond assez bien à ce que vous avez, indépendamment de ce qu'il a été initialement développé pour décrire?

Dans les cas où les quantités qui vous intéressent ne sont pas particulièrement sensibles au choix (tant que les grandes caractéristiques de la distribution sont cohérentes avec ce qui est connu), alors oui, vous pouvez simplement utiliser quelque chose qui correspond assez bien.

Dans les cas où il y a un plus grand degré de sensibilité, «utiliser simplement quelque chose qui convient» ne suffit pas à lui seul. Nous pourrions utiliser une approche qui ne fait pas d'hypothèses particulières (peut-être des procédures sans distribution, comme la permutation, le bootstrap ou d'autres approches de rééchantillonnage, ou des procédures robustes). Alternativement, nous pourrions quantifier la sensibilité à l'hypothèse de distribution, par exemple via la simulation (en effet, je pense que c'est généralement une bonne idée).

il semble y avoir le problème que peut-être vous devriez simplement utiliser une distribution empirique si vous n'en avez vraiment aucune idée.

Je ne décrirais pas cela comme un problème - baser l'inférence sur des distributions empiriques est certainement une approche légitime adaptée à de nombreux types de problèmes (permutation / randomisation et amorçage sont deux exemples).

quelqu'un a-t-il une manière cohérente d'aborder / penser à ce problème?

en gros, dans beaucoup de cas, j'ai tendance à considérer des questions comme:

1) Que dois-je comprendre * sur la façon dont les moyens (ou d'autres quantités de type emplacement) se comportent pour les données de ce formulaire?

* (que ce soit à partir de la théorie ou de l'expérience de cette forme de données, ou des conseils d'experts, ou si nécessaire, à partir des données elles-mêmes, bien que cela pose des problèmes, il faut y faire face)

2) Qu'en est-il de la propagation (variance, IQR, etc.) - comment se comporte-t-elle?

3) Qu'en est-il des autres caractéristiques de distribution (limites, asymétrie, caractère discret, etc.)

4) Qu'en est-il de la dépendance, de l'hétérogénéité des populations, de la tendance à des valeurs parfois très divergentes, etc.

Ce type de considération pourrait guider un choix entre un modèle normal, un GLM, un autre modèle ou une approche robuste ou sans distribution (comme les approches d'amorçage ou de permutation / randomisation, y compris les procédures basées sur le classement)

— Glen_b -Reinstate Monica
source