Dans certains cas, il semble clair que la théorie pourrait mieux fonctionner (les longueurs de queue des souris sont probablement normalement distribuées).
Les longueurs de queue ne sont certainement pas distribuées normalement.
Les distributions normales ont une probabilité non nulle de prendre des valeurs négatives; les longueurs de queue ne le font pas.
La célèbre ligne de George Box , " tous les modèles sont faux, mais certains sont utiles " fait le point assez bien. Les cas où nous pourrions raisonnablement affirmer la normalité (plutôt qu'une simple normalité approximative) sont en effet très rares, presque des créatures de légende, des mirages parfois entrevus presque du coin de l'œil.
Dans de nombreux cas, il n'y a probablement pas de théorie pour décrire un ensemble de données, donc vous utilisez simplement quelque chose qui correspond assez bien à ce que vous avez, indépendamment de ce qu'il a été initialement développé pour décrire?
Dans les cas où les quantités qui vous intéressent ne sont pas particulièrement sensibles au choix (tant que les grandes caractéristiques de la distribution sont cohérentes avec ce qui est connu), alors oui, vous pouvez simplement utiliser quelque chose qui correspond assez bien.
Dans les cas où il y a un plus grand degré de sensibilité, «utiliser simplement quelque chose qui convient» ne suffit pas à lui seul. Nous pourrions utiliser une approche qui ne fait pas d'hypothèses particulières (peut-être des procédures sans distribution, comme la permutation, le bootstrap ou d'autres approches de rééchantillonnage, ou des procédures robustes). Alternativement, nous pourrions quantifier la sensibilité à l'hypothèse de distribution, par exemple via la simulation (en effet, je pense que c'est généralement une bonne idée).
il semble y avoir le problème que peut-être vous devriez simplement utiliser une distribution empirique si vous n'en avez vraiment aucune idée.
Je ne décrirais pas cela comme un problème - baser l'inférence sur des distributions empiriques est certainement une approche légitime adaptée à de nombreux types de problèmes (permutation / randomisation et amorçage sont deux exemples).
quelqu'un a-t-il une manière cohérente d'aborder / penser à ce problème?
en gros, dans beaucoup de cas, j'ai tendance à considérer des questions comme:
1) Que dois-je comprendre * sur la façon dont les moyens (ou d'autres quantités de type emplacement) se comportent pour les données de ce formulaire?
* (que ce soit à partir de la théorie ou de l'expérience de cette forme de données, ou des conseils d'experts, ou si nécessaire, à partir des données elles-mêmes, bien que cela pose des problèmes, il faut y faire face)
2) Qu'en est-il de la propagation (variance, IQR, etc.) - comment se comporte-t-elle?
3) Qu'en est-il des autres caractéristiques de distribution (limites, asymétrie, caractère discret, etc.)
4) Qu'en est-il de la dépendance, de l'hétérogénéité des populations, de la tendance à des valeurs parfois très divergentes, etc.
Ce type de considération pourrait guider un choix entre un modèle normal, un GLM, un autre modèle ou une approche robuste ou sans distribution (comme les approches d'amorçage ou de permutation / randomisation, y compris les procédures basées sur le classement)