Je répondrai à votre point sur les simulations avec R car c'est la seule que je connaisse. R a beaucoup de distributions intégrées que vous pouvez simuler. La logique du nommage est que pour simuler une distribution appelée dis
le nom sera rdis
.
Voici ceux que j'utilise le plus souvent
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Vous pouvez trouver des compléments dans les distributions Enfilage avec R .
Ajout: merci à @jthetzel pour avoir fourni un lien avec une liste complète des distributions et des packages auxquels elles appartiennent.
Mais attendez, il y a plus: OK, suivant le commentaire de @ whuber, je vais essayer de répondre aux autres points. En ce qui concerne le point 1, je ne privilégie jamais la qualité de l'ajustement. Au lieu de cela, je pense toujours à l'origine du signal, comme ce qui cause le phénomène, y a-t-il des symétries naturelles dans ce qui le produit, etc. Vous avez besoin de plusieurs chapitres de livre pour le couvrir, je vais donc donner deux exemples.
Si les données sont des nombres et qu'il n'y a pas de limite supérieure, j'essaie un Poisson. Les variables de Poisson peuvent être interprétées comme les comptes d'indépendants successifs au cours d'une fenêtre temporelle, ce qui est un cadre très général. J'ajuste la distribution et vois (souvent visuellement) si la variance est bien décrite. Très souvent, la variance de l'échantillon est beaucoup plus élevée, auquel cas j'utilise un binôme négatif. Le binôme négatif peut être interprété comme un mélange de Poisson avec différentes variables, ce qui est encore plus général, ce qui correspond généralement très bien à l'échantillon.
Si je pense que les données sont symétriques par rapport à la moyenne, c'est-à - dire que les écarts sont également susceptibles d'être positifs ou négatifs, j'essaie d'ajuster un gaussien. Je vérifie ensuite (à nouveau visuellement) s'il y a beaucoup de valeurs aberrantes, c'est-à - dire des points de données très éloignés de la moyenne. S'il y en a, j'utilise plutôt un t de Student. La distribution t de Student peut être interprétée comme un mélange de gaussien avec différentes variances, ce qui est encore très général.
Dans ces exemples, quand je dis visuellement, je veux dire que j'utilise un tracé QQ
Le point 3 mérite également plusieurs chapitres de livre. Les effets de l'utilisation d'une distribution au lieu d'une autre sont illimités. Donc, au lieu de passer par tout cela, je vais continuer les deux exemples ci-dessus.
À mes débuts, je ne savais pas que le binôme négatif peut avoir une interprétation significative, j'ai donc toujours utilisé Poisson (car j'aime pouvoir interpréter les paramètres en termes humains). Très souvent, lorsque vous utilisez un Poisson, vous ajustez bien la moyenne, mais vous sous-estimez la variance. Cela signifie que vous ne pouvez pas reproduire les valeurs extrêmes de votre échantillon et vous considérerez ces valeurs comme des valeurs aberrantes (points de données qui n'ont pas la même distribution que les autres points) alors qu'ils ne le sont pas réellement.
Encore une fois à mes débuts, je ne savais pas que le t de Student avait également une interprétation significative et j'utiliserais le gaussien tout le temps. Une chose similaire s'est produite. J'ajusterais bien la moyenne et la variance, mais je ne capturerais toujours pas les valeurs aberrantes car presque tous les points de données sont censés être à moins de 3 écarts-types de la moyenne. La même chose s'est produite, j'ai conclu que certains points étaient "extraordinaires", alors qu'en réalité ils ne l'étaient pas.