Tout d'abord, je voudrais m'excuser pour le titre vague, je ne pouvais pas vraiment en formuler un meilleur tout de suite, n'hésitez pas à changer, ou conseillez-moi de changer, le titre pour qu'il corresponde mieux au cœur de la question .
En ce qui concerne la question elle-même, j'ai travaillé sur un logiciel dans lequel j'ai rencontré l'idée d'utiliser une distribution empirique pour l'échantillonnage, mais maintenant qu'elle est implémentée, je ne sais pas comment l'interpréter. Permettez-moi de décrire ce que j'ai fait et pourquoi:
J'ai un tas de calculs pour un ensemble d'objets, ce qui donne un score final. Le score tel qu'il est cependant est très ad hoc. Donc, afin de donner un sens au score d'un objet particulier, ce que je fais est de faire un grand nombre de calculs (N = 1000) de scores avec des valeurs simulées / générées de manière aléatoire, donnant 1000 scores simulés. L'estimation d'une "distribution de score" empirique pour cet objet particulier est ensuite obtenue par ces 1000 valeurs de score factices.
J'ai implémenté cela en Java (car le reste du logiciel est également écrit en environnement Java) en utilisant la bibliothèque Apache Commons Math , en particulier la EmpiricalDistImpl
classe . Selon la documentation que cette classe utilise:
ce qui équivaut à la méthode du noyau variable avec lissage gaussien: Digérer le fichier d'entrée
- Passez le fichier une fois pour calculer min et max.
- Divisez la plage de min-max en "bacs" binCount.
- Transmettez à nouveau le fichier de données en calculant le nombre de casiers et les statistiques univariées (moyenne, écart type) pour chacun des casiers
- Divisez l'intervalle (0,1) en sous-intervalles associés aux bacs, la longueur du sous-intervalle d'un bac étant proportionnelle à son nombre.
Maintenant, ma question est, est-il judicieux d'échantillonner à partir de cette distribution pour calculer une sorte de valeur attendue? En d'autres termes, à quel point puis-je faire confiance / compter sur cette distribution? Pourrais-je par exemple tirer des conclusions sur l'importance de l'observation d'un score en vérifiant la distribution?
Je me rends compte que c'est peut-être une façon peu orthodoxe d'examiner un problème comme celui-ci, mais je pense qu'il serait intéressant de mieux comprendre le concept de distributions empiriques et la façon dont elles peuvent / ne peuvent pas être utilisées dans l'analyse.