Ce qui suit décrit ce que j'essaie d'accomplir, mais il est possible qu'une autre déclaration de problème puisse décrire mon objectif:
je veux
divisez les nombres suivants en groupes où les variances des nombres au sein de chaque groupe ne sont pas trop importantes et où les différences entre les moyennes des groupes ne sont pas trop faibles
comparer la distribution obtenue à la fin avec les «parfaites» et voir à quel point elle est «différente» d'être parfaite.
Explication du but par Layman
J'essaie de calculer la répartition des revenus et de déterminer les «tranches de revenu» de chaque population. La tranche de revenu est censée s'ajuster d'elle-même en fonction des données d'entrée.
Mon objectif est finalement de mesurer ou de calculer la différence entre les tranches de revenus. Je suppose qu'il y aura de nombreux crochets et je veux voir dans quelle mesure chaque niveau est "séparé".
Voici un échantillon de revenu horaire pour un échantillon d'une population de 20 personnes et un revenu total de 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Comment puis-je utiliser des concepts mathématiques pour regrouper, trier et analyser des données qui agissent comme la répartition des revenus sur une population donnée?
À la fin du calcul, je veux déterminer la distribution des revenus à plusieurs niveaux, où une distribution parfaite ressemblerait (quelque chose) à ceci
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
ou ca:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Question
Comment dois-je analyser les groupes de population et mesurer l'écart d'une manière qui me dira combien il faut pour le rapprocher des deux derniers ensembles de modèles énumérés ci-dessus?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.