Étant donné nombres, où la valeur de chaque nombre est différente, notée , et la probabilité de sélectionner chaque nombre est , respectivement.
Maintenant, si je sélectionne nombres basés sur les probabilités données, où , quelle est l'attente de la somme de ces nombres? Notez que la sélection est sans remplacement, de sorte que les numéros ne peuvent pas impliquer de numéros en double. Je comprends que si la sélection est avec remplacement, l'attente de la somme des nombres est , où
De plus, qu'en est-il de l'attente de la variance de ces nombres ?
Je suis un étudiant en doctorat CS qui travaille sur un problème de big data, et je n'ai aucune expérience en statistiques. Je m'attends à ce que quelqu'un puisse me donner une formule comme réponse. Cependant, si la réponse est trop compliquée pour être décrite par une formule ou si un calcul intensif doit être impliqué, une réponse approximative est totalement acceptable.
Vous pouvez supposer que ici est assez grand et que la probabilité peut varier considérablement. En pratique, les valeurs de ces probabilités proviennent d'un journal de requêtes, qui enregistre une série de requêtes d'agrégation. Le fait est que la fréquence de chaque nombre impliqué dans les requêtes peut être assez asymétrique, c'est-à-dire que certains sont rarement interrogés, tandis que d'autres le sont très fréquemment. Vous pouvez supposer que la distribution de probabilité est une distribution normale, une distribution zipf ou toute autre alternative raisonnable.
La distribution de valeurs n'est qu'un sous-ensemble contigu de toute distribution possible. En d'autres termes, si vous avez un histogramme qui représente une certaine distribution, tous les nombres impliqués dans ce problème sont les nombres tous dans un seul compartiment.
En termes de valeur de K, vous pouvez supposer qu'il est toujours inférieur au nombre d'éléments fréquemment interrogés.