Calcul de la population approximative d'un filtre de floraison

12

Étant donné un filtre de bloom de taille N-bits et K fonctions de hachage, dont M-bits (où M <= N) du filtre sont définis.

Est-il possible d'approximer le nombre d'éléments insérés dans le filtre bloom?

Exemple simple

J'ai réfléchi à l'exemple suivant, en supposant un BF de 100 bits et 5 fonctions de hachage où 10 bits sont définis ...

Meilleur scénario: en supposant que les fonctions de hachage sont vraiment parfaites et mappent de manière unique un peu pour un certain nombre de valeurs X, alors étant donné que 10 bits ont été définis, nous pouvons dire qu'il n'y a eu que 2 éléments insérés dans le BF

Pire scénario: en supposant que les fonctions de hachage sont mauvaises et mappées de manière cohérente sur le même bit (mais uniques entre elles), alors nous pouvons dire que 10 éléments ont été insérés dans le BF

La plage semble être [2,10] où les abouts dans cette plage sont probablement déterminés par la probabilité de faux positif du filtre - je suis bloqué à ce stade.

ds.data-structures pr.probability

— Tander Kulip
source

4

Pourquoi ne pas garder un compteur du nombre d'éléments insérés? Il ne prend que

bits supplémentaires , si vous avez inséré

éléments.

O (\log n)

$O(\log n)$

n

$n$

— Joe

@Joe, bien que ce soit une bonne idée, cela gâche une question vraiment intéressante.

— dan_waterworth

Juste en notant qu'avec les doublons, la méthode de Joe aura une petite erreur car nous ne pouvons pas toujours dire avec certitude lors de l'ajout d'un élément s'il est déjà présent (et donc devrions-nous incrémenter le nombre ou non).

— usul

5

Oui. De Wikipédia :

Si vous avez inséré éléments dans un filtre de taille utilisant fonctions de hachage, la probabilité qu'un certain bit soit toujours égal à 0 est $i$ $n$ $k$

z = {(1 - \frac{1}{n})}^{k i}

$z = \left(1 - \frac{1}{n}\right)^{ki}$

Vous pouvez mesurer cette probabilité comme la proportion de 0 bits dans votre filtre. Résoudre pour donne $i$

i = \frac{\ln (z)}{k \ln (1 - \frac{1}{n})}

$i = \frac{\ln(z)}{k\ln\left(1 - \frac{1}{n}\right)}$

Je l'ai utilisé dans la pratique, et tant que votre filtre ne dépasse pas sa capacité, l'erreur est généralement inférieure à 0,1% pour les filtres jusqu'à des millions de bits. Comme le filtre dépasse sa capacité, l'erreur monte bien sûr.

— Jay Hacker
source

3

Si vous supposez que pour chaque fonction de hachage pour chaque objet, un bit est défini uniformément au hasard et que vous comptez sur le nombre de bits qui ont été définis, vous devriez pouvoir limiter la probabilité que le nombre d'objets insérés soit dans une certaine plage, peut-être en utilisant une formulation de billes et de bacs. Chaque bit est un bac, et il est défini s'il contient au moins 1 balle, chaque objet inséré lance balles, où est le nombre de fonctions de hachage et est le nombre de billes lancées après l' insertion de objets . Étant donné que les bacs contiennent au moins 1 balle, quelle est la probabilité qu'au moins balles aient été lancées? Je pense que vous pouvez utiliser ici le fait que: $k$ $k$ $nk$ $n$ $b$ $t$ Mais le problème avec cette formulation est que je ne vois pas de méthode simple pour calculer ou , mais trouver la valeur de qui maximise cette probabilité ne devrait pas être trop difficile.

P (t balls | b bins) = P (b bins | t balls) \cdot P (t) / P (b)

$P( t \mbox{ balls} | b \mbox{ bins} ) = P(b \mbox{ bins}| t \mbox{ balls}) \cdot P(t)/P(b)$

P (t)

$P(t)$

P (b)

$P(b)$

t

$t$

— Joe
source

2

Question intéressante, regardons quelques cas spécifiques.

$k$ $n_{on}$ $n_{total}$ $m$ $P(k, n_{on}, n_{total}, m)$

$km \lt n_{on}$ $P(k, n_{on}, n_{total}, m)$ $0$

$n_{on} = 1$ $km$ $km - 1$

$P(k, 1, n_{total}, m) = (1/n_{total})^{(km-1)}$

$n_{on} = 2$ $km$ $2$ $1$ $n_{total}(n_{total} - 1)$ $2$ $(2/n_{total})^{km}$ $2$

$n_{total}(n_{total} - 1)(2/n_{total})^{km}$

$1$ $2$

$P(k, 2, n_{total}, m) = n_{total}(n_{total} - 1)(2/n_{total})^{km} - (1/n_{total})^{(km-1)}$

Je pense que nous pouvons généraliser cela maintenant.

$P(k, n_{on}, n_{total}, m) = {n_{total} \choose n_{on}}(n_{on}/n_{total})^{km} - \sum_{i=1}^{i<n_{on}} P(k, i, n_{total}, m)$

$m$ $O(n^2)$

— dan_waterworth
source

(\binom{n_{t o t a l}}{n_{o n}}) n_{o n}^{k m} - (\binom{n_{t o t a l}}{n_{o n} - 1}) (n_{o n} - 1)^{k m}

${n_{total} \choose n_{on}}n_{on}^{km}- {n_{total} \choose n_{on}-1}(n_{on}-1)^{km}$ n choose k

@Jules, super, j'étais sûr que quelque chose comme ça arriverait, mais je n'ai pas eu le temps de le comprendre.

— dan_waterworth

P (n_{o n} = x) = P (n_{o n} \leq x) - P (n_{o n} < x) = P (n_{o n} \leq x) - P (n_{o n} \leq x - 1)

$P(n_{on} = x) = P(n_{on} \leq x) - P(n_{on} < x) = P(n_{on} \leq x) - P(n_{on} \leq x-1)$

(\binom{n_{t o t a l}}{x}) (x / n_{t o t a l})^{k m}

${n_{total} \choose x} (x/n_{total})^{km}$

P (n_{o n} \leq x)

$P(n_{on} \leq x)$

2

Supposons que les hachages soient uniformément distribués.

$i$ $i$ $m$ $i-1$ $m$ $m$ $n$ $i-1$ $m-1$ $n-(m-1)$

$P(m,i) = P(m,i-1)(m/n) + P(m-1,i-1)(n-(m-1))/n$

Réécriture:

$P(m,i) = \frac{1}{n}(mP(m,i-1) + (n-m+1)P(m-1,i-1))$

$P(0,0) = 1$ $P(m,0) = 0$ $m \neq 0$ $P(0,i) = 0$ $i \neq 0$ $O(mi)$ $i$ $P(m,i)$ vous donne l'estimation du maximum de vraisemblance.

$i$ $k$ $i/k$

$\frac{1}{n}$ $P(m,i)$ $O(nm)$ $i$ $O(jm)$ $j$ $P$ $O(m \log n)$

— Jules
source

2

L'idée clé est d'approximer l'espérance du nombre de bits zéro.

$(1-\frac{1}{N})^{Kt} \approx e^{-\frac{Kt}{N}}$

Alors, l'attente de nombres à zéro bit devrait être:

$N e^{-\frac{Kt}{N}}$ $N - M$

$t = - \frac{N}{K} ln(1-\frac{M}{N})$

— Yanghong Zhong
source

1

La probabilité qu'un bit particulier soit 1 après n insertions est: P = 1 - (1 - 1 / m) ^ (kn)

Soit X_i une variable aléatoire discrète qui est 1 si le bit à la ième position est 1 et 0 sinon. Soit X = X_1 + X_2 + .... + X_m. Alors, E [X] = m * P.

Si le nombre total de bits définis est S, alors: E [X] = S ce qui implique m * P = S. Ceci pourrait être résolu pour n.

— Nikhil
source