En fait, la loi de Benford est une méthode incroyablement puissante. Cela est dû au fait que la distribution de fréquence du premier chiffre de Benford est applicable à toutes sortes d'ensembles de données qui se produisent dans le monde réel ou naturel.
Vous avez raison de ne pouvoir utiliser la loi de Benford que dans certaines circonstances. Vous dites que les données doivent avoir une distribution uniforme des journaux. Techniquement, c'est absolument correct. Mais, vous pourriez décrire l'exigence d'une manière beaucoup plus simple et clémente. Tout ce dont vous avez besoin, c'est que la plage de l'ensemble de données croise au moins un ordre de grandeur. Disons de 1 à 9 ou 10 à 99 ou 100 à 999. S'il traverse deux ordres de grandeur, vous êtes en affaires. Et, la loi de Benford devrait être assez utile.
La beauté de la loi de Benford est qu'elle vous aide à affiner votre enquête très rapidement sur la ou les aiguilles de la pile de données. Vous recherchez les anomalies selon lesquelles la fréquence du premier chiffre est très différente des fréquences de Benford. Une fois que vous remarquez qu'il y a deux nombreux 6, vous utilisez ensuite la loi de Benford pour vous concentrer uniquement sur les 6; mais, vous le prenez maintenant aux deux premiers chiffres (60, 61, 62, 63, etc ...). Maintenant, vous découvrez peut-être qu'il y a beaucoup plus de 63 que ce que suggère Benford (vous le feriez en calculant la fréquence de Benford: log (1 + 1/63) qui vous donne une valeur proche de 0%). Donc, vous utilisez Benford aux trois premiers chiffres. Au moment où vous découvrez qu'il y a beaucoup trop de 632 (ou quoi que ce soit en calculant la fréquence de Benford: log (1 + 1/632)) que prévu, vous êtes probablement sur quelque chose. Toutes les anomalies ne sont pas des fraudes. Mais,
Si l'ensemble de données que Marc Hauser a manipulé sont des données naturelles sans contrainte avec une plage connexe suffisamment large, alors la loi de Benford serait un très bon outil de diagnostic. Je suis sûr qu'il existe d'autres bons outils de diagnostic qui détectent également des modèles improbables et en les combinant avec la loi de Benford, vous auriez très probablement pu enquêter efficacement sur l'affaire Marc Hauser (en tenant compte des exigences de données mentionnées dans la loi de Benford).
J'explique un peu plus la loi de Benford dans cette courte présentation que vous pouvez voir ici:
http://www.slideshare.net/gaetanlion/benfords-law-4669483