Il y a de bonnes raisons d'avoir un grand nombre de casiers, par exemple des casiers pour chaque valeur possible, chaque fois que l'on soupçonne que le détail d'un histogramme ne serait pas du bruit, mais une structure fine intéressante ou importante.
Ce n'est pas directement lié à la motivation précise de cette question, souhaitant une règle automatisée pour un certain nombre optimal de bacs, mais elle est pertinente pour la question dans son ensemble.
Passons immédiatement aux exemples. En démographie, l'arrondissement des âges déclarés est courant, en particulier, mais pas seulement, dans les pays à alphabétisation limitée. Ce qui peut arriver, c'est que beaucoup de gens ne connaissent pas leur date exacte de naissance, ou qu'il y a des raisons sociales ou personnelles de minimiser ou d'exagérer leur âge. L'histoire militaire regorge d'exemples de personnes qui racontent des mensonges sur leur âge, soit pour éviter, soit pour chercher du service dans les forces armées. En effet, de nombreux lecteurs connaîtront quelqu'un qui est très timide ou autrement pas tout à fait véridique à propos de leur âge, même s'ils ne mentent pas à ce sujet lors d'un recensement. Le résultat net varie, mais comme cela est déjà implicite, il s'agit généralement d'arrondis, par exemple, les âges se terminant par 0 et 5 sont beaucoup plus courants que les âges inférieurs ou supérieurs à un an.
∘⋯
Soit dit en passant, regarder les derniers chiffres des données rapportées est une méthode simple et bonne de vérifier les données fabriquées, une méthode beaucoup plus facile à comprendre et moins problématique que l'examen à la mode des premiers chiffres avec un appel à la loi de Benford.
Le résultat des histogrammes devrait maintenant être clair. Une présentation en forme de pointe peut servir à montrer, ou plus généralement à vérifier, ce type de structure fine. Naturellement, si rien d'intéressant n'est discernable, le graphique peut être de peu d'utilité.
Un exemple montre le regroupement des âges du recensement du Ghana pour 1960. Voir http://www.stata.com/manuals13/rspikeplot.pdf
Il y a eu un bon examen des distributions des derniers chiffres dans
Preece, DA 1981. Distribution des derniers chiffres dans les données. Le statisticien 30: 31-60.
Une note sur la terminologie: certaines personnes écrivent sur les valeurs uniques d'une variable alors qu'elles préfèrent parler des valeurs distinctes d'une variable. Les dictionnaires et les guides d'utilisation indiquent toujours que «unique» signifie ne se produire qu'une seule fois. Ainsi, les âges distincts déclarés d'une population pourraient être, en années, 0, 1, 2, etc., mais la grande majorité de ces âges ne seront pas uniques à une seule personne.