(Je suis un débutant dans les statistiques. Je suis mathématicien et programmeur et j'essaie de créer quelque chose comme un filtre anti-spam bayésien naïf.)
J'ai remarqué à de nombreux endroits que les gens ont tendance à briser le dénominateur dans l'équation du théorème de Bayes. Donc au lieu de ça:
On nous présente ceci:
Vous pouvez voir que cette convention est utilisée dans cet article Wikipedia et dans cet article perspicace de Tim Peters.
Je suis déconcerté par cela. Pourquoi le dénominateur se décompose-t-il ainsi? Comment cela aide-t-il les choses? Qu'est-ce qui est si compliqué dans le calcul de , ce qui serait le cas dans le cas des filtres anti-spam ?The probability that the word "cheese" appears in an email, regardless of whether it's spam or not