Je lisais aujourd'hui la classification Naive Bayes. J'ai lu, sous le titre d' estimation des paramètres avec l'ajout de 1 lissage :
Soit référence à une classe (telle que positive ou négative), et référence à un jeton ou à un mot.
L'estimateur du maximum de vraisemblance pour est
Cette estimation de pourrait être problématique car elle nous donnerait la probabilité pour les documents avec des mots inconnus. Une façon courante de résoudre ce problème consiste à utiliser le lissage de Laplace.
Soit V l'ensemble des mots de l'ensemble d'apprentissage, ajoutez un nouvel élément (pour inconnu) à l'ensemble des mots.
Définissez
où fait référence au vocabulaire (les mots de l'ensemble d'apprentissage).
En particulier, tout mot inconnu aura une probabilité
Ma question est la suivante: pourquoi nous embêtons-nous avec ce lissage de Laplace? Si ces mots inconnus que nous rencontrons dans l'ensemble de test ont une probabilité qui est évidemment presque nulle, c'est-à-dire, , à quoi bon les inclure dans le modèle? Pourquoi ne pas simplement les ignorer et les supprimer?