D'après ce que j'ai vu, la formule de lissage (de second ordre) de Kneser-Ney est d'une manière ou d'une autre donnée comme
avec le facteur de normalisation donné comme
et la probabilité de continuation d'un mot
où est le nombre de contextes été vu dans ou, plus simplement, le nombre de mots distincts qui précèdent le mot donné . D'après ce que j'ai compris, la formule peut être appliquée de manière récursive.
Maintenant, cela gère bien les mots connus dans des contextes inconnus pour différentes longueurs de n-grammes, mais ce qu'il n'explique pas, c'est quoi faire quand il y a des mots hors du dictionnaire. J'ai essayé de suivre cet exemple qui indique que dans l'étape de récursivité pour les unigrammes, . Le document utilise ensuite cela - citant Chen et Goodman - pour justifier la formule ci-dessus comme .
Cependant, je ne vois pas comment cela fonctionne en présence d'un mot inconnu . Dans ces cas, car, évidemment, le mot inconnu ne continue rien concernant l'ensemble d'apprentissage. De même, le nombre de n-grammes va être .
De plus, le terme entier peut être nul si une séquence de mots inconnus - disons, un trigramme de mots OOD - est rencontrée.
Qu'est-ce que je rate?