Dans de nombreuses applications de traitement du langage naturel telles que la correction d'orthographe, la traduction automatique et la reconnaissance vocale, nous utilisons des modèles de langage. Les modèles de langage sont généralement créés en comptant la fréquence à laquelle les séquences de mots (n-grammes) se produisent dans un grand corpus et en normalisant les nombres pour créer une probabilité. Pour tenir compte des n-grammes invisibles, nous utilisons des méthodes de lissage (voir plusieurs énumérées ici ) qui prennent une partie de la masse de probabilité des n-grammes qui sont attestés dans le modèle et répartissent cette masse entre les n-grammes d'ordre inférieur (séquences de mots plus courtes ) probabilités d'interruption.
De nombreuses techniques de lissage deviennent mathématiquement complexes en raison de la contrainte que les calculs doivent conserver la distribution comme une probabilité (doit s'additionner à 1).
Quelle est la raison de cette contrainte? Quel est l'avantage d'utiliser des probabilités strictes pour la prédiction au lieu de scores de tout autre type?
PS La référence correspondant au lien est [Stanley F. Chen et Joshua Goodman (1998), «An Empirical Study of Smoothing Techniques for Language Modeling»].