J'ai d'abord demandé cela sur le débordement de la pile et j'ai été renvoyé à ce site, alors voici:
J'implémente des méthodes non supervisées de synthèse de documents basés sur la sélection / extraction de contenu et je suis confus quant à ce que mon manuel appelle le «rapport de vraisemblance logarithmique». Le livre Speech and Language Processing de Jurafsky & Martin le décrit brièvement comme tel:
Le LLR d'un mot, généralement appelé lambda (w), est le rapport entre la probabilité d'observer w dans le corpus d'entrée et dans le corpus de fond en supposant des probabilités égales dans les deux corpus, et la probabilité d'observer w dans les deux en supposant des probabilités différentes pour w dans le corpus d'entrée et d'arrière-plan.
En décomposant cela, nous avons le numérateur: "la probabilité d'observer w à la fois dans le corpus d'entrée et dans le corpus de fond en supposant des probabilités égales dans les deux corpus" - Comment puis-je calculer la probabilité à utiliser ici?
et le dénominateur: "la probabilité d'observer w dans les deux en supposant des probabilités différentes pour w dans le corpus d'entrée et de fond". - est-ce aussi simple que la probabilité d'occurrence du mot dans les entrées multipliée par la probabilité d'occurrence du mot dans le corpus? ex:
(nombre (mot, entrée) / nombre total de mots en entrée) * (nombre (mot, corpus) / nombre total de mots dans le corpus)
J'ai examiné un document dans lequel mes références de livre, Accurate Methods for the Statistics of Surprise and Coincidence (Dunning, 1993), mais j'ai du mal à comprendre le problème du calcul des valeurs LLR pour chaque mot dans un résumé basé sur l'extraction. Toute clarification ici serait vraiment appréciée.