Pourquoi est-ce qu'avec le classificateur Bayes, nous obtenons les meilleures performances possibles? Quelle est la preuve / explication formelle de cela?
Habituellement, un ensemble de données est considéré comme composé de échantillons iid d'une distribution qui génère vos données. Ensuite, vous construisez un modèle prédictif à partir des données données: étant donné un échantillon , vous prédisez la classe , tandis que la classe réelle de l'échantillon est .Dnxixif^(xi)f(xi)
Cependant, en théorie, vous pourriez décider de ne pas choisir un modèle particulier , mais plutôt considérer tous les modèles possibles à la fois et les combiner en quelque sorte en un seul grand modèle .f^chosenf^F^
Bien sûr, compte tenu des données, de nombreux modèles plus petits peuvent être tout à fait improbables ou inappropriés (par exemple, des modèles qui ne prédisent qu'une seule valeur de la cible, même s'il existe plusieurs valeurs de la cible dans votre ensemble de données ).D
Dans tous les cas, vous souhaitez prédire la valeur cible de nouveaux échantillons, qui sont tirés de la même distribution que s. Une bonne mesure des performances de votre modèle serait
c'est-à-dire la probabilité que vous prédisiez la vraie valeur cible pour un échantillonné au hasard .xiee(model)=P[f(X)=model(X)],
X
En utilisant la formule de Bayes, vous pouvez calculer quelle est la probabilité qu'un nouvel échantillon ait la valeur cible , étant donné les données :xvD
P(v∣D)=∑f^P(v∣f^)P(f^∣D).
Il faut souligner que
- généralement vaut ou , car est une fonction déterministe de ,P(v∣f^)01f^x
- pas habituellement, mais presque tout le temps, il est impossible d'estimer (sauf pour les cas triviaux susmentionnés),P(f^∣D)
- pas habituellement, mais presque tout le temps, le nombre de modèles possibles est trop grand pour que la somme supérieure soit évaluée.f^
Par conséquent, il est très difficile d'obtenir / d'estimer dans la plupart des cas.P(v∣D)
Passons maintenant au classificateur Optimal Bayes. Pour un donné , il prédit la valeur
Comme il s'agit de la valeur la plus probable parmi toutes les valeurs cibles possibles , le classificateur Optimal Bayes maximise la mesure de performance .xv^=argmaxv∑f^P(v∣f^)P(f^∣D).
ve(f^)
Comme nous utilisons toujours le classificateur Bayes comme référence pour comparer les performances de tous les autres classificateurs.
Vous utilisez probablement la version naïve du classificateur Bayes. Il est facile à mettre en œuvre, fonctionne assez bien la plupart du temps, mais ne calcule qu'une estimation naïve de .P(v∣D)