J'essaie de trouver une approche pour détecter les publicités frauduleuses sur mon site Web. Je pense que le problème a beaucoup en commun avec la détection des e-mails de spam (pour lesquels un classificateur bayésien naïf est une solution courante) car de nombreux signaux indiquant une arnaque seront trouvés dans le texte de l'annonce.
Cependant, il existe certaines autres informations qui peuvent être de bons indicateurs d'arnaque, mais je ne sais pas si / comment un classificateur Bayes pourrait les utiliser, car elles impliquent des valeurs numériques (avec des valeurs aux extrêmes de la plage suspectes) plutôt que de simples valeurs binaires correspondant à la présence ou à l’absence d’un mot dans le texte.
Par exemple, pour de nombreuses publicités frauduleuses, le prix de l'article est très bas (pour attirer beaucoup de vues), donc j'aimerais qu'un prix inférieur à la normale soit un indicateur fort que l'annonce peut être une arnaque.
Est-ce que Bayes répond toujours bien à mes exigences, sinon pourriez-vous recommander une approche différente?