Existe-t-il un moyen de faire en sorte que spamassassin marque plus lourdement les premières lignes d'un corps de message?

Beaucoup de spams traversent le filtre sur le serveur de messagerie que je lance avec l'astuce relativement simple de commencer avec quelques lignes de perte de poids (incroyablement évidentes) ou un autre texte d'escroquerie en haut, suivi d'un corps de texte plus important provenant de la documentation de programmation - ou, le plus mauvais de tous, texte gratté de Stack Exchange . Au mieux, Spamassassin considère cela comme BAYES_50, et il arrive que les autres messages soient construits avec suffisamment de soin pour ne pas toucher à d'autres déclencheurs. (Par exemple, les en-têtes sont minimes et corrects.) Souvent, les extraits inclus s'alignent assez étroitement avec mes intérêts légitimes pour que le message dans son ensemble soit marqué comme BAYES_00, car les jetons très spammeurs sont juste submergés par des pépites juteuses de résolution de problèmes d'administrateur système.

La partie supérieure est si manifestement spammée (et en fait a tendance à être très similaire aux messages reçus précédemment et formés comme spam) que je suis un peu étonné que cela passe - mais c'est clairement le cas. Cela semble être une passe distincte qui a marqué les 25 premières lignes (ou plus) du message et pesé qui résoudrait le problème. Y a-t-il un moyen de faire cela?

Plusieurs personnes ont suggéré d'écrire des expressions régulières personnalisées. Je ne veux pas entrer dans ce sujet, car il s'agit d'une bataille perdue constante. C'est ce que les gens faisaient avant que le tri bayésien du spam ne soit généralisé, et c'était généralement terrible. Aucun humain ne peut suivre . Ce n'est pas beaucoup plus efficace que d'appuyer simplement sur la touche de suppression pour chaque message de spam, et beaucoup plus de travail de ma part.

Le filtrage bayésien du spam fonctionne. Cela fonctionne même sur ce spam, si je divise la partie " au-dessus du pli " et que j'analyse simplement cette partie, sans le leurre / la balle. La question est: comment puis-je demander à Spamassassin de le faire?

spam spamassassin

— mattdm
source

Le filtre bayésien est-il activé?

— Kondybas

@kondybas Oui. Et cela fait partie du problème, car le texte de remplissage l'emporte sur la partie spam de la simple quantité.

— mattdm

Quel MTA avez-vous utilisé?

— Kondybas

Quelle formation bayésienne avez-vous dispensée sur ces spams? Je m'attendrais à ce que l'algorithme bayésien le règle avant longtemps.

— mc0e

@ mc0e Ça ne peut pas. Ce n'est pas aussi intelligent que par magie. Un système d'apprentissage automatique plus sophistiqué pourrait probablement le faire, mais je pense que, euh, "une astuce simple" que je demande ici le ferait aussi.

— mattdm

Je suis moi-même un (petit) combattant anti-spam vif. Et à cause des nombreux problèmes que vous rencontrez, j'ai fini par faire les choses sales moi-même, il y a des années.

Maintenant, ce n'est pas une réponse à votre question particulière, mais à votre problème particulier. Alors s'il vous plaît, ne votez pas à cause de cela.

La façon dont j'ai résolu ce problème a été de modifier le script sa_filter-post.pl, utilisé par le serveur XMail, qui appelle spamc sur le fichier de courrier électronique et y fait des choses mineures, pour traiter non pas le fichier entier, mais des parties spécifiques de celui-ci, en fonction de quelques règles spécifiques (codées en dur par moi). oui, regex'es mais jusqu'à présent, ils fonctionnent pour moi (j'ai un tas d'autres scripts avant et après celui-ci afin que cela puisse jouer un rôle)

Par exemple, j'ai un regex qui pêche les numéros de téléphone. Le spammeur a laissé cela en entier, donc cela va directement pour ne traiter que les 400 caractères du milieu du fichier (je suis vraiment arrivé à 400 par essais et erreurs, à partir de 200). Notez qu'il est assez difficile de choisir le milieu de ce que vous voyez, par rapport à ce qui se trouve dans le fichier.

Il y en a un autre qui a la même structure que le tableau html avec les "produits", un en-tête factice et un pied de page non utilisable, donc je les supprime, je supprime la colonne des commentaires "produits" puis je les transmets à spamc.

Et ainsi de suite, vous obtenez l'image.

Mais toutes les règles ne sont pas parfaites, donc je fais un peu de magie ici en attribuant un score privé à chaque règle, que je code en dur et ajuste en haut ou en bas si nécessaire, en fonction de la façon dont la règle se comporte (et parfois je finis par supprimer toutes les règles ensemble) ). Je modifie ensuite le score SA par le score privé. La raison pour laquelle j'ai fait cela était parce que, pour une raison quelconque, SA n'a donné que des scores comme 4. quelque chose pour farcir clairement le spam sur les règles que j'avais également le sentiment fort de bien les comprendre. Je leur ai donc donné juste un petit coup de pouce pour passer au dessus de 5.0, couplé à quelques scripts de post-traitement qui prennent en compte d'autres variables (source de l'email, cible de l'email, structure de l'en-tête, etc.), il tue plus ou moins le spam en dehors.

Maintenant, je me rends compte que ce n'est pas ce que vous espériez, mais dans mon cas, cela me donne beaucoup de pouvoir sur ce qui est scanné, c'est juste que j'ai besoin de configurer les choses manuellement, puis de temps en temps de faire peu de contact - ups sur les valeurs / regex'es.

Mais dans votre cas, les choses sont beaucoup plus faciles car tout ce que vous avez à faire est d'utiliser un simple script bash qui sera appelé par votre MX au lieu de spamc et que ce script utilise la commande head pour obtenir uniquement le premier nombre d'octets souhaité et passez ce fichier temporaire à spamc.

Le contenu du script dépendra un peu de votre serveur de messagerie, mais cela ne devrait pas être difficile à comprendre.

(Notez que je n'ai parlé que d'une grande partie de ma configuration afin que vous puissiez voir les possibilités de cette option)

PS: Personnellement, je n'ai jamais reçu ce type d'e-mails de spam (avec des goodies liés à la programmation), donc je me demande si vous n'avez pas énervé quelqu'un et maintenant vous êtes ciblé. Cela expliquerait les courriels spécialement conçus. La raison pour laquelle je pense à cette possibilité est qu'il y a des années, quand j'étais très actif sur divers forums et groupes informatiques, j'ai énervé certaines personnes et de temps en temps, j'avais l'habitude d'attaquer divers types d'attaques sur mon serveur, y compris le spam par courrier électronique. . Mais à l'époque, les idiots n'étaient pas si intelligents :)

— ciuly
source