Filtres Bayesiens ou méthode Bayésienne

Définition et fonctionnement des filtres bayésiens

Qu’est-ce que les filtres bayésiens ?

Définition: Les filtres bayésiens, également connus sous le nom de classificateurs bayésiens, sont des techniques utilisées dans la sécurité de l’e-mail pour filtrer et classer les e-mails en fonction de leur probabilité d’être du courrier indésirable (spam) ou du courrier légitime. Ces filtres sont basés sur le théorème de Bayes, un concept statistique développé par le mathématicien Thomas Bayes.

Méthode probabiliste de filtrage des courriers électroniques fonctionnant par apprentissage et se basant sur la distribution statistique de mots-clés dans les mails. Ce type d’algorithme utilise une base la plus hétérogène possible de spams et de hams (messages légitimes) afin d’être capable par la suite de reconnaître le type de message reçu.

Glossaire Filtres bayésiens

Quel est le fonctionnement des filtres bayésiens ?

Les filtres bayésiens fonctionnent en analysant le contenu des emails et en attribuant des probabilités à certaines caractéristiques ou mots-clés qui peuvent être associés au spam ou au courrier légitime. Leur fonctionnement peut être résumé en quelques étapes :

  1. Entraînement du filtre : Initialement, le filtre est entraîné en utilisant un ensemble d’échantillons d’emails connus, à la fois spam et courrier légitime. Ces échantillons servent de base pour établir des probabilités initiales.
  2. Attribution de poids : Le filtre attribue des poids aux différentes caractéristiques des emails, telles que les mots-clés, les en-têtes, les adresses d’expéditeur, etc. Ces poids sont basés sur les probabilités calculées lors de l’étape d’entraînement.
  3. Calcul des probabilités : Lorsqu’un nouvel email arrive, le filtre calcule la probabilité que cet email soit du spam ou du courrier légitime en combinant les probabilités associées à ses caractéristiques. Une formule de calcul basée sur le théorème de Bayes est utilisée pour obtenir une probabilité globale.
  4. Classification : En fonction de la probabilité calculée, l’email est classé comme spam ou courrier légitime. Un seuil prédéfini peut être utilisé pour déterminer le point de coupure entre les deux catégories.
  5. Amélioration continue : Le filtre bayésien s’améliore avec le temps en ajustant les poids attribués aux caractéristiques en fonction des retours d’expérience et des corrections manuelles effectuées par les utilisateurs.

Les filtres bayésiens sont efficaces pour filtrer les courriers indésirables, car ils s’adaptent aux nouvelles tendances du spam en mettant à jour leurs probabilités et leurs poids. Cependant, ils peuvent également produire des faux-positifs ou des faux-négatifs, d’où la nécessité d’autres techniques de sécurité email pour compléter leur fonctionnement.

Exemples

Deux bases sont créées, une de spams et une de hams (messages légitimes). Par une phase d’apprentissage, un dictionnaire de mots-clés est créé dans lequel chaque terme est associé avec une probabilité. Par exemple : viagra 100%, sécurité 20%, messagerie 10% et gratuit 60%.Ensuite lors de l’analyse d’un email, si les mots du lexique existent, la somme des probabilités de chaque mot-clé retrouvé est affectée au mail. En suivant notre exemple, si un email contient les mots « sécurité serveur messagerie gratuit », le mail obtiendra une note de: (20% + 10% + 60%) / 3, soit : 30%. Il s’agit donc d’un message légitime puisque la note est inférieure à 50%. Avec un grand nombre de spams et de hams, cette technique permet d’obtenir des résultats d’analyse très intéressants.

Applications

La plupart des clients de messagerie intégrant un antispam (Thunderbird, Outlook,…) utilisent quasi exclusivement les filtres bayésiens. Dans ALTOSPAM, les filtres bayésiens font partie des 15 technologies utilisées. Suivant la note obtenue (entre 0 et 100%), le mail sera classé plus probablement comme un spam ou un ham.

Vous souhaitez renforcer la sécurité de votre messagerie ?

La sécurité commence dans vos boîtes mails. Phishing, Spear Phishing, malware, ransomware, spam, virus, nous offrons une analyse gratuite de votre messagerie pendant 15 jours.