Détection de toxicité

Utilisation de modèles de traitement du langage naturel pour évaluer le degré d'hostilité, de haine, de harcèlement ou d'abus d'un contenu utilisateur, en amont d'une décision de modération.

La détection de toxicité consiste à faire passer chaque contribution d’utilisateur dans un modèle de machine learning qui produit un score : à quel point ce message est-il toxique, hostile ou abusif ? Pour un système de commentaires de presse, la détection de toxicité est le premier filtre, avant que toute autre règle de modération n’entre en jeu.

Ce que « toxique » signifie réellement

Il n’existe pas de définition unique. La plupart des modèles classent selon plusieurs axes :

  • Toxicité sévère : insultes explicites, injures, appels à la violence.
  • Haine : hostilité ciblée contre un groupe (ethnique, religieux, politique, orientation sexuelle).
  • Harcèlement : abus répétés contre un individu précis.
  • Spam : contenu promotionnel hors sujet.
  • Menaces : menaces crédibles de préjudice.

Chaque axe produit généralement un score de 0 à 1. La politique de modération de l’éditeur fixe les seuils : rejet automatique au-dessus de 0,9 sur la toxicité sévère, envoi en file d’attente humaine entre 0,6 et 0,9, etc.

Pourquoi les modèles génériques échouent sur le contenu de presse

La plupart des modèles de toxicité prêts à l’emploi (Perspective API, modération OpenAI, etc.) ont été entraînés sur des données de réseaux sociaux : Reddit, Wikipedia, Twitter. Ils fonctionnent bien sur ces domaines mais sont moins performants sur les commentaires de presse car :

  • Les commentaires d’actualité contiennent souvent de fortes opinions politiques que le modèle confond avec de la toxicité.
  • Les éléments cités (extraits d’articles, citations polémiques) sont signalés même lorsqu’ils sont contextuellement acceptables.
  • Le ton éditorial (sarcasme, questions rhétoriques, ironie, courants dans les tribunes d’opinion) trompe le modèle.
  • La couverture multilingue : les audiences de presse sont souvent non anglophones, et les modèles génériques se dégradent fortement en dehors de l’anglais.

Le modèle de toxicité de Logora est entraîné sur plus d’1M de commentaires issus de rédactions européennes en français, allemand, italien, espagnol, portugais et anglais. Le taux de faux positifs sur le contenu de presse est nettement plus bas que celui des modèles génériques.

Score de toxicité + file d’attente humaine = la règle des 85/15

En production, la détection de toxicité seule ne suffit pas. Le modèle traite :

  • Les 65 % propres : approbation automatique et publication.
  • Les 20 % clairement toxiques : rejet automatique avec un exposé des motifs présenté à l’utilisateur.
  • Les 15 % ambigus : escalade vers le modérateur humain avec le score de toxicité, le raisonnement du modèle et une interface d’action rapide.

C’est le modèle opérationnel utilisé par Der Spiegel et Milenio.

Concepts liés

Voir la comparaison Logora vs Disqus pour comprendre comment les modèles de toxicité diffèrent d’un fournisseur à l’autre.

⌘K / Ctrl+K pour ouvrir