Modération & sécurité
Détection des discours haineux
Tâche spécialisée d'apprentissage automatique au sein de la modération de contenu : identifier les contributions qui ciblent un groupe (ethnique, religieux, politique, orientation sexuelle) avec hostilité, au-delà d'un score de toxicité générique.
La détection des discours haineux est la sous-tâche de modération centrée sur les contributions qui ciblent un groupe avec hostilité, défini par l’ethnie, la religion, l’opinion politique, l’orientation sexuelle, le genre, le handicap. Elle est plus spécifique que la détection de toxicité, et les enjeux juridiques sont plus élevés car le discours haineux est pénalement encadré dans la plupart des juridictions de l’UE (LCEN en France, NetzDG en Allemagne).
Pourquoi c’est difficile
La détection des discours haineux génère plus de faux positifs qu’un score de toxicité générique, parce que :
- Haine citée : un journaliste ou un commentateur qui cite un propos haineux pour le dénoncer se retrouve signalé.
- Insultes réappropriées : une terminologie qui relève du discours haineux dans un contexte devient marqueur identitaire interne dans un autre.
- Langage codé : des euphémismes qui évoluent (« mondialistes », codes numériques) imposent des mises à jour permanentes du modèle.
- Variance interculturelle : ce qui se lit comme une insulte politique anodine en France peut constituer un discours haineux au regard du droit allemand.
Les modèles génériques entraînés en anglais passent à côté de l’essentiel. Une détection de la haine au niveau de la presse exige : un entraînement multilingue, un rafraîchissement régulier des jeux de données sur des corpus propres à la presse, et une solide file d’attente humaine pour les cas limites.
Cadre juridique
- France (LCEN) : obligation de retrait sous 24 heures des contenus haineux signalés. L’exposé des motifs de Logora au titre de l’Article 14 couvre la notification de retrait LCEN.
- Allemagne (NetzDG) : retrait sous 24 heures des contenus haineux « manifestement illicites ». Le pipeline de modération allemand de Logora est calibré sur les seuils du NetzDG.
- UE (DSA) : obligations de retrait harmonisées + rapports de transparence + exposés des motifs. Le cadre-chapeau.
Comment Logora traite les discours haineux
La couche de détection de la haine de Logora s’exécute par-dessus le score de toxicité, avec un scoring par catégorie (ethnique, religieux, politique, orientation sexuelle, genre, handicap). Les seuils sont calibrés par média et par langue. Les journaux d’audit alimentent le rapport de transparence prévu à l’Article 24 du DSA.
Voir Modération par IA pour le pipeline plus large.