Modération & sécurité
Détection de spam
Sous-tâche de modération visant à repérer les contributions promotionnelles, automatisées, truffées de liens ou hors-sujet, distincte de la détection de toxicité mais traitée par le même pipeline.
La détection de spam est la sous-tâche de modération qui intercepte les contributions qui ne sont pas toxiques au sens du discours de haine mais qui n’ont pas leur place pour autant : contenu promotionnel, publicité en copier-coller, fermes de liens, textes de remplissage générés par IA, charges politiques hors-sujet.
À quoi ressemble le spam sur un site de presse
- Promotionnel : « Achetez sur XYZ.com !! » avec des liens d’affiliation.
- Fermes de liens : la même URL publiée sous 50 articles par un compte tout neuf.
- Coordonné : le même paragraphe republié sur des dizaines d’articles en quelques minutes (souvent automatisé).
- Remplissage généré par IA : récemment, une hausse des commentaires fades générés par LLM, conçus pour faire vieillir des comptes avant des abus plus agressifs.
Comment Logora le gère
Le modèle anti-spam de Logora tourne sur le même pipeline que la détection de toxicité, mais avec des signaux différents : réputation des URL, vélocité de publication par compte, similarité entre les contributions récentes, ancienneté du compte, empreinte linguistique. Au-delà d’un seuil, les contributions sont bloquées automatiquement. Les cas limites atterrissent dans la file de modération.
Pour les attaques coordonnées (un flot de contenus similaires sur plusieurs comptes), la limitation de débit et le score de similarité de Logora détectent le schéma dès les 5 à 10 premières publications et appliquent une période de refroidissement temporaire.
Voir modération par IA, modération de contenu et détection de toxicité.