Moderation & Sicherheit
Blockliste (und Schimpfwortfilter)
Liste von Begriffen, die einen Beitrag automatisch ablehnen oder markieren, abzugrenzen von einer Liste verdächtiger Wörter, die Inhalte je nach Kontext zur menschlichen Prüfung weiterleitet.
Eine Blockliste (oder Schimpfwortfilter) ist eine Liste von Begriffen, die einen Beitrag automatisch ablehnen oder markieren, sobald einer von ihnen auftaucht. Sie ist das älteste und einfachste Moderationswerkzeug : eine Beleidigung oder ein verbotenes Wort löst eine feste Aktion aus, ohne jede Beurteilung des Kontexts.
Blockliste vs Liste verdächtiger Wörter
Diese beiden Listen erfüllen sehr unterschiedliche Aufgaben.
- Blockliste (automatische Ablehnung) : Begriffe, die so selten akzeptabel sind, dass ihr Vorhandensein eine sofortige Blockierung des Beitrags rechtfertigt. Die Aktion erfolgt automatisch.
- Liste verdächtiger Wörter (Weiterleitung an Menschen) : mehrdeutige Begriffe, die vom Kontext abhängen. Ein Wort wie “Opfer” sollte nicht blockiert werden, es kann ebenso auf ein sensibles Zeugnis wie auf eine Beleidigung hinweisen, also leitet es den Beitrag zur genaueren Prüfung in die menschliche Warteschlange.
Die Unterscheidung ist wichtig : ein mehrdeutiges Wort automatisch abzulehnen bringt legitime Äußerungen zum Schweigen, während jede verbotene Beleidigung an einen Menschen zu schicken die Zeit der Moderatoren verschwendet.
Grenzen
Schlüsselwortlisten lassen sich leicht umgehen. Nutzer überlisten sie mit Leerzeichen, Akzenten, Leetspeak oder Homoglyphen (am Filter vorbeischreiben). Sie erzeugen außerdem Fehlalarme : der klassische Fall ist eine verbotene Teilzeichenkette, die in einem längeren, harmlosen Wort versteckt ist. Eine Blockliste ist daher ein erster Filter, keine vollständige Moderationsstrategie.
Wie Logora damit umgeht
Logora gibt jedem Herausgeber eine editierbare Blockliste : die Redaktion entscheidet, welche Begriffe automatisch abgelehnt werden, und kann die Liste an ihr Publikum und ihre redaktionelle Linie anpassen. Daneben pflegt Logora eine kontextuelle Liste verdächtiger Wörter, die nicht blockiert, sondern markierte Beiträge in die Moderationswarteschlange leitet, wo ein Mensch sie im Kontext liest. Beide Listen ergänzen die KI-Moderationsmodelle, statt sie zu ersetzen.
Siehe Spam-Erkennung, Content-Moderation, Toxizitätserkennung und Moderationswarteschlange.