Moderation & Sicherheit
Toxizitätserkennung
Einsatz von NLP-Modellen, um nutzergenerierte Inhalte auf Feindseligkeit, Hass, Belästigung oder beleidigende Sprache zu bewerten, meist als Eingabe für eine Moderationsentscheidung.
Toxizitätserkennung ist die Praxis, jeden Nutzerbeitrag durch ein Machine-Learning-Modell laufen zu lassen, das einen Score ausgibt : Wie toxisch, feindselig oder beleidigend liest sich diese Nachricht ? Für ein Presse-Kommentarsystem ist die Toxizitätserkennung der erste Filter, bevor irgendeine andere Moderationsregel greift.
Was “toxisch” eigentlich bedeutet
Es gibt keine einheitliche Definition. Die meisten Modelle klassifizieren entlang mehrerer Achsen :
- Schwere Toxizität, explizite Beleidigungen, Schmähungen, Gewaltaufrufe.
- Hass, gezielte Feindseligkeit gegen eine Gruppe (ethnisch, religiös, politisch, sexuelle Orientierung).
- Belästigung, wiederholter Missbrauch einer bestimmten Person.
- Spam, irrelevante werbliche Inhalte.
- Drohungen, glaubhafte Schadensdrohungen.
Jede Achse gibt üblicherweise einen Score von 0 bis 1 aus. Die Moderationsrichtlinie des Publishers legt die Schwellenwerte fest : automatische Ablehnung über 0,9 bei schwerer Toxizität, Weiterleitung in die menschliche Warteschlange zwischen 0,6 und 0,9 usw.
Warum generische Modelle bei Presseinhalten versagen
Die meisten Standard-Toxizitätsmodelle (Perspective API, OpenAI Moderation usw.) wurden mit Social-Media-Daten trainiert, Reddit, Wikipedia, Twitter. Sie funktionieren in diesen Bereichen gut, schneiden aber bei Pressekommentaren schlechter ab, weil :
- Nachrichtenkommentare oft starke politische Meinungen enthalten, die das Modell als Toxizität fehlinterpretiert.
- Zitiertes Material (Auszüge aus Artikeln, polemische Zitate) markiert wird, selbst wenn es im Kontext unbedenklich ist.
- Redaktioneller Ton, Sarkasmus, rhetorische Fragen, Ironie, die in Meinungsbeiträgen häufig vorkommen, das Modell verwirren.
- Mehrsprachige Abdeckung, da Presse-Publikum oft nicht englischsprachig ist und generische Modelle außerhalb des Englischen deutlich nachlassen.
Das Toxizitätsmodell von Logora ist mit über 1 Mio. Kommentaren aus europäischen Redaktionen in Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch und Englisch trainiert. Die Falsch-Positiv-Rate bei Presseinhalten ist deutlich niedriger als bei generischen Modellen.
Toxizitäts-Score + menschliche Warteschlange = die 85/15-Regel
In der Produktion reicht die Toxizitätserkennung allein nicht aus. Das Modell verarbeitet :
- Die sauberen 65 %, automatische Freigabe und Veröffentlichung.
- Die eindeutig toxischen 20 %, automatische Ablehnung mit einer für den Nutzer sichtbaren Begründung.
- Die mehrdeutigen 15 %, Eskalation an die menschliche Moderation mit dem Toxizitäts-Score, der Begründung des Modells und einer schnellen Aktions-Oberfläche.
Das ist das operative Modell, mit dem Der Spiegel und Milenio arbeiten.
Verwandte Konzepte
Siehe den Vergleich Logora vs Disqus, um zu erfahren, wie sich Toxizitätsmodelle zwischen Anbietern unterscheiden.