Moderation & Sicherheit

Toxizitätserkennung

Einsatz von NLP-Modellen, um nutzergenerierte Inhalte auf Feindseligkeit, Hass, Belästigung oder beleidigende Sprache zu bewerten, meist als Eingabe für eine Moderationsentscheidung.

Aktualisiert 13. Mai 2026
Thema Toxizitätserkennung Kommentare · Toxizitätsmodell Nachrichten · Toxizitäts-Score Kommentar

Toxizitätserkennung ist die Praxis, jeden Nutzerbeitrag durch ein Machine-Learning-Modell laufen zu lassen, das einen Score ausgibt : Wie toxisch, feindselig oder beleidigend liest sich diese Nachricht ? Für ein Presse-Kommentarsystem ist die Toxizitätserkennung der erste Filter, bevor irgendeine andere Moderationsregel greift.

Was “toxisch” eigentlich bedeutet

Es gibt keine einheitliche Definition. Die meisten Modelle klassifizieren entlang mehrerer Achsen :

Schwere Toxizität, explizite Beleidigungen, Schmähungen, Gewaltaufrufe.
Hass, gezielte Feindseligkeit gegen eine Gruppe (ethnisch, religiös, politisch, sexuelle Orientierung).
Belästigung, wiederholter Missbrauch einer bestimmten Person.
Spam, irrelevante werbliche Inhalte.
Drohungen, glaubhafte Schadensdrohungen.

Jede Achse gibt üblicherweise einen Score von 0 bis 1 aus. Die Moderationsrichtlinie des Publishers legt die Schwellenwerte fest : automatische Ablehnung über 0,9 bei schwerer Toxizität, Weiterleitung in die menschliche Warteschlange zwischen 0,6 und 0,9 usw.

Warum generische Modelle bei Presseinhalten versagen

Die meisten Standard-Toxizitätsmodelle (Perspective API, OpenAI Moderation usw.) wurden mit Social-Media-Daten trainiert, Reddit, Wikipedia, Twitter. Sie funktionieren in diesen Bereichen gut, schneiden aber bei Pressekommentaren schlechter ab, weil :

Nachrichtenkommentare oft starke politische Meinungen enthalten, die das Modell als Toxizität fehlinterpretiert.
Zitiertes Material (Auszüge aus Artikeln, polemische Zitate) markiert wird, selbst wenn es im Kontext unbedenklich ist.
Redaktioneller Ton, Sarkasmus, rhetorische Fragen, Ironie, die in Meinungsbeiträgen häufig vorkommen, das Modell verwirren.
Mehrsprachige Abdeckung, da Presse-Publikum oft nicht englischsprachig ist und generische Modelle außerhalb des Englischen deutlich nachlassen.

Das Toxizitätsmodell von Logora ist mit über 1 Mio. Kommentaren aus europäischen Redaktionen in Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch und Englisch trainiert. Die Falsch-Positiv-Rate bei Presseinhalten ist deutlich niedriger als bei generischen Modellen.

Toxizitäts-Score + menschliche Warteschlange = die 85/15-Regel

In der Produktion reicht die Toxizitätserkennung allein nicht aus. Das Modell verarbeitet :

Die sauberen 65 %, automatische Freigabe und Veröffentlichung.
Die eindeutig toxischen 20 %, automatische Ablehnung mit einer für den Nutzer sichtbaren Begründung.
Die mehrdeutigen 15 %, Eskalation an die menschliche Moderation mit dem Toxizitäts-Score, der Begründung des Modells und einer schnellen Aktions-Oberfläche.

Das ist das operative Modell, mit dem Der Spiegel und Milenio arbeiten.

Toxizitätserkennung

Was “toxisch” eigentlich bedeutet

Warum generische Modelle bei Presseinhalten versagen

Toxizitäts-Score + menschliche Warteschlange = die 85/15-Regel

Verwandte Konzepte

Produkt

Anleitungen

Beispiele

Über uns

Rechtliches