Toxizitätserkennung

Einsatz von NLP-Modellen, um nutzergenerierte Inhalte auf Feindseligkeit, Hass, Belästigung oder beleidigende Sprache zu bewerten, meist als Eingabe für eine Moderationsentscheidung.

Toxizitätserkennung ist die Praxis, jeden Nutzerbeitrag durch ein Machine-Learning-Modell laufen zu lassen, das einen Score ausgibt : Wie toxisch, feindselig oder beleidigend liest sich diese Nachricht ? Für ein Presse-Kommentarsystem ist die Toxizitätserkennung der erste Filter, bevor irgendeine andere Moderationsregel greift.

Was “toxisch” eigentlich bedeutet

Es gibt keine einheitliche Definition. Die meisten Modelle klassifizieren entlang mehrerer Achsen :

  • Schwere Toxizität, explizite Beleidigungen, Schmähungen, Gewaltaufrufe.
  • Hass, gezielte Feindseligkeit gegen eine Gruppe (ethnisch, religiös, politisch, sexuelle Orientierung).
  • Belästigung, wiederholter Missbrauch einer bestimmten Person.
  • Spam, irrelevante werbliche Inhalte.
  • Drohungen, glaubhafte Schadensdrohungen.

Jede Achse gibt üblicherweise einen Score von 0 bis 1 aus. Die Moderationsrichtlinie des Publishers legt die Schwellenwerte fest : automatische Ablehnung über 0,9 bei schwerer Toxizität, Weiterleitung in die menschliche Warteschlange zwischen 0,6 und 0,9 usw.

Warum generische Modelle bei Presseinhalten versagen

Die meisten Standard-Toxizitätsmodelle (Perspective API, OpenAI Moderation usw.) wurden mit Social-Media-Daten trainiert, Reddit, Wikipedia, Twitter. Sie funktionieren in diesen Bereichen gut, schneiden aber bei Pressekommentaren schlechter ab, weil :

  • Nachrichtenkommentare oft starke politische Meinungen enthalten, die das Modell als Toxizität fehlinterpretiert.
  • Zitiertes Material (Auszüge aus Artikeln, polemische Zitate) markiert wird, selbst wenn es im Kontext unbedenklich ist.
  • Redaktioneller Ton, Sarkasmus, rhetorische Fragen, Ironie, die in Meinungsbeiträgen häufig vorkommen, das Modell verwirren.
  • Mehrsprachige Abdeckung, da Presse-Publikum oft nicht englischsprachig ist und generische Modelle außerhalb des Englischen deutlich nachlassen.

Das Toxizitätsmodell von Logora ist mit über 1 Mio. Kommentaren aus europäischen Redaktionen in Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch und Englisch trainiert. Die Falsch-Positiv-Rate bei Presseinhalten ist deutlich niedriger als bei generischen Modellen.

Toxizitäts-Score + menschliche Warteschlange = die 85/15-Regel

In der Produktion reicht die Toxizitätserkennung allein nicht aus. Das Modell verarbeitet :

  • Die sauberen 65 %, automatische Freigabe und Veröffentlichung.
  • Die eindeutig toxischen 20 %, automatische Ablehnung mit einer für den Nutzer sichtbaren Begründung.
  • Die mehrdeutigen 15 %, Eskalation an die menschliche Moderation mit dem Toxizitäts-Score, der Begründung des Modells und einer schnellen Aktions-Oberfläche.

Das ist das operative Modell, mit dem Der Spiegel und Milenio arbeiten.

Verwandte Konzepte

Siehe den Vergleich Logora vs Disqus, um zu erfahren, wie sich Toxizitätsmodelle zwischen Anbietern unterscheiden.

⌘K / Strg+K zum Öffnen