Hate-Speech-Erkennung

Spezialisierte Machine-Learning-Aufgabe innerhalb der Content-Moderation: Beiträge erkennen, die eine Gruppe (ethnisch, religiös, politisch, sexuelle Orientierung) feindselig angreifen, über die allgemeine Toxizitätsbewertung hinaus.

Hate-Speech-Erkennung ist die Moderations-Teilaufgabe, die sich auf Beiträge konzentriert, die eine Gruppe feindselig angreifen, definiert durch Ethnie, Religion, politische Überzeugung, sexuelle Orientierung, Geschlecht oder Behinderung. Sie ist spezifischer als die Toxizitätserkennung, und die rechtlichen Einsätze sind höher, weil Hassrede in den meisten EU-Rechtsordnungen strafrechtlich reguliert ist (LCEN in Frankreich, NetzDG (Netzwerkdurchsetzungsgesetz) in Deutschland).

Was sie so schwierig macht

Die Hate-Speech-Erkennung hat mehr False Positives als die allgemeine Toxizitätsbewertung, weil:

  • Zitierte Hassrede: Eine Journalistin oder ein Kommentator, der Hassrede zitiert, um sie anzuprangern, wird markiert.
  • Zurückeroberte Schimpfwörter: Begriffe, die in einem Kontext Hassrede sind und in einem anderen Ausdruck der Identität innerhalb der Gruppe.
  • Codierte Sprache: Sich ständig wandelnde Euphemismen (“Globalisten”, Zahlencodes) erfordern laufende Modell-Updates.
  • Kulturübergreifende Unterschiede: Was in Frankreich als beiläufige politische Beleidigung gelesen wird, kann nach deutschem Recht Hassrede sein.

Allgemeine, auf Englisch trainierte Modelle übersehen das Meiste davon. Hate-Speech-Erkennung in Presse-Qualität braucht: mehrsprachiges Training, regelmäßige Aktualisierung der Datensätze auf presse-spezifischen Korpora und eine starke menschliche Warteschlange für die Grenzfälle.

Rechtlicher Rahmen

  • Frankreich (LCEN): 24-Stunden-Löschpflicht für markierte Hass-Inhalte. Logoras Begründung nach Artikel 14 deckt die LCEN-Löschaufforderung ab.
  • Deutschland (NetzDG (Netzwerkdurchsetzungsgesetz)): 24-Stunden-Löschung für “offensichtlich rechtswidrige” Hass-Inhalte. Logoras deutsche Moderationspipeline ist auf die NetzDG-Schwellenwerte kalibriert.
  • EU (DSA): harmonisierte Löschpflichten + Transparenzberichte + Begründungen. Der übergeordnete Rahmen.

Wie Logora mit Hassrede umgeht

Logoras Hate-Detection-Schicht läuft oberhalb des Toxizitäts-Scores, mit kategoriespezifischer Bewertung (ethnisch, religiös, politisch, sexuelle Orientierung, Geschlecht, Behinderung). Schwellenwerte werden pro Medium und pro Sprache kalibriert. Audit-Protokolle fließen in den DSA-Transparenzbericht nach Artikel 24 ein.

Siehe KI-Moderation für die umfassendere Pipeline.

⌘K / Strg+K zum Öffnen