Moderacja i bezpieczeństwo
Wykrywanie mowy nienawiści
Wyspecjalizowane zadanie uczenia maszynowego w ramach moderacji treści: identyfikowanie wypowiedzi atakujących z wrogością daną grupę (etniczną, religijną, polityczną, ze względu na orientację seksualną), wykraczające poza ogólną ocenę toksyczności.
Wykrywanie mowy nienawiści to podzadanie moderacji skupione na wypowiedziach, które atakują grupę z wrogością, definiowaną przez pochodzenie etniczne, religię, przekonania polityczne, orientację seksualną, płeć lub niepełnosprawność. Jest bardziej szczegółowe niż wykrywanie toksyczności, a stawka prawna jest wyższa, ponieważ mowa nienawiści jest karnie regulowana w większości jurysdykcji UE (LCEN we Francji, NetzDG w Niemczech).
Dlaczego jest to trudne
Wykrywanie mowy nienawiści generuje więcej fałszywych alarmów niż ogólna ocena toksyczności, ponieważ:
- Cytowana nienawiść: dziennikarz lub komentator przytaczający mowę nienawiści, aby ją potępić, zostaje oznaczony.
- Odzyskane określenia obraźliwe: terminologia, która w jednym kontekście jest mową nienawiści, a w innym tożsamością wewnątrzgrupową.
- Język zakodowany: ewoluujące eufemizmy (“globaliści”, kody liczbowe) wymagają ciągłych aktualizacji modelu.
- Zróżnicowanie międzykulturowe: to, co we Francji odczytuje się jako swobodną zniewagę polityczną, może być mową nienawiści w świetle niemieckiego prawa.
Ogólne modele trenowane na języku angielskim pomijają większość tych przypadków. Wykrywanie nienawiści na poziomie prasowym wymaga: treningu wielojęzycznego, regularnego odświeżania zbiorów danych na korpusach specyficznych dla prasy oraz silnej kolejki ludzkiej do przypadków granicznych.
Ramy prawne
- Francja (LCEN): obowiązek usunięcia oznaczonych treści nienawistnych w ciągu 24 godzin. Uzasadnienie decyzji w trybie Artykułu 14 Logory obejmuje zawiadomienie o usunięciu zgodne z LCEN.
- Niemcy (NetzDG): usunięcie w ciągu 24 godzin treści nienawistnych “jednoznacznie nielegalnych”. Niemiecki potok moderacyjny Logory jest skalibrowany do progów NetzDG.
- UE (DSA): zharmonizowane obowiązki usuwania treści + raporty przejrzystości + uzasadnienia decyzji. Ramy nadrzędne.
Jak Logora radzi sobie z mową nienawiści
Warstwa wykrywania nienawiści Logory działa na bazie oceny toksyczności, ze scoringiem specyficznym dla kategorii (etniczna, religijna, polityczna, orientacja seksualna, płeć, niepełnosprawność). Progi są kalibrowane dla każdego wydawcy i każdego języka. Dzienniki audytu zasilają raport przejrzystości w trybie Artykułu 24 DSA.
Zobacz moderację AI, aby poznać szerszy potok.