Moderacja i bezpieczeństwo
Wykrywanie toksyczności
Wykorzystanie modeli przetwarzania języka naturalnego do oceny treści tworzonych przez użytkowników pod kątem wrogości, mowy nienawiści, nękania lub obraźliwego języka, zwykle jako podstawa decyzji moderacyjnej.
Wykrywanie toksyczności to praktyka przepuszczania każdego wkładu użytkownika przez model uczenia maszynowego, który zwraca ocenę : jak bardzo toksyczna, wroga lub obraźliwa jest dana wiadomość ? W systemie komentarzy prasowych wykrywanie toksyczności jest pierwszym filtrem, zanim zacznie działać jakakolwiek inna reguła moderacji.
Co naprawdę oznacza „toksyczny”
Nie istnieje jedna definicja. Większość modeli klasyfikuje treści według wielu osi :
- Skrajna toksyczność, jawne zniewagi, obelgi, nawoływanie do przemocy.
- Nienawiść, ukierunkowana wrogość wobec grupy (etnicznej, religijnej, politycznej, ze względu na orientację seksualną).
- Nękanie, powtarzające się znęcanie się nad konkretną osobą.
- Spam, nieistotne treści promocyjne.
- Groźby, wiarygodne groźby wyrządzenia krzywdy.
Każda oś zwykle zwraca ocenę od 0 do 1. Polityka moderacji wydawcy ustala progi : automatyczne odrzucenie powyżej 0,9 dla skrajnej toksyczności, skierowanie do kolejki obsługiwanej przez człowieka między 0,6 a 0,9 itd.
Dlaczego generyczne modele zawodzą na treściach prasowych
Większość gotowych modeli toksyczności (Perspective API, moderacja OpenAI itd.) była trenowana na danych z mediów społecznościowych, Reddita, Wikipedii, Twittera. Sprawdzają się w tych domenach, ale wypadają gorzej w przypadku komentarzy prasowych, ponieważ :
- Komentarze pod artykułami często zawierają mocne opinie polityczne, które model błędnie odczytuje jako toksyczność.
- Materiał cytowany (fragmenty artykułów, polemiczne cytaty) zostaje oznaczany, nawet gdy w kontekście jest w porządku.
- Ton redakcyjny, sarkazm, pytania retoryczne, ironia powszechne w tekstach opiniotwórczych dezorientują model.
- Obsługa wielojęzyczna, odbiorcy prasy często nie posługują się językiem angielskim, a generyczne modele znacząco tracą na jakości poza językiem angielskim.
Model toksyczności Logora jest trenowany na ponad 1 mln komentarzy z europejskich redakcji w językach francuskim, niemieckim, włoskim, hiszpańskim, portugalskim i angielskim. Wskaźnik fałszywych alarmów na treściach prasowych jest znacznie niższy niż w przypadku modeli generycznych.
Ocena toksyczności + kolejka ludzka = zasada 85/15
W środowisku produkcyjnym samo wykrywanie toksyczności nie wystarcza. Model obsługuje :
- Czyste 65%, automatyczne zatwierdzenie i publikacja.
- Wyraźnie toksyczne 20%, automatyczne odrzucenie z uzasadnieniem widocznym dla użytkownika.
- Niejednoznaczne 15%, eskalacja do moderatora-człowieka wraz z oceną toksyczności, uzasadnieniem modelu i interfejsem szybkiego działania.
To model operacyjny stosowany przez Der Spiegel i Milenio.
Powiązane pojęcia
Zobacz porównanie Logora vs Disqus, aby dowiedzieć się, czym różnią się modele toksyczności u poszczególnych dostawców.