Lista blokowanych słów (i filtr wulgaryzmów)

Lista terminów, które automatycznie odrzucają lub oznaczają wpis, odrębna od listy podejrzanych słów, która kieruje treść do moderacji ludzkiej w zależności od kontekstu.

Lista blokowanych słów (lub filtr wulgaryzmów) to lista terminów, które automatycznie odrzucają lub oznaczają wpis, gdy tylko pojawi się jeden z nich. To najstarsze i najprostsze narzędzie moderacji : obelga lub zakazane słowo uruchamia stałą akcję, bez żadnej oceny kontekstu.

Lista blokowanych słów vs lista podejrzanych słów

Te dwie listy pełnią bardzo różne funkcje.

  • Lista blokowanych słów (automatyczne odrzucenie) : terminy tak rzadko dopuszczalne, że ich obecność uzasadnia natychmiastowe zablokowanie wpisu. Akcja jest automatyczna.
  • Lista podejrzanych słów (kierowanie do ludzi) : terminy wieloznaczne, zależne od kontekstu. Słowo takie jak “ofiara” nie powinno być blokowane, może sygnalizować wrażliwe świadectwo równie dobrze jak obelgę, więc kieruje wpis do kolejki ludzkiej do uważniejszego przeczytania.

To rozróżnienie ma znaczenie : automatyczne odrzucanie wieloznacznego słowa ucisza uprawnione wypowiedzi, a wysyłanie każdej zakazanej obelgi do człowieka marnuje czas moderatorów.

Ograniczenia

Listy słów kluczowych łatwo obejść. Użytkownicy je oszukują za pomocą spacji, akcentów, leetspeaku lub homoglifów (pisząc dookoła filtra). Generują też fałszywe trafienia : klasycznym przypadkiem jest zakazany ciąg znaków ukryty wewnątrz dłuższego, niewinnego słowa. Lista blokowanych słów jest więc pierwszym filtrem, a nie kompletną strategią moderacji.

Jak radzi sobie z tym Logora

Logora daje każdemu wydawcy edytowalną listę blokowanych słów : redakcja decyduje, które terminy są automatycznie odrzucane, i może dostosować listę do swojej publiczności oraz linii redakcyjnej. Obok niej Logora utrzymuje kontekstową listę podejrzanych słów, która nie blokuje, lecz kieruje oznaczone wpisy do kolejki moderacji, gdzie człowiek czyta je w kontekście. Obie listy uzupełniają modele moderacji AI, zamiast je zastępować.

Zobacz wykrywanie spamu, moderacja treści, wykrywanie toksyczności oraz kolejka moderacji.

⌘K / Ctrl+K aby otworzyć