Moderacja i bezpieczeństwo
Moderacja human-in-the-loop
Model moderacji, w którym SI przetwarza cały wolumen i samodzielnie rozstrzyga przypadki jednoznaczne, podczas gdy moderator-człowiek arbitruje przypadki niejednoznaczne, których maszyna nie potrafi ocenić z pewnością.
Moderacja human-in-the-loop to model hybrydowy, w którym SI przetwarza pełny wolumen wpisów i samodzielnie rozstrzyga przypadki jednoznaczne, podczas gdy moderator-człowiek arbitruje wyłącznie przypadki niejednoznaczne. Maszyna zajmuje się czytaniem ; człowiek zajmuje się osądem tam, gdzie osąd jest naprawdę potrzebny.
Dlaczego żadna strona nie działa sama
Ten model istnieje, ponieważ obydwa czyste podejścia zawodzą, ale w przeciwnych kierunkach.
- Sama SI myli się co do kontekstu. Model ocenia tekst, a nie intencję. Ironia, cytowane wyzwiska, zawłaszczanie wewnątrz grupy, regionalny slang oraz odpowiedzi, które mają sens jedynie w odniesieniu do komentarza nadrzędnego, wytrącają ją z równowagi. Bez nadzoru blokuje zbyt wiele uprawnionych wypowiedzi i przepuszcza nadużycia zależne od kontekstu.
- Sam człowiek nie skaluje. Aktywna sekcja komentarzy generuje znacznie więcej wpisów, niż zespół jest w stanie przeczytać na bieżąco. Moderacja w 100% ręczna oznacza albo długie opóźnienia, albo reguły stosowane nierówno w miarę, jak moderatorzy się męczą.
Human-in-the-loop zachowuje mocne strony obu podejść : przepustowość automatyzacji, rozeznanie człowieka, przy czym ludzka uwaga jest poświęcana tylko tam, gdzie zmienia wynik.
Jak to działa w Logora
Logora stosuje ten model domyślnie :
- SI obsługuje około 85% on-site. Czyste wpisy są zatwierdzane automatycznie, a wyraźnie obraźliwe blokowane automatycznie, więc zespół redakcyjny nigdy nie widzi większości ruchu.
- Zespół przegląda tylko ~15% do osądzenia. Niepewne przypadki trafiają do dedykowanej ludzkiej kolejki, każdy przedstawiony wraz z wynikiem toksyczności i otaczającym kontekstem, którego moderator potrzebuje do podjęcia decyzji.
- QA przy uruchomieniu. Przez pierwsze trzy miesiące decyzje są weryfikowane, aby skalibrować progi do własnych reguł i tonu publikacji.
Powiązane pojęcia
- Moderacja SI, warstwa automatyczna
- Moderacja treści, szersza praktyka
- Kolejka moderacji, gdzie odbywa się praca ludzka
- Wykrywanie toksyczności