Moderacja i bezpieczeństwo
Moderacja AI
Wykorzystanie uczenia maszynowego do automatycznego wykrywania, filtrowania i porządkowania treści użytkowników według toksyczności, trafności, języka i naruszeń zasad, zwykle w połączeniu z weryfikacją przez moderatora w przypadkach granicznych.
Moderacja AI to praktyka przekazywania treści tworzonych przez użytkowników modelom uczenia maszynowego, które oceniają je pod kątem takich wymiarów jak toksyczność, mowa nienawiści, spam, brak związku z tematem czy zgodność z zasadami, zanim zobaczy je jakikolwiek moderator. W nowoczesnej redakcji jest ona połączona z warstwą weryfikacji przez człowieka dla przypadków, co do których model nie ma pewności.
Dlaczego redakcje jej potrzebują
Regionalny dziennik publikujący 30 artykułów dziennie i otrzymujący 25 komentarzy na artykuł zbiera ~187 500 komentarzy rocznie. Sprawdzenie każdego z nich ręcznie zajmuje około dwóch minut, co daje 6 250 godzin pracy, czyli trzech do czterech moderatorów na pełen etat. Przy koszcie 50 €/godzinę z pełnymi narzutami daje to ćwierć miliona euro rocznie, tylko po to, by odfiltrować to, co nigdy nie powinno było zostać opublikowane.
Moderacja AI odwraca ekonomię: model obsługuje 85% treści, które są wyraźnie w porządku lub wyraźnie nie do przyjęcia, a zespół weryfikuje jedynie sporne 15%. W Der Spiegel sprawiło to, że przepustowość moderacji zmieniła się z poważnego obciążenia operacyjnego w rutynowe zadanie redakcyjne.
Co robi dobra moderacja AI
Silnik moderacji klasy produkcyjnej dla komentarzy prasowych powinien:
- Wykrywać toksyczność, mowę nienawiści, groźby i spam w językach używanych przez Twoich odbiorców.
- Wykrywać trafność względem artykułu (brak związku z tematem, treści promocyjne, treści automatyczne).
- Dostarczać wynik pewności, a nie decyzję zero-jedynkową, aby moderator mógł nadać priorytet 15%, które naprawdę go wymagają.
- Być trenowany na treściach prasowych, a nie na ogólnych danych z mediów społecznościowych; ton i przypadki graniczne komentarzy pod artykułem prasowym różnią się od wątku na Reddicie.
- Rejestrować każdą decyzję ze znacznikiem czasu, wersją modelu, wynikiem i zastosowaną regułą, na potrzeby raportów przejrzystości wymaganych przez DSA.
Reguła 85% + 15%
W europejskich redakcjach korzystających z Logory silnik moderacji automatycznie obsługuje około 85% napływających komentarzy (zatwierdzonych lub odrzuconych bez udziału człowieka). Pozostałe 15% trafia do kolejki moderacyjnej, gdzie rolą zespołu jest rozstrzyganie niejednoznaczności, a nie tonięcie w ilości.
Model nigdy nie ma ostatniego słowa w sprawie treści granicznych. Automatyczne blokowanie wszystkiego obniżyłoby koszty moderacji, ale podważyłoby zaufanie redakcyjne. To właśnie weryfikacja 15% przez człowieka sprawia, że system jest bezpieczny w użyciu.
Konsekwencje wynikające z DSA
Artykuł 14 DSA wymaga, aby każda decyzja zautomatyzowana dotycząca treści użytkownika była opatrzona uzasadnieniem. Użytkownik musi rozumieć, co zostało oznaczone, na podstawie jakiej reguły i jak się odwołać.
Pipeline moderacji Logory został zbudowany wokół tego wymogu: każda decyzja zautomatyzowana jest rejestrowana wraz z wersją modelu, wynikiem, regułą oraz treścią uzasadnienia przeznaczoną dla użytkownika. Roczny raport przejrzystości DSA składa te dane automatycznie.
Powiązane pojęcia
- Moderacja treści, szersza praktyka
- Wykrywanie toksyczności, jeden z sygnałów modelu
- Moderacja wielojęzyczna, w wielu językach
- Artykuł 14 DSA, uzasadnienie decyzji zautomatyzowanych
Zobacz Logora vs Netino, aby dowiedzieć się, jak moderacja AI wypada w porównaniu z czysto outsourcingową (BPO) usługą moderacji.