Moderacja i bezpieczeństwo
Wykrywanie spamu
Podzadanie moderacji skupione na wykrywaniu treści promocyjnych, zautomatyzowanych, naszpikowanych linkami lub niezwiązanych z tematem, odrębne od wykrywania toksyczności, lecz zwykle obsługiwane przez ten sam pipeline.
Wykrywanie spamu to podzadanie moderacji, które wychwytuje treści niebędące toksycznymi w sensie mowy nienawiści, a mimo to niemające tu miejsca: treści promocyjne, reklamy kopiuj-wklej, farmy linków, wypełniacze generowane przez AI, polityczne wstawki niezwiązane z tematem.
Jak wygląda spam na serwisie prasowym
- Promocyjny : “Kupuj na XYZ.com !!” z linkami afiliacyjnymi.
- Farmy linków : ten sam adres URL publikowany pod 50 artykułami przez świeżo założone konto.
- Skoordynowany : ten sam akapit przeklejany w dziesiątkach artykułów w ciągu kilku minut (często zautomatyzowany).
- Wypełniacze generowane przez AI : ostatnio przybywa nijakich komentarzy generowanych przez LLM, których celem jest postarzenie kont przed bardziej agresywnymi nadużyciami.
Jak radzi sobie z tym Logora
Model spamu Logory działa na tym samym pipeline co wykrywanie toksyczności, ale na podstawie innych sygnałów : reputacja adresów URL, prędkość publikowania na koncie, podobieństwo między ostatnimi wpisami, wiek konta, odcisk językowy. Powyżej progu wpisy są automatycznie blokowane. Przypadki graniczne trafiają do kolejki moderacji.
W przypadku skoordynowanych ataków (zalewu podobnych treści z wielu kont) ograniczanie tempa publikacji oraz ocena podobieństwa stosowane przez Logorę wychwytują wzorzec już w ciągu pierwszych 5-10 wpisów i nakładają tymczasowy okres wyciszenia.
Zobacz moderacja AI, moderacja treści oraz wykrywanie toksyczności.