Wykrywanie spamu

Podzadanie moderacji skupione na wykrywaniu treści promocyjnych, zautomatyzowanych, naszpikowanych linkami lub niezwiązanych z tematem, odrębne od wykrywania toksyczności, lecz zwykle obsługiwane przez ten sam pipeline.

Wykrywanie spamu to podzadanie moderacji, które wychwytuje treści niebędące toksycznymi w sensie mowy nienawiści, a mimo to niemające tu miejsca: treści promocyjne, reklamy kopiuj-wklej, farmy linków, wypełniacze generowane przez AI, polityczne wstawki niezwiązane z tematem.

Jak wygląda spam na serwisie prasowym

  • Promocyjny : “Kupuj na XYZ.com !!” z linkami afiliacyjnymi.
  • Farmy linków : ten sam adres URL publikowany pod 50 artykułami przez świeżo założone konto.
  • Skoordynowany : ten sam akapit przeklejany w dziesiątkach artykułów w ciągu kilku minut (często zautomatyzowany).
  • Wypełniacze generowane przez AI : ostatnio przybywa nijakich komentarzy generowanych przez LLM, których celem jest postarzenie kont przed bardziej agresywnymi nadużyciami.

Jak radzi sobie z tym Logora

Model spamu Logory działa na tym samym pipeline co wykrywanie toksyczności, ale na podstawie innych sygnałów : reputacja adresów URL, prędkość publikowania na koncie, podobieństwo między ostatnimi wpisami, wiek konta, odcisk językowy. Powyżej progu wpisy są automatycznie blokowane. Przypadki graniczne trafiają do kolejki moderacji.

W przypadku skoordynowanych ataków (zalewu podobnych treści z wielu kont) ograniczanie tempa publikacji oraz ocena podobieństwa stosowane przez Logorę wychwytują wzorzec już w ciągu pierwszych 5-10 wpisów i nakładają tymczasowy okres wyciszenia.

Zobacz moderacja AI, moderacja treści oraz wykrywanie toksyczności.

⌘K / Ctrl+K aby otworzyć