Detección de spam

Subtarea de moderación centrada en identificar contribuciones promocionales, automatizadas, plagadas de enlaces o fuera de tema, distinta de la detección de toxicidad pero gestionada normalmente por la misma cadena.

La detección de spam es la subtarea de moderación que detecta contribuciones que no son tóxicas en el sentido del discurso de odio, pero que aun así no tienen cabida: contenido promocional, publicidad de copiar y pegar, granjas de enlaces, texto de relleno generado por IA, cargas políticas fuera de tema.

Qué aspecto tiene el spam en un sitio de prensa

  • Promocional: “¡¡Compra en XYZ.com!!” con enlaces de afiliados.
  • Granjas de enlaces: la misma URL publicada bajo 50 artículos por una cuenta recién creada.
  • Coordinado: el mismo párrafo republicado en decenas de artículos en cuestión de minutos (a menudo automatizado).
  • Relleno generado por IA: recientemente, un repunte de comentarios insulsos generados por LLM diseñados para “envejecer” las cuentas antes de un abuso más agresivo.

Cómo lo gestiona Logora

El modelo de spam de Logora se ejecuta en la misma cadena que la detección de toxicidad, pero con señales diferentes: reputación de la URL, velocidad de publicación por cuenta, similitud entre contribuciones recientes, antigüedad de la cuenta, huella lingüística. Por encima de un umbral, las contribuciones se bloquean automáticamente. Los casos límite van a parar a la cola de moderación.

Para los ataques coordinados (una avalancha de contenido similar a través de varias cuentas), la limitación de frecuencia y la puntuación de similitud de Logora detectan el patrón en las primeras 5-10 publicaciones y aplican un periodo de enfriamiento temporal.

Consulta moderación con IA, moderación de contenidos y detección de toxicidad.

⌘K / Ctrl+K para abrir