Detección de toxicidad

Uso de modelos de procesamiento de lenguaje natural para puntuar el contenido generado por los usuarios según su hostilidad, odio, acoso o lenguaje abusivo, normalmente como entrada de una decisión de moderación.

La detección de toxicidad es la práctica de hacer pasar cada contribución de usuario por un modelo de aprendizaje automático que produce una puntuación : ¿qué tan tóxico, hostil o abusivo resulta este mensaje ? Para un sistema de comentarios de prensa, la detección de toxicidad es el primer filtro antes de que entre en juego cualquier otra regla de moderación.

Qué significa realmente “tóxico”

No existe una única definición. La mayoría de los modelos clasifican según varios ejes :

  • Toxicidad grave, insultos explícitos, expresiones despectivas, llamadas a la violencia.
  • Odio, hostilidad dirigida contra un grupo (étnico, religioso, político, orientación sexual).
  • Acoso, abuso reiterado contra una persona concreta.
  • Spam, contenido promocional irrelevante.
  • Amenazas, amenazas creíbles de daño.

Cada eje suele producir una puntuación de 0 a 1. La política de moderación del editor fija los umbrales : rechazo automático por encima de 0,9 en toxicidad grave, envío a la cola humana entre 0,6 y 0,9, etc.

Por qué los modelos genéricos fallan con el contenido de prensa

La mayoría de los modelos de toxicidad listos para usar (Perspective API, moderación de OpenAI, etc.) se entrenaron con datos de redes sociales, Reddit, Wikipedia, Twitter. Funcionan bien en esos dominios, pero rinden peor con los comentarios de prensa porque :

  • Los comentarios de noticias a menudo contienen opinión política contundente que el modelo malinterpreta como toxicidad.
  • El material citado (extractos de artículos, citas polémicas) se marca incluso cuando es adecuado en su contexto.
  • El tono editorial, el sarcasmo, las preguntas retóricas, la ironía habituales en los artículos de opinión, confunden al modelo.
  • La cobertura multilingüe, las audiencias de prensa suelen no ser angloparlantes, y los modelos genéricos se degradan considerablemente fuera del inglés.

El modelo de toxicidad de Logora está entrenado con más de 1M de comentarios de redacciones europeas en francés, alemán, italiano, español, portugués e inglés. La tasa de falsos positivos en contenido de prensa es significativamente más baja que en los modelos genéricos.

Puntuación de toxicidad + cola humana = la regla 85/15

En producción, la detección de toxicidad por sí sola no basta. El modelo gestiona :

  • El 65 % limpio, aprobación automática y publicación.
  • El 20 % claramente tóxico, rechazo automático con una declaración de motivos visible para el usuario.
  • El 15 % ambiguo, escalado al moderador humano con la puntuación de toxicidad, el razonamiento del modelo y una interfaz de acción rápida.

Este es el modelo operativo con el que trabajan Der Spiegel y Milenio.

Conceptos relacionados

Consulta la comparativa Logora vs Disqus para ver cómo difieren los modelos de toxicidad entre proveedores.

⌘K / Ctrl+K para abrir