Moderación con IA

Uso del aprendizaje automático para detectar, filtrar o clasificar automáticamente el contenido generado por los usuarios según su toxicidad, relevancia, idioma e infracciones de políticas, normalmente combinado con revisión humana para los casos límite.

La moderación con IA es la práctica de canalizar el contenido generado por los usuarios a través de modelos de aprendizaje automático para puntuarlo en dimensiones como la toxicidad, el discurso de odio, el spam, la falta de relevancia temática o el cumplimiento de las políticas, antes de que ningún moderador humano lo vea. En una configuración moderna de redacción, se combina con una capa de revisión humana para los casos en los que el modelo no está seguro.

Por qué las redacciones la necesitan

Un diario regional con 30 artículos al día y 25 comentarios por artículo recibe unos 187.500 comentarios al año. Revisar cada uno a mano cuesta aproximadamente dos minutos por elemento, es decir, 6.250 horas de trabajo, o de tres a cuatro moderadores a tiempo completo. A 50 €/hora con todos los costes incluidos, eso supone un cuarto de millón de euros al año, solo para filtrar lo que nunca debería haberse publicado.

La moderación con IA da la vuelta a las cuentas: el modelo se ocupa del 85 % que es claramente aceptable o claramente inaceptable, y el equipo solo revisa el 15 % en disputa. En Der Spiegel, esto convirtió la moderación de un gran lastre operativo en una tarea editorial rutinaria.

Qué hace una buena moderación con IA

Un motor de moderación de nivel de producción para comentarios de prensa debería:

  • Detectar toxicidad, discurso de odio, amenazas y spam en los idiomas que utiliza tu audiencia.
  • Detectar la relevancia respecto al artículo (fuera de tema, promocional, contenido automatizado).
  • Proporcionar una puntuación de confianza, no una decisión binaria, para que el revisor humano pueda priorizar el 15 % que lo necesita.
  • Estar entrenado con contenido de prensa, no con datos genéricos de redes sociales: el tono y los casos límite de los comentarios bajo un artículo de noticias son distintos de los de un hilo de Reddit.
  • Registrar cada decisión con marca de tiempo, versión del modelo, puntuación y regla aplicada, para los informes de transparencia del DSA.

La regla del 85 % + 15 %

En las redacciones europeas que utilizan Logora, el motor de moderación gestiona automáticamente alrededor del 85 % de los comentarios entrantes (aprobados o rechazados sin intervención humana). El 15 % restante llega a la cola de moderación, donde el papel del equipo es arbitrar la ambigüedad, no ahogarse en el volumen.

El modelo nunca tiene la última palabra sobre el contenido dudoso. Bloquearlo todo automáticamente reduciría los costes de moderación, pero rompería la confianza editorial. La revisión humana del 15 % es precisamente lo que hace que el sistema sea seguro de operar.

Implicaciones del DSA

El artículo 14 del DSA exige que cualquier decisión automatizada sobre el contenido de un usuario venga acompañada de una declaración de motivos. El usuario debe entender qué se ha señalado, en virtud de qué regla y cómo recurrir.

El sistema de moderación de Logora se ha construido en torno a este requisito: cada decisión automatizada se registra con la versión del modelo, la puntuación, la regla y el texto del motivo que se muestra al usuario. El informe anual de transparencia del DSA reúne estos datos automáticamente.

Conceptos relacionados

Consulta Logora frente a Netino para ver cómo se compara la moderación con IA con un servicio de moderación puramente BPO.

⌘K / Ctrl+K para abrir