Detección de discurso de odio

Tarea especializada de aprendizaje automático dentro de la moderación de contenidos: identificar contribuciones que atacan con hostilidad a un grupo (étnico, religioso, político, orientación sexual), más allá de la puntuación genérica de toxicidad.

La detección de discurso de odio es la subtarea de moderación centrada en las contribuciones que atacan a un grupo con hostilidad, definido por etnia, religión, creencia política, orientación sexual, género o discapacidad. Es más específica que la detección de toxicidad, y los riesgos legales son mayores porque el discurso de odio está regulado penalmente en la mayoría de las jurisdicciones de la UE (LCEN en Francia, NetzDG en Alemania).

Por qué es difícil

La detección de discurso de odio genera más falsos positivos que la puntuación genérica de toxicidad porque:

  • Odio citado: un periodista o comentarista que cita un discurso de odio para denunciarlo queda marcado.
  • Insultos reapropiados: terminología que es discurso de odio en un contexto y, en otro, identidad de un grupo.
  • Lenguaje en clave: eufemismos cambiantes (“globalistas”, códigos numéricos) que exigen actualizaciones constantes del modelo.
  • Variación intercultural: lo que en Francia se lee como un insulto político informal puede ser discurso de odio según la ley alemana.

Los modelos genéricos entrenados en inglés se pierden la mayor parte de esto. La detección de odio con calidad periodística necesita: entrenamiento multilingüe, actualización periódica de los conjuntos de datos con corpus específicos de prensa y una sólida cola humana para los casos límite.

  • Francia (LCEN): obligación de retirada en 24 horas del contenido de odio marcado. La declaración de motivos del artículo 14 de Logora cubre el aviso de retirada de la LCEN.
  • Alemania (NetzDG): retirada en 24 horas del contenido de odio “manifiestamente ilegal”. El pipeline de moderación en alemán de Logora está calibrado según los umbrales de la NetzDG.
  • UE (DSA): obligaciones de retirada armonizadas + informes de transparencia + declaraciones de motivos. El marco paraguas.

Cómo gestiona Logora el discurso de odio

La capa de detección de odio de Logora se ejecuta sobre la puntuación de toxicidad, con puntuación específica por categoría (étnica, religiosa, política, orientación sexual, género, discapacidad). Umbrales calibrados por medio y por idioma. Los registros de auditoría alimentan el informe de transparencia del artículo 24 de la DSA.

Consulta moderación con IA para conocer el pipeline más amplio.

⌘K / Ctrl+K para abrir