Detecção de discurso de ódio

Tarefa especializada de aprendizado de máquina dentro da moderação de conteúdo: identificar contribuições que atacam um grupo (étnico, religioso, político, orientação sexual) com hostilidade, além da pontuação genérica de toxicidade.

A detecção de discurso de ódio é a subtarefa de moderação focada em contribuições que atacam um grupo com hostilidade, definido por etnia, religião, crença política, orientação sexual, gênero, deficiência. É mais específica do que a detecção de toxicidade, e os riscos jurídicos são mais altos porque o discurso de ódio é regulado criminalmente na maioria das jurisdições da UE (LCEN na França, NetzDG na Alemanha).

O que torna isso difícil

A detecção de discurso de ódio tem mais falsos positivos do que a pontuação genérica de toxicidade porque:

  • Ódio citado: um jornalista ou comentarista que cita o ódio para denunciá-lo acaba sinalizado.
  • Termos reapropriados: terminologia que é discurso de ódio em um contexto e marca de identidade interna do grupo em outro.
  • Linguagem codificada: eufemismos em constante evolução (“globalistas”, códigos numéricos) exigem atualizações constantes dos modelos.
  • Variação intercultural: o que soa como um insulto político casual na França pode ser discurso de ódio sob a lei alemã.

Modelos genéricos treinados em inglês deixam passar a maior parte disso. A detecção de ódio de nível profissional para a imprensa exige: treinamento multilíngue, atualização regular do conjunto de dados com corpora específicos da imprensa e uma fila humana robusta para os casos limítrofes.

Marco jurídico

  • França (LCEN): obrigação de remoção em 24 horas para conteúdo de ódio sinalizado. A declaração de motivos do Artigo 14 da Logora cobre a notificação de remoção da LCEN.
  • Alemanha (NetzDG): remoção em 24 horas para conteúdo de ódio “manifestamente ilegal”. O pipeline de moderação em alemão da Logora é calibrado de acordo com os limiares do NetzDG.
  • UE (DSA): obrigações de remoção harmonizadas + relatórios de transparência + declarações de motivos. O marco abrangente.

Como a Logora lida com o discurso de ódio

A camada de detecção de ódio da Logora roda sobre a pontuação de toxicidade, com pontuação específica por categoria (étnica, religiosa, política, orientação sexual, gênero, deficiência). Limiares calibrados por veículo, por idioma. Os logs de auditoria alimentam o relatório de transparência do Artigo 24 do DSA.

Veja moderação por IA para o pipeline mais amplo.

⌘K / Ctrl+K para abrir