Moderação e segurança
Detecção de discurso de ódio
Tarefa especializada de aprendizado de máquina dentro da moderação de conteúdo: identificar contribuições que atacam um grupo (étnico, religioso, político, orientação sexual) com hostilidade, além da pontuação genérica de toxicidade.
A detecção de discurso de ódio é a subtarefa de moderação focada em contribuições que atacam um grupo com hostilidade, definido por etnia, religião, crença política, orientação sexual, gênero, deficiência. É mais específica do que a detecção de toxicidade, e os riscos jurídicos são mais altos porque o discurso de ódio é regulado criminalmente na maioria das jurisdições da UE (LCEN na França, NetzDG na Alemanha).
O que torna isso difícil
A detecção de discurso de ódio tem mais falsos positivos do que a pontuação genérica de toxicidade porque:
- Ódio citado: um jornalista ou comentarista que cita o ódio para denunciá-lo acaba sinalizado.
- Termos reapropriados: terminologia que é discurso de ódio em um contexto e marca de identidade interna do grupo em outro.
- Linguagem codificada: eufemismos em constante evolução (“globalistas”, códigos numéricos) exigem atualizações constantes dos modelos.
- Variação intercultural: o que soa como um insulto político casual na França pode ser discurso de ódio sob a lei alemã.
Modelos genéricos treinados em inglês deixam passar a maior parte disso. A detecção de ódio de nível profissional para a imprensa exige: treinamento multilíngue, atualização regular do conjunto de dados com corpora específicos da imprensa e uma fila humana robusta para os casos limítrofes.
Marco jurídico
- França (LCEN): obrigação de remoção em 24 horas para conteúdo de ódio sinalizado. A declaração de motivos do Artigo 14 da Logora cobre a notificação de remoção da LCEN.
- Alemanha (NetzDG): remoção em 24 horas para conteúdo de ódio “manifestamente ilegal”. O pipeline de moderação em alemão da Logora é calibrado de acordo com os limiares do NetzDG.
- UE (DSA): obrigações de remoção harmonizadas + relatórios de transparência + declarações de motivos. O marco abrangente.
Como a Logora lida com o discurso de ódio
A camada de detecção de ódio da Logora roda sobre a pontuação de toxicidade, com pontuação específica por categoria (étnica, religiosa, política, orientação sexual, gênero, deficiência). Limiares calibrados por veículo, por idioma. Os logs de auditoria alimentam o relatório de transparência do Artigo 24 do DSA.
Veja moderação por IA para o pipeline mais amplo.