Moderação e segurança
Detecção de toxicidade
Uso de modelos de processamento de linguagem natural para pontuar conteúdo gerado por usuários quanto a hostilidade, ódio, assédio ou linguagem abusiva, geralmente como entrada para uma decisão de moderação.
A detecção de toxicidade é a prática de submeter cada contribuição do usuário a um modelo de aprendizado de máquina que gera uma pontuação : quão tóxica, hostil ou abusiva é a leitura desta mensagem ? Para um sistema de comentários de imprensa, a detecção de toxicidade é o primeiro filtro antes que qualquer outra regra de moderação entre em ação.
O que “tóxico” realmente significa
Não existe uma definição única. A maioria dos modelos classifica ao longo de múltiplos eixos :
- Toxicidade severa, insultos explícitos, ofensas, incitação à violência.
- Ódio, hostilidade direcionada contra um grupo (étnico, religioso, político, orientação sexual).
- Assédio, abuso repetido contra um indivíduo específico.
- Spam, conteúdo promocional irrelevante.
- Ameaças, ameaças de dano com credibilidade.
Cada eixo geralmente gera uma pontuação de 0 a 1. A política de moderação do veículo define os limiares : rejeição automática acima de 0,9 em toxicidade severa, envio para a fila humana entre 0,6 e 0,9, etc.
Por que modelos genéricos falham com conteúdo de imprensa
A maioria dos modelos de toxicidade prontos para uso (Perspective API, moderação da OpenAI, etc.) foi treinada com dados de redes sociais, Reddit, Wikipedia, Twitter. Eles funcionam bem nesses domínios, mas têm desempenho inferior com comentários de imprensa porque :
- Comentários de notícias frequentemente contêm opinião política forte que o modelo interpreta erroneamente como toxicidade.
- Material citado (trechos de artigos, citações polêmicas) é sinalizado mesmo quando está contextualmente adequado.
- Tom editorial, sarcasmo, perguntas retóricas, ironia comuns em artigos de opinião, confundem o modelo.
- Cobertura multilíngue, os públicos de imprensa muitas vezes não falam inglês, e os modelos genéricos degradam significativamente fora do inglês.
O modelo de toxicidade da Logora é treinado com mais de 1 milhão de comentários de redações europeias em francês, alemão, italiano, espanhol, português e inglês. A taxa de falsos positivos em conteúdo de imprensa é significativamente menor do que a dos modelos genéricos.
Pontuação de toxicidade + fila humana = a regra 85/15
Na produção, a detecção de toxicidade isolada não é suficiente. O modelo lida com :
- Os 65% limpos, aprovação e publicação automáticas.
- Os 20% claramente tóxicos, rejeição automática com uma justificativa visível para o usuário.
- Os 15% ambíguos, escalonamento para o moderador humano com a pontuação de toxicidade, o raciocínio do modelo e uma interface de ação rápida.
Este é o modelo operacional que o Der Spiegel e o Milenio adotam.
Conceitos relacionados
Veja a comparação Logora vs Disqus para entender como os modelos de toxicidade diferem entre fornecedores.