Moderação e segurança
Moderação por IA
Uso de machine learning para detectar, filtrar ou classificar automaticamente conteúdo gerado por usuários com base em toxicidade, relevância, idioma e violações de política, geralmente combinado com revisão humana nos casos limítrofes.
A moderação por IA é a prática de encaminhar conteúdo gerado por usuários por modelos de machine learning para pontuá-lo em dimensões como toxicidade, discurso de ódio, spam, relevância em relação ao tema, ou conformidade com as políticas, antes que qualquer moderador humano o veja. Em uma configuração moderna de redação, ela é combinada com uma camada de revisão humana para os casos em que o modelo tem dúvida.
Por que as redações precisam dela
Um diário regional com 30 artigos por dia e 25 comentários por artigo recebe ~187.500 comentários por ano. Revisar cada um manualmente custa cerca de dois minutos por item, ou seja, 6.250 horas de trabalho, o equivalente a três ou quatro moderadores em tempo integral. A 50 €/hora com encargos, isso representa um quarto de milhão de euros por ano, apenas para filtrar o que nunca deveria ter sido publicado.
A moderação por IA inverte a economia: o modelo cuida dos 85% que são claramente adequados ou claramente inadequados, e a equipe só revisa os 15% contestados. No Der Spiegel, isso transformou a moderação de um grande gargalo operacional em uma tarefa editorial de rotina.
O que uma boa moderação por IA faz
Um mecanismo de moderação de nível de produção para comentários de imprensa deve:
- Detectar toxicidade, discurso de ódio, ameaças e spam nos idiomas que seu público utiliza.
- Detectar a relevância em relação ao artigo (fora de tema, promocional, conteúdo automatizado).
- Fornecer uma pontuação de confiança, e não uma decisão binária, para que o revisor humano possa priorizar os 15% que precisam dele.
- Ser treinado com conteúdo de imprensa, e não com dados genéricos de redes sociais, pois o tom e os casos limítrofes dos comentários sob um artigo de notícias são diferentes de uma thread do Reddit.
- Registrar cada decisão com data e hora, versão do modelo, pontuação e regra aplicada, para os relatórios de transparência do DSA.
A regra dos 85% + 15%
Nas redações europeias que usam o Logora, o mecanismo de moderação cuida automaticamente de cerca de 85% dos comentários recebidos (aprovados ou rejeitados sem intervenção humana). Os 15% restantes vão para a fila de moderação, onde o papel da equipe é arbitrar as ambiguidades, e não se afogar em volume.
O modelo nunca tem a palavra final sobre conteúdos limítrofes. Bloquear tudo automaticamente reduziria os custos de moderação, mas quebraria a confiança editorial. A revisão humana dos 15% é exatamente o que torna o sistema seguro de operar.
Implicações do DSA
O Artigo 14 do DSA exige que qualquer decisão automatizada sobre conteúdo de usuário venha acompanhada de uma justificativa. O usuário deve entender o que foi sinalizado, por qual regra, e como recorrer.
O pipeline de moderação do Logora foi construído em torno dessa exigência: cada decisão automatizada é registrada com a versão do modelo, a pontuação, a regra e o texto da justificativa exibida ao usuário. O relatório anual de transparência do DSA reúne esses dados automaticamente.
Conceitos relacionados
- Moderação de conteúdo, a prática mais ampla
- Detecção de toxicidade, um dos sinais do modelo
- Moderação multilíngue, em todos os idiomas
- Artigo 14 do DSA, justificativa para decisões automatizadas
Veja Logora vs Netino para entender como a moderação por IA se compara a um serviço de moderação puramente BPO.