Moderação por IA

Uso de machine learning para detectar, filtrar ou classificar automaticamente conteúdo gerado por usuários com base em toxicidade, relevância, idioma e violações de política, geralmente combinado com revisão humana nos casos limítrofes.

A moderação por IA é a prática de encaminhar conteúdo gerado por usuários por modelos de machine learning para pontuá-lo em dimensões como toxicidade, discurso de ódio, spam, relevância em relação ao tema, ou conformidade com as políticas, antes que qualquer moderador humano o veja. Em uma configuração moderna de redação, ela é combinada com uma camada de revisão humana para os casos em que o modelo tem dúvida.

Por que as redações precisam dela

Um diário regional com 30 artigos por dia e 25 comentários por artigo recebe ~187.500 comentários por ano. Revisar cada um manualmente custa cerca de dois minutos por item, ou seja, 6.250 horas de trabalho, o equivalente a três ou quatro moderadores em tempo integral. A 50 €/hora com encargos, isso representa um quarto de milhão de euros por ano, apenas para filtrar o que nunca deveria ter sido publicado.

A moderação por IA inverte a economia: o modelo cuida dos 85% que são claramente adequados ou claramente inadequados, e a equipe só revisa os 15% contestados. No Der Spiegel, isso transformou a moderação de um grande gargalo operacional em uma tarefa editorial de rotina.

O que uma boa moderação por IA faz

Um mecanismo de moderação de nível de produção para comentários de imprensa deve:

  • Detectar toxicidade, discurso de ódio, ameaças e spam nos idiomas que seu público utiliza.
  • Detectar a relevância em relação ao artigo (fora de tema, promocional, conteúdo automatizado).
  • Fornecer uma pontuação de confiança, e não uma decisão binária, para que o revisor humano possa priorizar os 15% que precisam dele.
  • Ser treinado com conteúdo de imprensa, e não com dados genéricos de redes sociais, pois o tom e os casos limítrofes dos comentários sob um artigo de notícias são diferentes de uma thread do Reddit.
  • Registrar cada decisão com data e hora, versão do modelo, pontuação e regra aplicada, para os relatórios de transparência do DSA.

A regra dos 85% + 15%

Nas redações europeias que usam o Logora, o mecanismo de moderação cuida automaticamente de cerca de 85% dos comentários recebidos (aprovados ou rejeitados sem intervenção humana). Os 15% restantes vão para a fila de moderação, onde o papel da equipe é arbitrar as ambiguidades, e não se afogar em volume.

O modelo nunca tem a palavra final sobre conteúdos limítrofes. Bloquear tudo automaticamente reduziria os custos de moderação, mas quebraria a confiança editorial. A revisão humana dos 15% é exatamente o que torna o sistema seguro de operar.

Implicações do DSA

O Artigo 14 do DSA exige que qualquer decisão automatizada sobre conteúdo de usuário venha acompanhada de uma justificativa. O usuário deve entender o que foi sinalizado, por qual regra, e como recorrer.

O pipeline de moderação do Logora foi construído em torno dessa exigência: cada decisão automatizada é registrada com a versão do modelo, a pontuação, a regra e o texto da justificativa exibida ao usuário. O relatório anual de transparência do DSA reúne esses dados automaticamente.

Conceitos relacionados

Veja Logora vs Netino para entender como a moderação por IA se compara a um serviço de moderação puramente BPO.

⌘K / Ctrl+K para abrir