Moderação e segurança
Moderação human-in-the-loop
Modelo de moderação em que a IA processa o volume e decide sozinha os casos claros, enquanto um moderador humano arbitra os casos ambíguos que a máquina não consegue julgar com certeza.
A moderação human-in-the-loop é um modelo híbrido em que a IA processa todo o volume de contribuições e decide sozinha os casos claros, enquanto um moderador humano arbitra apenas os casos ambíguos. A máquina faz a leitura; a pessoa faz o julgamento onde o julgamento é de fato necessário.
Por que nenhum dos dois funciona sozinho
Esse modelo existe porque as duas abordagens puras falham, mas em sentidos opostos.
- A IA sozinha erra no contexto. Um modelo pontua o texto, não a intenção. Ironia, ofensas citadas, reapropriação dentro de um grupo, gírias regionais e respostas que só fazem sentido em relação ao comentário original a fazem tropeçar. Sem supervisão, ela bloqueia em excesso falas legítimas e deixa passar abusos que dependem do contexto.
- O humano sozinho não escala. Uma seção de comentários ativa produz muito mais contribuições do que uma equipe consegue ler em tempo real. A moderação 100% manual significa ou longos atrasos, ou regras aplicadas de forma desigual à medida que os moderadores se cansam.
O human-in-the-loop preserva as forças de ambos: a vazão da automação, o discernimento de uma pessoa, com a atenção humana gasta apenas onde ela muda o resultado.
Como funciona na Logora
A Logora aplica esse modelo por padrão:
- A IA cuida de cerca de 85% on-site. Contribuições saudáveis são aprovadas automaticamente e as claramente abusivas são bloqueadas automaticamente, de modo que a equipe editorial nunca vê o grosso do tráfego.
- A equipe revisa apenas os ~15% a julgar. Os casos incertos chegam a uma fila humana dedicada, cada um apresentado com sua pontuação de toxicidade e o contexto ao redor de que o moderador precisa para decidir.
- QA no lançamento. Durante os três primeiros meses, as decisões são revisadas para calibrar os limiares conforme as regras e o tom próprios da publicação.
Conceitos relacionados
- Moderação com IA, a camada automatizada
- Moderação de conteúdo, a prática mais ampla
- Fila de moderação, onde acontece o trabalho humano
- Detecção de toxicidade