Análise de Viés no Modelo BERTimbau para detecção de discurso de ódio em Português Brasileiro

Imagem de Miniatura

Data

2026-02-12

Lattes da Autoria

Lattes da Orientação Docente

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

A expansão das redes sociais intensificou a circulação de discursos de ódio online, gerando desafios à convivência democrática e à proteção de grupos minoritários. Diante da inviabilidade da moderação manual, este trabalho aplica técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (ML) para a identificação de conteúdo ofensivo em português brasileiro. O estudo investiga o viés algorítmico do modelo BERTimbau, ajustado via fine-tuning e treinado sobre as bases anotadas ToLD-BR e Tupy-E. A avaliação considera métricas tradicionais de desempenho (precisão, recall, F1-score) e de equidade (Paridade Demográfica), com o objetivo de examinar possíveis associações indevidas entre termos de identidade social e discurso de ódio, contribuindo para o debate sobre justiça algorítmica. Os resultados evidenciaram padrões estruturados de viés do BERTimbau entre os eixos de gênero, raça e orientação sexual, bem como entre grupos específicos dentro de cada eixo (por exemplo, mulheres, pessoas bissexuais, gays e pardas), mostrando que o modelo tende a associar esses termos de identidade ao discurso de ódio com maior frequência do que seus grupos de referência, mesmo em contextos neutros ou positivos.

Resumo em outro idioma

The expansion of social networks has intensified the spread of hate speech online, posing challenges to democratic coexistence and the protection of minority groups. Given the impracticality of manual moderation, this study applies Natural Language Processing (NLP) and Machine Learning (ML) techniques to identify offensive content in Brazilian Portuguese. It investigates algorithmic bias in the BERTimbau model, fine-tuned and trained on the annotated ToLD-BR and Tupy-E datasets. The evaluation employs both traditional performance metrics (precision, recall, F1-score) and fairness metrics (Demographic Parity) to examine potential unjust associations between social identity terms and hate speech, contributing to discussions on algorithmic fairness. The results revealed structured patterns of bias across the gender, race, and sexual orientation axes, as well as across specific groups within each axis (e.g., women, bisexual, gay, and brown people), showing that the model tends to associate these social identity terms with hate speech more frequently than their reference groups, even in neutral or positive contexts.

Descrição

Referência

OLIVEIRA FILHO, José Fernando de. Análise de Viés no Modelo BERTimbau para detecção de discurso de ódio em Português Brasileiro. 2026. 36 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2026.

Identificador dARK

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como openAccess