Análise de Viés no Modelo BERTimbau para detecção de discurso de ódio em Português Brasileiro
Data
2026-02-12
Autores
Lattes da Autoria
Orientação Docente
Lattes da Orientação Docente
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
A expansão das redes sociais intensificou a circulação de discursos de ódio online, gerando desafios à convivência democrática e à proteção de grupos minoritários. Diante da inviabilidade da moderação manual, este trabalho aplica técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (ML) para a identificação de conteúdo ofensivo em português brasileiro. O estudo investiga o viés algorítmico do modelo BERTimbau, ajustado via fine-tuning e treinado sobre as bases anotadas ToLD-BR e Tupy-E. A avaliação considera métricas tradicionais de desempenho (precisão, recall, F1-score) e de equidade (Paridade Demográfica), com o objetivo de examinar possíveis associações indevidas entre termos de identidade social e discurso de ódio, contribuindo para o debate sobre justiça algorítmica. Os resultados evidenciaram padrões estruturados de viés do BERTimbau entre os eixos de gênero, raça e orientação sexual, bem como entre grupos específicos dentro de cada eixo (por exemplo, mulheres, pessoas bissexuais, gays e pardas), mostrando que o modelo tende a associar esses termos de identidade ao discurso de ódio com maior frequência do que seus grupos de referência, mesmo em contextos neutros ou positivos.
Resumo em outro idioma
The expansion of social networks has intensified the spread of hate speech online, posing challenges to democratic coexistence and the protection of minority groups. Given the impracticality of manual moderation, this study applies Natural Language Processing (NLP) and Machine Learning (ML) techniques to identify offensive content in Brazilian Portuguese. It investigates algorithmic bias in the BERTimbau model, fine-tuned and trained on the annotated ToLD-BR and Tupy-E datasets. The evaluation employs both traditional performance metrics (precision, recall, F1-score) and fairness metrics (Demographic Parity) to examine potential unjust associations between social identity terms and hate speech, contributing to discussions on algorithmic fairness. The results revealed structured patterns of bias across the gender, race, and sexual orientation axes, as well as across specific groups within each axis (e.g., women, bisexual, gay, and brown people), showing that the model tends to associate these social identity terms with hate speech more frequently than their reference groups, even in neutral or positive contexts.
Descrição
Referência
OLIVEIRA FILHO, José Fernando de. Análise de Viés no Modelo BERTimbau para detecção de discurso de ódio em Português Brasileiro. 2026. 36 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2026.
Identificador dARK
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como openAccess

