De vilão a solução: o sobreajuste na geografia da desigualdade oculta do ENEM

Imagem de Miniatura

Data

2026-02-19

Lattes da Orientação Docente

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

O ENEM é uma base essencial para a análise educacional brasileira, mas aplicações de aprendizado de máquina na área costumam ter como objetivo a predição. Este trabalho propõe uma abordagem distinta: utiliza modelos interpretáveis para mapear padrões de desempenho e perfis socioeconômicos. A metodologia combina estatística descritiva com árvores de decisão submetidas ao sobreajuste (overfitting) intencional. O objetivo não é a generalização, mas a exaustão descritiva da base original, utilizando a renda familiar como alvo (target) instrumental para extrair regras que influenciam o desempenho em cada estrato social. Para quantificar a relevância dos fatores, aplicou-se a técnica SHAP (XAI) em cenário multiclasse. Os resultados confirmam que o desempenho acadêmico cresce proporcionalmente à renda, mas revelam nuances críticas: embora a posse de automóvel seja o principal determinante global de renda, a exclusão digital superou a imobilidade física como principal marcador de vulnerabilidade no estrato rural feminino em 2023. Adicionalmente, candidatos rurais têm maior dificuldade em converter renda em notas superiores, embora mulheres nesse contexto apresentem maior eficiência nessa conversão que homens. Conclui-se que esta abordagem revela desigualdades interseccionais que modelos preditivos convencionais ocultam.

Resumo em outro idioma

ENEM is an essential database for Brazilian educational analysis, but machine learning applications in the field typically aim for prediction. This work proposes a distinct approach: it utilizes interpretable models to map performance patterns and socioeconomic profiles. The methodology combines descriptive statistics with decision trees subjected to intentional overfitting. The goal is not generalization, but rather the descriptive exhaustion of the original database, using family income as an instrumental target to extract rules that influence performance within each social stratum. To quantify the relevance of the factors, the SHAP (XAI) technique was applied in a multiclass scenario. The results confirm that academic performance increases proportionally with income, but reveal critical nuances: although car ownership is the main global determinant of income, digital exclusion surpassed physical immobility as the primary marker of vulnerability in the female rural stratum in 2023. Additionally, rural candidates face greater difficulty in converting income into higher scores, although women in this context demonstrate greater efficiency in this conversion than men. It is concluded that this approach reveals intersectional inequalities that conventional predictive models obscure.

Descrição

Referência

SILVA, Carlos Vinícius Martins da. De vilão a solução: o sobreajuste na geografia da desigualdade oculta do ENEM. 2026. 44 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2026.

Identificador dARK

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como openAccess