De vilão a solução: o sobreajuste na geografia da desigualdade oculta do ENEM
Data
2026-02-19
Lattes da Autoria
Orientação Docente
Lattes da Orientação Docente
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
O ENEM é uma base essencial para a análise educacional brasileira, mas aplicações de aprendizado de máquina na área costumam ter como objetivo a predição. Este trabalho propõe uma abordagem distinta: utiliza modelos interpretáveis para mapear padrões de desempenho e perfis socioeconômicos. A metodologia combina estatística descritiva com árvores de decisão submetidas ao sobreajuste (overfitting) intencional. O objetivo não é a generalização, mas a exaustão descritiva da base original, utilizando a renda familiar como alvo (target) instrumental para extrair regras que influenciam o desempenho em cada estrato social. Para quantificar a relevância dos fatores, aplicou-se a técnica SHAP (XAI) em cenário multiclasse. Os resultados confirmam que o desempenho acadêmico cresce proporcionalmente à renda, mas revelam nuances críticas: embora a posse de automóvel seja o principal determinante global de renda, a exclusão digital superou a imobilidade física como principal marcador de vulnerabilidade no estrato rural feminino em 2023. Adicionalmente, candidatos rurais têm maior dificuldade em converter renda em notas superiores, embora mulheres nesse contexto apresentem maior eficiência nessa conversão que homens. Conclui-se que esta abordagem revela desigualdades interseccionais que modelos preditivos convencionais ocultam.
Resumo em outro idioma
ENEM is an essential database for Brazilian educational analysis, but machine learning applications in the field typically aim for prediction. This work proposes a distinct approach: it utilizes interpretable models to map performance patterns and socioeconomic profiles. The methodology combines descriptive statistics with decision trees subjected to intentional overfitting. The goal is not generalization, but rather the descriptive exhaustion of the original database, using family income as an instrumental target to extract rules that influence performance within each social stratum. To quantify the relevance of the factors, the SHAP (XAI) technique was applied in a multiclass scenario. The results confirm that academic performance increases proportionally with income, but reveal critical nuances: although car ownership is the main global determinant of income, digital exclusion surpassed physical immobility as the primary marker of vulnerability in the female rural stratum in 2023. Additionally, rural candidates face greater difficulty in converting income into higher scores, although women in this context demonstrate greater efficiency in this conversion than men. It is concluded that this approach reveals intersectional inequalities that conventional predictive models obscure.
Descrição
Referência
SILVA, Carlos Vinícius Martins da. De vilão a solução: o sobreajuste na geografia da desigualdade oculta do ENEM. 2026. 44 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2026.
Identificador dARK
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como openAccess

