TCC - Bacharelado em Sistemas da Informação (Sede)

URI permanente para esta coleçãohttps://arandu.ufrpe.br/handle/123456789/427

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 10 de 12

Predição de preços de ações do setor elétrico com aprendizado de máquina
(2026-02-20) Costa, João Vitor de Araújo; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584
A previsão de preços de ações é um desafio clássico no mercado financeiro, devido à alta volatilidade e à complexidade dos fatores que influenciam o comportamento dos ativos. Este trabalho tem como objetivo aplicar e comparar diferentes algoritmos de aprendizado de máquina para prever os preços das ações brasileiras TAEE11 (Taesa) e CMIG4 (Cemig), com foco exclusivo em problemas de regressão. Para isso, foram utilizados dados históricos de preços das ações combinados com variáveis macroeconômicas, como taxa de juros, IPCA, IEE e câmbio, além de indicadores técnicos como RSI e MACD. O conjunto de dados compreende o período de 2010 a 2019. Os resultados indicam que o modelo Random Forest apresentou melhor desempenho geral, observando-se as métricas, o modelo apresentou o menor RMSE, MAE, MAPE e maior R².
Análise de Viés no Modelo BERTimbau para detecção de discurso de ódio em Português Brasileiro
(2026-02-12) Oliveira Filho, José Fernando de; Gouveia, Roberta Macedo Marques; http://lattes.cnpq.br/2024317361355224
A expansão das redes sociais intensificou a circulação de discursos de ódio online, gerando desafios à convivência democrática e à proteção de grupos minoritários. Diante da inviabilidade da moderação manual, este trabalho aplica técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (ML) para a identificação de conteúdo ofensivo em português brasileiro. O estudo investiga o viés algorítmico do modelo BERTimbau, ajustado via fine-tuning e treinado sobre as bases anotadas ToLD-BR e Tupy-E. A avaliação considera métricas tradicionais de desempenho (precisão, recall, F1-score) e de equidade (Paridade Demográfica), com o objetivo de examinar possíveis associações indevidas entre termos de identidade social e discurso de ódio, contribuindo para o debate sobre justiça algorítmica. Os resultados evidenciaram padrões estruturados de viés do BERTimbau entre os eixos de gênero, raça e orientação sexual, bem como entre grupos específicos dentro de cada eixo (por exemplo, mulheres, pessoas bissexuais, gays e pardas), mostrando que o modelo tende a associar esses termos de identidade ao discurso de ódio com maior frequência do que seus grupos de referência, mesmo em contextos neutros ou positivos.
Uma análise de vieses de gênero, raça e localização geográfica em modelos de predição de evasão em IES com foco na área de STEM
(2026-02-12) Pacheco, Melissa Araújo; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584
A evasão no ensino superior é crítica, e modelos de Machine Learning usados para combatê-la podem replicar desigualdades. Este trabalho audita um modelo de predição de evasão treinado com dados reais, utilizando métricas de justiça e Explainable AI (SHAP). Apesar da acurácia global de 87%, detectou-se uma dicotomia de erros: um viés punitivo contra estudantes de STEM (altos falsos positivos) e um viés de negligência em relação a mulheres (altos falsos negativos), invisibilizando alunas em risco real. O SHAP confirmou que gênero e localização influenciam indevidamente as decisões, evidenciando que a validação ética é indispensável para evitar a exclusão automatizada na gestão acadêmica.
De vilão a solução: o sobreajuste na geografia da desigualdade oculta do ENEM
(2026-02-19) Silva, Carlos Vinícius Martins da; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/9995481931022767
O ENEM é uma base essencial para a análise educacional brasileira, mas aplicações de aprendizado de máquina na área costumam ter como objetivo a predição. Este trabalho propõe uma abordagem distinta: utiliza modelos interpretáveis para mapear padrões de desempenho e perfis socioeconômicos. A metodologia combina estatística descritiva com árvores de decisão submetidas ao sobreajuste (overfitting) intencional. O objetivo não é a generalização, mas a exaustão descritiva da base original, utilizando a renda familiar como alvo (target) instrumental para extrair regras que influenciam o desempenho em cada estrato social. Para quantificar a relevância dos fatores, aplicou-se a técnica SHAP (XAI) em cenário multiclasse. Os resultados confirmam que o desempenho acadêmico cresce proporcionalmente à renda, mas revelam nuances críticas: embora a posse de automóvel seja o principal determinante global de renda, a exclusão digital superou a imobilidade física como principal marcador de vulnerabilidade no estrato rural feminino em 2023. Adicionalmente, candidatos rurais têm maior dificuldade em converter renda em notas superiores, embora mulheres nesse contexto apresentem maior eficiência nessa conversão que homens. Conclui-se que esta abordagem revela desigualdades interseccionais que modelos preditivos convencionais ocultam.
Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior
(2025-08-08) Mercês, Thamires Lopes das; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8266687622316308
A grande quantidade de informações coletadas em censos da educação e avaliações nacionais demanda métodos eficientes para extração de conhecimento, permitindo identificar padrões e tendências relevantes. Nesse contexto, a clusterização se destaca como uma ótima técnica para segmentar e interpretar grandes volumes de dados educacionais, sendo o K-Means um dos algoritmos mais utilizados devido à sua simplicidade e eficiência. No entanto, quando aplicado a conjuntos de dados de alta dimensionalidade, seu desempenho pode ser comprometido, tornando necessário o uso de técnicas de redução de dimensionalidade como Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) e Uniform Manifold Approximation and Projection (UMAP). Este trabalho investiga o impacto dessas técnicas na qualidade dos agrupamentos gerados pelo K-Means em uma base de dados composta pela junção dos Microdados do Censo da Educação Superior de 2022 e os indicadores de qualidade educacional Conceito Enade e CPC. A análise é realizada utilizando o índice de silhueta como métrica de avaliação e comparando o tempo de execução de cada método. Com dois componentes, o PCA superou o t-SNE e o UMAP na maioria dos testes. Com três componentes, o PCA teve melhor desempenho que o t-SNE em todos os testes, mas ficou equilibrado com o UMAP, onde foi superior em cinco dos nove cenários. Observou-se, ainda, que a quantidade de clusters teve influência relevante nos resultados, especialmente no desempenho crescente do UMAP à medida que se aumentava o número de clusters. O UMAP e o t-SNE mostraram resultados equilibrados com dois componentes. Porém, com três componentes, o UMAP se mostrou melhor em todos os cenários. Além disso, o PCA foi a técnica mais rápida em todos os cenários avaliados, superando tanto o t-SNE quanto o UMAP em termos de tempo de execução.
Reestruturação ética na mineração de dados educacionais superiores: conformidade com a Lei Geral de Proteção de Dados
(2025-08-12) Vasconcelos, Taciana dos Santos; Gouveia, Roberta Macêdo Marques; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8691839294756407
Este estudo aborda a reestruturação dos dados públicos educacionais do Ensino Superior promovida pelo INEP, alinhada à LGPD. Inspirado pelo estudo conduzido por Rodrigues (2021), que analisou concluintes de graduação, visando à construção de modelos de classificação utilizando fatores socioeconômicos e tempo estimado para conclusão da graduação em IES públicas. Este trabalho examina como as mudanças na configuração dos dados do ENADE e do Censo da Educação Superior afetam a realização de pesquisas científicas. Em resposta às mudanças nos microdados efetuadas pelo INEP, que impossibilitam a reprodução de trabalhos com finalidade de análise individual de discentes, este estudo direcionou seu enfoque para as informações dos cursos e tempo de graduação dos discentes nesses cursos, considerando medidas de tendência central. Consideraram-se os anos de 2016 a 2018 para dados do ENADE e 2018 para Censo da Educação Superior. Utilizou-se o processo de Knowledge Discovery in Database (KDD) ao longo do trabalho, desde a seleção até a interpretação de dados. Usando 5.170 registros de cursos, técnicas do Aprendizado de Máquina Supervisionado foram empregadas para construção de modelos de regressão e classificação. Essa abordagem visa superar os desafios éticos e metodológicos da reestruturação dos dados, garantindo a utilidade dos dados para fins de pesquisa científica. Resultados mostram que as mudanças permitiram o uso eficaz de modelos de Aprendizado de Máquina. O estudo destaca a importância da ética nos dados educacionais e na inteligência artificial, garantindo a proteção da privacidade e a responsabilidade na utilização dos dados para tomada de decisões futuras.
Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina
(2025-08-08) Souza, Celso Soares Cassiano de; Oliveira, Lidiano Augusto Nóbrega de; http://lattes.cnpq.br/7399493881755815
A segurança cibernética tem se tornado uma das principais preocupações da era digital, impulsionada pelo crescimento acelerado da internet e pela proliferação de ameaças como phishing, malware e roubo de dados. Este trabalho propõe uma abordagem baseada em aprendizado de máquina para classificar URLs como legítimas ou maliciosas, utilizando um conjunto abrangente de atributos extraídos diretamente das URLs e de fontes complementares, como registros WHOIS e informações de rede. Foram aplicados e analisados algoritmos como Random Forest, SVM e XGBoost sobre um conjunto de dados coletado de fontes confiáveis, como PhishTank e Kaggle. As características consideradas englobam aspectos léxicos, informações de rede, conexão e reputação. A avaliação dos modelos foi conduzida por meio de métricas como acurácia, precisão, recall e F1-score, evidenciando um desempenho satisfatório na detecção de sites maliciosos. Como aplicação prática, foi desenvolvida uma plataforma interativa com Streamlit, permitindo que qualquer usuário insira urna URL e receba uma análise imediata sobre sua legitimidade. A análise de importância das variáveis forneceu insights valiosos sobre os fatores mais influentes no processo de classificação, contribuindo tanto para a transparência quanto para a evolução futura do sistema.
Análise de desempenho do Gemini na estimativa de peso de alimentos por imagem
(2025-08-06) Silva, Carlos Gabriel Farias da; Garrozi, Cícero; http://lattes.cnpq.br/0488054917286587
Com o avanço das inteligências artificiais multimodais, cresce o interesse em sua aplicação na área da saúde para facilitar a análise nutricional e auxiliar no combate à obesidade. No entanto, a confiabilidade desses modelos para identificar alimentos e estimar porções a partir de imagens ainda é incerta, sendo fundamental mensurar seu desempenho de forma objetiva. Este trabalho avalia a capacidade do modelo Gemini de classificar ingredientes e estimar seus respectivos pesos (em gramas) a partir de fotografias de refeições. Para isso, foi desenvolvido um sistema automatizado que envia requisições à API do Gemini, utilizando um prompt textual padronizado, elaborado com técnicas de engenharia de prompt, e uma lista de ingredientes de referência. As respostas do modelo, obtidas em formato JSON, foram comparadas com dados reais para análise de desempenho. Os resultados obtidos nos experimentos indicaram um baixo desempenho geral. Na classificação de ingredientes, o modelo apresentou baixa precisão e sensibilidade (recall), com dificuldade em detectar itens como temperos e condimentos (por exemplo, azeite e sal) que estavam misturados a outros alimentos, embora tenha obtido altas taxas de aceno para ingredientes visualmente distintos, como morangos e ovos mexidos. Na estimativa de peso, o desempenho também foi insatisfatório, com altos valores de erro (MAE e RMSE) e coeficiente de determinação (R2) negativo, evidenciando tendência à superestimação e desempenho inferior a uma simples predição pela média.
Aprendizado de máquina não supervisionado aplicado na dinâmica de preços de combustíveis no Brasil
(2025-08-05) Lima, Andressa Luana Santana de; Gouveia, Roberta Macedo Marques; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/0993590347039876
Este trabalho realiza uma análise exploratória e de clusterização dos dados públicos da Agência Nacional do Petróleo (ANP) para os preços de combustíveis no Brasil em 2024. A partir de variáveis numéricas agregadas por região e por produto, foi aplicado o algoritmo K-means para identificar padrões de comportamento no mercado. As variáveis selecionadas buscaram representar aspectos como níveis médios de preço, variações sazonais, volume de registros e distribuição de revendas. Os resultados apontaram diferenças estruturais entre regiões e entre combustíveis, evidenciando a heterogeneidade do setor. O estudo evidencia a importância do uso de técnicas de agrupamento para explorar padrões relevantes no mercado de combustíveis.
Detecção de fake news: uma abordagem baseada em Large Language Models e Prompt Engineering
(2025-03-20) Fonseca, Pablo Weslley Silva da; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340; http://lattes.cnpq.br/6258598537884813
Este trabalho aborda o uso de Large Language Models (LLMs) para a detecção de fake news ou notícias falsas no idioma inglês e português. As notícias falsas têm gerado impactos negativos, como desinformação e conflitos sociais, sendo amplamente disseminadas pelas redes sociais. Embora métodos tradicionais de verificação sejam eficazes, como checagem manual e agências de verificação de fatos, a aplicação de algoritmos de machine learning e deep learning trouxe avanços importantes. No entanto, esses modelos apresentam limitações, como perda de contexto semântico e custos de treinamento. A introdução da arquitetura Transformers possibilitou avanços significativos com LLMs, como BERT, GPT e T5, devido à sua capacidade de compreender padrões linguísticos complexos. Este trabalho propõe uma abordagem de detecção de notícias falsas a partir recuperações de informações pela Web e o modelo Qwen2.5-7B-Instruct, comparando o desempenho com propostas que combina recuperação de informações com modelos tradicionais e LLMs. Os resultados destacam vantagens e desvantagens, contribuindo para futuras melhorias em sistemas automatizados de detecção de notícias falsas.

TCC - Bacharelado em Sistemas da Informação (Sede)

Navegar

Filtros

Configurações

Ordenar por

Resultados por página

Resultados da Pesquisa