TCC - Bacharelado em Sistemas da Informação (Sede)
URI permanente para esta coleçãohttps://arandu.ufrpe.br/handle/123456789/427
Navegar
10 resultados
Resultados da Pesquisa
Item Análise de Viés no Modelo BERTimbau para detecção de discurso de ódio em Português Brasileiro(2026-02-12) Oliveira Filho, José Fernando de; Gouveia, Roberta Macedo Marques; http://lattes.cnpq.br/2024317361355224A expansão das redes sociais intensificou a circulação de discursos de ódio online, gerando desafios à convivência democrática e à proteção de grupos minoritários. Diante da inviabilidade da moderação manual, este trabalho aplica técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (ML) para a identificação de conteúdo ofensivo em português brasileiro. O estudo investiga o viés algorítmico do modelo BERTimbau, ajustado via fine-tuning e treinado sobre as bases anotadas ToLD-BR e Tupy-E. A avaliação considera métricas tradicionais de desempenho (precisão, recall, F1-score) e de equidade (Paridade Demográfica), com o objetivo de examinar possíveis associações indevidas entre termos de identidade social e discurso de ódio, contribuindo para o debate sobre justiça algorítmica. Os resultados evidenciaram padrões estruturados de viés do BERTimbau entre os eixos de gênero, raça e orientação sexual, bem como entre grupos específicos dentro de cada eixo (por exemplo, mulheres, pessoas bissexuais, gays e pardas), mostrando que o modelo tende a associar esses termos de identidade ao discurso de ódio com maior frequência do que seus grupos de referência, mesmo em contextos neutros ou positivos.Item Uma análise de vieses de gênero, raça e localização geográfica em modelos de predição de evasão em IES com foco na área de STEM(2026-02-12) Pacheco, Melissa Araújo; Albuquerque Junior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584A evasão no ensino superior é crítica, e modelos de Machine Learning usados para combatê-la podem replicar desigualdades. Este trabalho audita um modelo de predição de evasão treinado com dados reais, utilizando métricas de justiça e Explainable AI (SHAP). Apesar da acurácia global de 87%, detectou-se uma dicotomia de erros: um viés punitivo contra estudantes de STEM (altos falsos positivos) e um viés de negligência em relação a mulheres (altos falsos negativos), invisibilizando alunas em risco real. O SHAP confirmou que gênero e localização influenciam indevidamente as decisões, evidenciando que a validação ética é indispensável para evitar a exclusão automatizada na gestão acadêmica.Item Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior(2025-08-08) Mercês, Thamires Lopes das; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8266687622316308A grande quantidade de informações coletadas em censos da educação e avaliações nacionais demanda métodos eficientes para extração de conhecimento, permitindo identificar padrões e tendências relevantes. Nesse contexto, a clusterização se destaca como uma ótima técnica para segmentar e interpretar grandes volumes de dados educacionais, sendo o K-Means um dos algoritmos mais utilizados devido à sua simplicidade e eficiência. No entanto, quando aplicado a conjuntos de dados de alta dimensionalidade, seu desempenho pode ser comprometido, tornando necessário o uso de técnicas de redução de dimensionalidade como Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) e Uniform Manifold Approximation and Projection (UMAP). Este trabalho investiga o impacto dessas técnicas na qualidade dos agrupamentos gerados pelo K-Means em uma base de dados composta pela junção dos Microdados do Censo da Educação Superior de 2022 e os indicadores de qualidade educacional Conceito Enade e CPC. A análise é realizada utilizando o índice de silhueta como métrica de avaliação e comparando o tempo de execução de cada método. Com dois componentes, o PCA superou o t-SNE e o UMAP na maioria dos testes. Com três componentes, o PCA teve melhor desempenho que o t-SNE em todos os testes, mas ficou equilibrado com o UMAP, onde foi superior em cinco dos nove cenários. Observou-se, ainda, que a quantidade de clusters teve influência relevante nos resultados, especialmente no desempenho crescente do UMAP à medida que se aumentava o número de clusters. O UMAP e o t-SNE mostraram resultados equilibrados com dois componentes. Porém, com três componentes, o UMAP se mostrou melhor em todos os cenários. Além disso, o PCA foi a técnica mais rápida em todos os cenários avaliados, superando tanto o t-SNE quanto o UMAP em termos de tempo de execução.Item Reestruturação ética na mineração de dados educacionais superiores: conformidade com a Lei Geral de Proteção de Dados(2025-08-12) Vasconcelos, Taciana dos Santos; Gouveia, Roberta Macêdo Marques; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8691839294756407Este estudo aborda a reestruturação dos dados públicos educacionais do Ensino Superior promovida pelo INEP, alinhada à LGPD. Inspirado pelo estudo conduzido por Rodrigues (2021), que analisou concluintes de graduação, visando à construção de modelos de classificação utilizando fatores socioeconômicos e tempo estimado para conclusão da graduação em IES públicas. Este trabalho examina como as mudanças na configuração dos dados do ENADE e do Censo da Educação Superior afetam a realização de pesquisas científicas. Em resposta às mudanças nos microdados efetuadas pelo INEP, que impossibilitam a reprodução de trabalhos com finalidade de análise individual de discentes, este estudo direcionou seu enfoque para as informações dos cursos e tempo de graduação dos discentes nesses cursos, considerando medidas de tendência central. Consideraram-se os anos de 2016 a 2018 para dados do ENADE e 2018 para Censo da Educação Superior. Utilizou-se o processo de Knowledge Discovery in Database (KDD) ao longo do trabalho, desde a seleção até a interpretação de dados. Usando 5.170 registros de cursos, técnicas do Aprendizado de Máquina Supervisionado foram empregadas para construção de modelos de regressão e classificação. Essa abordagem visa superar os desafios éticos e metodológicos da reestruturação dos dados, garantindo a utilidade dos dados para fins de pesquisa científica. Resultados mostram que as mudanças permitiram o uso eficaz de modelos de Aprendizado de Máquina. O estudo destaca a importância da ética nos dados educacionais e na inteligência artificial, garantindo a proteção da privacidade e a responsabilidade na utilização dos dados para tomada de decisões futuras.Item Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina(2025-08-08) Souza, Celso Soares Cassiano de; Oliveira, Lidiano Augusto Nóbrega de; http://lattes.cnpq.br/7399493881755815A segurança cibernética tem se tornado uma das principais preocupações da era digital, impulsionada pelo crescimento acelerado da internet e pela proliferação de ameaças como phishing, malware e roubo de dados. Este trabalho propõe uma abordagem baseada em aprendizado de máquina para classificar URLs como legítimas ou maliciosas, utilizando um conjunto abrangente de atributos extraídos diretamente das URLs e de fontes complementares, como registros WHOIS e informações de rede. Foram aplicados e analisados algoritmos como Random Forest, SVM e XGBoost sobre um conjunto de dados coletado de fontes confiáveis, como PhishTank e Kaggle. As características consideradas englobam aspectos léxicos, informações de rede, conexão e reputação. A avaliação dos modelos foi conduzida por meio de métricas como acurácia, precisão, recall e F1-score, evidenciando um desempenho satisfatório na detecção de sites maliciosos. Como aplicação prática, foi desenvolvida uma plataforma interativa com Streamlit, permitindo que qualquer usuário insira urna URL e receba uma análise imediata sobre sua legitimidade. A análise de importância das variáveis forneceu insights valiosos sobre os fatores mais influentes no processo de classificação, contribuindo tanto para a transparência quanto para a evolução futura do sistema.Item Análise de desempenho do Gemini na estimativa de peso de alimentos por imagem(2025-08-06) Silva, Carlos Gabriel Farias da; Garrozi, Cícero; http://lattes.cnpq.br/0488054917286587Com o avanço das inteligências artificiais multimodais, cresce o interesse em sua aplicação na área da saúde para facilitar a análise nutricional e auxiliar no combate à obesidade. No entanto, a confiabilidade desses modelos para identificar alimentos e estimar porções a partir de imagens ainda é incerta, sendo fundamental mensurar seu desempenho de forma objetiva. Este trabalho avalia a capacidade do modelo Gemini de classificar ingredientes e estimar seus respectivos pesos (em gramas) a partir de fotografias de refeições. Para isso, foi desenvolvido um sistema automatizado que envia requisições à API do Gemini, utilizando um prompt textual padronizado, elaborado com técnicas de engenharia de prompt, e uma lista de ingredientes de referência. As respostas do modelo, obtidas em formato JSON, foram comparadas com dados reais para análise de desempenho. Os resultados obtidos nos experimentos indicaram um baixo desempenho geral. Na classificação de ingredientes, o modelo apresentou baixa precisão e sensibilidade (recall), com dificuldade em detectar itens como temperos e condimentos (por exemplo, azeite e sal) que estavam misturados a outros alimentos, embora tenha obtido altas taxas de aceno para ingredientes visualmente distintos, como morangos e ovos mexidos. Na estimativa de peso, o desempenho também foi insatisfatório, com altos valores de erro (MAE e RMSE) e coeficiente de determinação (R2) negativo, evidenciando tendência à superestimação e desempenho inferior a uma simples predição pela média.Item Aprendizado de máquina não supervisionado aplicado na dinâmica de preços de combustíveis no Brasil(2025-08-05) Lima, Andressa Luana Santana de; Gouveia, Roberta Macedo Marques; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/0993590347039876Este trabalho realiza uma análise exploratória e de clusterização dos dados públicos da Agência Nacional do Petróleo (ANP) para os preços de combustíveis no Brasil em 2024. A partir de variáveis numéricas agregadas por região e por produto, foi aplicado o algoritmo K-means para identificar padrões de comportamento no mercado. As variáveis selecionadas buscaram representar aspectos como níveis médios de preço, variações sazonais, volume de registros e distribuição de revendas. Os resultados apontaram diferenças estruturais entre regiões e entre combustíveis, evidenciando a heterogeneidade do setor. O estudo evidencia a importância do uso de técnicas de agrupamento para explorar padrões relevantes no mercado de combustíveis.Item Detecção de fake news: uma abordagem baseada em Large Language Models e Prompt Engineering(2025-03-20) Fonseca, Pablo Weslley Silva da; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340; http://lattes.cnpq.br/6258598537884813Este trabalho aborda o uso de Large Language Models (LLMs) para a detecção de fake news ou notícias falsas no idioma inglês e português. As notícias falsas têm gerado impactos negativos, como desinformação e conflitos sociais, sendo amplamente disseminadas pelas redes sociais. Embora métodos tradicionais de verificação sejam eficazes, como checagem manual e agências de verificação de fatos, a aplicação de algoritmos de machine learning e deep learning trouxe avanços importantes. No entanto, esses modelos apresentam limitações, como perda de contexto semântico e custos de treinamento. A introdução da arquitetura Transformers possibilitou avanços significativos com LLMs, como BERT, GPT e T5, devido à sua capacidade de compreender padrões linguísticos complexos. Este trabalho propõe uma abordagem de detecção de notícias falsas a partir recuperações de informações pela Web e o modelo Qwen2.5-7B-Instruct, comparando o desempenho com propostas que combina recuperação de informações com modelos tradicionais e LLMs. Os resultados destacam vantagens e desvantagens, contribuindo para futuras melhorias em sistemas automatizados de detecção de notícias falsas.Item Previsão de preço de ações de empresas do setor elétrico com algoritmos de aprendizado de máquina(2025-03-21) Silva, Herculles Hendrius Coutinho Mesquita; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584O presente trabalho tem como objetivo comparar a eficiência de diferentes algoritmos de aprendizado de máquina na previsão de preços de ações do setor de energia elétrica. Para isso, foram analisados quatro algoritmos: Long Short-Term Memory (LSTM), Support Vector Regression (SVR), Regressão Linear e Random Forest. Os dados utilizados compreendem uma série histórica de preços e indicadores adicionais, como inflação, Índice de energia elétrica (IEE) e variação cambial, que foram processados e utilizados como entrada para os modelos. A análise foi realizada com base em métricas de erro, como Erro Médio Absoluto (MAE), Erro Quadrático Médio (MSE) e Raiz do Erro Quadrático Médio (RMSE), bem como pela avaliação da diferença percentual entre os preços previstos e os valores reais. Os resultados mostram que o algoritmo LSTM obteve o melhor desempenho na previsão de preços de fechamento, seguido pela Regressão Linear, enquanto o Random Forest apresentou maior margem de erro e se monstrando inadequado para a aplicação neste problema. Este estudo realiza a aplicação de algoritmos preditivos no mercado financeiro, demonstrando o potencial do aprendizado de máquina como ferramenta para análise e tomada de decisão no setor de energia elétrica.Item Implementação de um agente inteligente para atendimento automatizado de dúvidas acadêmicas na UFRPE(2025-03-31) Silva, Evelyn Mylena Bezerra e; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/5200293461568988Este trabalho teve como objetivo principal desenvolver e validar um agente inteligente baseado em técnicas de Processamento de Linguagem Natural (PLN) e Recuperação de Informação, voltado ao suporte acadêmico no curso de Bacharelado em Sistemas de Informação (BSI) da Universidade Federal Rural de Pernambuco (UFRPE). O sistema foi projetado para oferecer respostas rápidas, relevantes e contextualizadas a perguntas frequentes relacionadas à vida acadêmica dos estudantes, como carga horária, disciplinas, matrículas e procedimentos administrativos. A implementação envolveu a coleta e estruturação de documentos institucionais, a construção de um modelo vetorial para recuperação semântica de respostas e a integração com um módulo de memória conversacional. Para a validação, as respostas do agente inteligente foram comparadas com um FAQ do curso de BSI, utilizando como métrica a similaridade do cosseno, aplicada ao conteúdo semântico das respostas. Os resultados indicaram uma média de similaridade de aproximadamente 0,6396, com mediana de 0,6548 e baixa dispersão. A maioria das respostas apresentou alto ou médio grau de alinhamento semântico com o conteúdo oficial, sendo classificadas como semanticamente adequadas. Casos de baixa similaridade representaram uma minoria e estiveram, em geral, relacionados a perguntas de cunho prático-operacional não abordadas na base de dados do sistema. Em contrapartida, observou-se que, em alguns contextos, o agente inteligente forneceu respostas mais completas e fundamentadas do que aquelas presentes no próprio FAQ. Conclui-se que o sistema desenvolvido apresenta desempenho satisfatório e demonstra potencial para expansão como ferramenta institucional de apoio ao estudante, promovendo maior autonomia, agilidade e acessibilidade no acesso a informação acadêmica.
