TCC - Bacharelado em Sistemas da Informação (Sede)
URI permanente para esta coleçãohttps://arandu.ufrpe.br/handle/123456789/427
Navegar
38 resultados
Resultados da Pesquisa
Item Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior(2025-08-08) Mercês, Thamires Lopes das; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8266687622316308A grande quantidade de informações coletadas em censos da educação e avaliações nacionais demanda métodos eficientes para extração de conhecimento, permitindo identificar padrões e tendências relevantes. Nesse contexto, a clusterização se destaca como uma ótima técnica para segmentar e interpretar grandes volumes de dados educacionais, sendo o K-Means um dos algoritmos mais utilizados devido à sua simplicidade e eficiência. No entanto, quando aplicado a conjuntos de dados de alta dimensionalidade, seu desempenho pode ser comprometido, tornando necessário o uso de técnicas de redução de dimensionalidade como Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) e Uniform Manifold Approximation and Projection (UMAP). Este trabalho investiga o impacto dessas técnicas na qualidade dos agrupamentos gerados pelo K-Means em uma base de dados composta pela junção dos Microdados do Censo da Educação Superior de 2022 e os indicadores de qualidade educacional Conceito Enade e CPC. A análise é realizada utilizando o índice de silhueta como métrica de avaliação e comparando o tempo de execução de cada método. Com dois componentes, o PCA superou o t-SNE e o UMAP na maioria dos testes. Com três componentes, o PCA teve melhor desempenho que o t-SNE em todos os testes, mas ficou equilibrado com o UMAP, onde foi superior em cinco dos nove cenários. Observou-se, ainda, que a quantidade de clusters teve influência relevante nos resultados, especialmente no desempenho crescente do UMAP à medida que se aumentava o número de clusters. O UMAP e o t-SNE mostraram resultados equilibrados com dois componentes. Porém, com três componentes, o UMAP se mostrou melhor em todos os cenários. Além disso, o PCA foi a técnica mais rápida em todos os cenários avaliados, superando tanto o t-SNE quanto o UMAP em termos de tempo de execução.Item Reestruturação ética na mineração de dados educacionais superiores: conformidade com a Lei Geral de Proteção de Dados(2025-08-12) Vasconcelos, Taciana dos Santos; Gouveia, Roberta Macêdo Marques; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8691839294756407Este estudo aborda a reestruturação dos dados públicos educacionais do Ensino Superior promovida pelo INEP, alinhada à LGPD. Inspirado pelo estudo conduzido por Rodrigues (2021), que analisou concluintes de graduação, visando à construção de modelos de classificação utilizando fatores socioeconômicos e tempo estimado para conclusão da graduação em IES públicas. Este trabalho examina como as mudanças na configuração dos dados do ENADE e do Censo da Educação Superior afetam a realização de pesquisas científicas. Em resposta às mudanças nos microdados efetuadas pelo INEP, que impossibilitam a reprodução de trabalhos com finalidade de análise individual de discentes, este estudo direcionou seu enfoque para as informações dos cursos e tempo de graduação dos discentes nesses cursos, considerando medidas de tendência central. Consideraram-se os anos de 2016 a 2018 para dados do ENADE e 2018 para Censo da Educação Superior. Utilizou-se o processo de Knowledge Discovery in Database (KDD) ao longo do trabalho, desde a seleção até a interpretação de dados. Usando 5.170 registros de cursos, técnicas do Aprendizado de Máquina Supervisionado foram empregadas para construção de modelos de regressão e classificação. Essa abordagem visa superar os desafios éticos e metodológicos da reestruturação dos dados, garantindo a utilidade dos dados para fins de pesquisa científica. Resultados mostram que as mudanças permitiram o uso eficaz de modelos de Aprendizado de Máquina. O estudo destaca a importância da ética nos dados educacionais e na inteligência artificial, garantindo a proteção da privacidade e a responsabilidade na utilização dos dados para tomada de decisões futuras.Item Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina(2025-08-08) Souza, Celso Soares Cassiano de; Oliveira, Lidiano Augusto Nóbrega de; http://lattes.cnpq.br/7399493881755815A segurança cibernética tem se tornado uma das principais preocupações da era digital, impulsionada pelo crescimento acelerado da internet e pela proliferação de ameaças como phishing, malware e roubo de dados. Este trabalho propõe uma abordagem baseada em aprendizado de máquina para classificar URLs como legítimas ou maliciosas, utilizando um conjunto abrangente de atributos extraídos diretamente das URLs e de fontes complementares, como registros WHOIS e informações de rede. Foram aplicados e analisados algoritmos como Random Forest, SVM e XGBoost sobre um conjunto de dados coletado de fontes confiáveis, como PhishTank e Kaggle. As características consideradas englobam aspectos léxicos, informações de rede, conexão e reputação. A avaliação dos modelos foi conduzida por meio de métricas como acurácia, precisão, recall e F1-score, evidenciando um desempenho satisfatório na detecção de sites maliciosos. Como aplicação prática, foi desenvolvida uma plataforma interativa com Streamlit, permitindo que qualquer usuário insira urna URL e receba uma análise imediata sobre sua legitimidade. A análise de importância das variáveis forneceu insights valiosos sobre os fatores mais influentes no processo de classificação, contribuindo tanto para a transparência quanto para a evolução futura do sistema.Item Análise de desempenho do Gemini na estimativa de peso de alimentos por imagem(2025-08-06) Silva, Carlos Gabriel Farias da; Garrozi, Cícero; http://lattes.cnpq.br/0488054917286587Com o avanço das inteligências artificiais multimodais, cresce o interesse em sua aplicação na área da saúde para facilitar a análise nutricional e auxiliar no combate à obesidade. No entanto, a confiabilidade desses modelos para identificar alimentos e estimar porções a partir de imagens ainda é incerta, sendo fundamental mensurar seu desempenho de forma objetiva. Este trabalho avalia a capacidade do modelo Gemini de classificar ingredientes e estimar seus respectivos pesos (em gramas) a partir de fotografias de refeições. Para isso, foi desenvolvido um sistema automatizado que envia requisições à API do Gemini, utilizando um prompt textual padronizado, elaborado com técnicas de engenharia de prompt, e uma lista de ingredientes de referência. As respostas do modelo, obtidas em formato JSON, foram comparadas com dados reais para análise de desempenho. Os resultados obtidos nos experimentos indicaram um baixo desempenho geral. Na classificação de ingredientes, o modelo apresentou baixa precisão e sensibilidade (recall), com dificuldade em detectar itens como temperos e condimentos (por exemplo, azeite e sal) que estavam misturados a outros alimentos, embora tenha obtido altas taxas de aceno para ingredientes visualmente distintos, como morangos e ovos mexidos. Na estimativa de peso, o desempenho também foi insatisfatório, com altos valores de erro (MAE e RMSE) e coeficiente de determinação (R2) negativo, evidenciando tendência à superestimação e desempenho inferior a uma simples predição pela média.Item Aprendizado de máquina não supervisionado aplicado na dinâmica de preços de combustíveis no Brasil(2025-08-05) Lima, Andressa Luana Santana de; Gouveia, Roberta Macedo Marques; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/0993590347039876Este trabalho realiza uma análise exploratória e de clusterização dos dados públicos da Agência Nacional do Petróleo (ANP) para os preços de combustíveis no Brasil em 2024. A partir de variáveis numéricas agregadas por região e por produto, foi aplicado o algoritmo K-means para identificar padrões de comportamento no mercado. As variáveis selecionadas buscaram representar aspectos como níveis médios de preço, variações sazonais, volume de registros e distribuição de revendas. Os resultados apontaram diferenças estruturais entre regiões e entre combustíveis, evidenciando a heterogeneidade do setor. O estudo evidencia a importância do uso de técnicas de agrupamento para explorar padrões relevantes no mercado de combustíveis.Item Detecção de fake news: uma abordagem baseada em Large Language Models e Prompt Engineering(2025-03-20) Fonseca, Pablo Weslley Silva da; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340; http://lattes.cnpq.br/6258598537884813Este trabalho aborda o uso de Large Language Models (LLMs) para a detecção de fake news ou notícias falsas no idioma inglês e português. As notícias falsas têm gerado impactos negativos, como desinformação e conflitos sociais, sendo amplamente disseminadas pelas redes sociais. Embora métodos tradicionais de verificação sejam eficazes, como checagem manual e agências de verificação de fatos, a aplicação de algoritmos de machine learning e deep learning trouxe avanços importantes. No entanto, esses modelos apresentam limitações, como perda de contexto semântico e custos de treinamento. A introdução da arquitetura Transformers possibilitou avanços significativos com LLMs, como BERT, GPT e T5, devido à sua capacidade de compreender padrões linguísticos complexos. Este trabalho propõe uma abordagem de detecção de notícias falsas a partir recuperações de informações pela Web e o modelo Qwen2.5-7B-Instruct, comparando o desempenho com propostas que combina recuperação de informações com modelos tradicionais e LLMs. Os resultados destacam vantagens e desvantagens, contribuindo para futuras melhorias em sistemas automatizados de detecção de notícias falsas.Item Previsão de preço de ações de empresas do setor elétrico com algoritmos de aprendizado de máquina(2025-03-21) Silva, Herculles Hendrius Coutinho Mesquita; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584O presente trabalho tem como objetivo comparar a eficiência de diferentes algoritmos de aprendizado de máquina na previsão de preços de ações do setor de energia elétrica. Para isso, foram analisados quatro algoritmos: Long Short-Term Memory (LSTM), Support Vector Regression (SVR), Regressão Linear e Random Forest. Os dados utilizados compreendem uma série histórica de preços e indicadores adicionais, como inflação, Índice de energia elétrica (IEE) e variação cambial, que foram processados e utilizados como entrada para os modelos. A análise foi realizada com base em métricas de erro, como Erro Médio Absoluto (MAE), Erro Quadrático Médio (MSE) e Raiz do Erro Quadrático Médio (RMSE), bem como pela avaliação da diferença percentual entre os preços previstos e os valores reais. Os resultados mostram que o algoritmo LSTM obteve o melhor desempenho na previsão de preços de fechamento, seguido pela Regressão Linear, enquanto o Random Forest apresentou maior margem de erro e se monstrando inadequado para a aplicação neste problema. Este estudo realiza a aplicação de algoritmos preditivos no mercado financeiro, demonstrando o potencial do aprendizado de máquina como ferramenta para análise e tomada de decisão no setor de energia elétrica.Item Implementação de um agente inteligente para atendimento automatizado de dúvidas acadêmicas na UFRPE(2025-03-31) Silva, Evelyn Mylena Bezerra e; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/5200293461568988Este trabalho teve como objetivo principal desenvolver e validar um agente inteligente baseado em técnicas de Processamento de Linguagem Natural (PLN) e Recuperação de Informação, voltado ao suporte acadêmico no curso de Bacharelado em Sistemas de Informação (BSI) da Universidade Federal Rural de Pernambuco (UFRPE). O sistema foi projetado para oferecer respostas rápidas, relevantes e contextualizadas a perguntas frequentes relacionadas à vida acadêmica dos estudantes, como carga horária, disciplinas, matrículas e procedimentos administrativos. A implementação envolveu a coleta e estruturação de documentos institucionais, a construção de um modelo vetorial para recuperação semântica de respostas e a integração com um módulo de memória conversacional. Para a validação, as respostas do agente inteligente foram comparadas com um FAQ do curso de BSI, utilizando como métrica a similaridade do cosseno, aplicada ao conteúdo semântico das respostas. Os resultados indicaram uma média de similaridade de aproximadamente 0,6396, com mediana de 0,6548 e baixa dispersão. A maioria das respostas apresentou alto ou médio grau de alinhamento semântico com o conteúdo oficial, sendo classificadas como semanticamente adequadas. Casos de baixa similaridade representaram uma minoria e estiveram, em geral, relacionados a perguntas de cunho prático-operacional não abordadas na base de dados do sistema. Em contrapartida, observou-se que, em alguns contextos, o agente inteligente forneceu respostas mais completas e fundamentadas do que aquelas presentes no próprio FAQ. Conclui-se que o sistema desenvolvido apresenta desempenho satisfatório e demonstra potencial para expansão como ferramenta institucional de apoio ao estudante, promovendo maior autonomia, agilidade e acessibilidade no acesso a informação acadêmica.Item Aprendizagem de máquina para a identificação de clientes propensos à compra em Inbound marketing(2019-07-12) Silva, Bruno Roberto Florentino da; Monteiro, Cleviton Vinicius Fonsêca; Soares, Rodrigo Gabriel Ferreira; http://lattes.cnpq.br/2526739219416964; http://lattes.cnpq.br/9362573782715504O ponto mais importante para uma empresa deve ser sempre o cliente e conseguir novos clientes nem sempre é uma estratégia fácil. As técnicas de marketing digital estudam como atrair novos clientes para as empresas fazendo uso de plataformas digitais. Em virtude da popularização destes meios, as estratégias tiveram que se moldar às novas necessidades. Com apenas um clique é possível alcançar milhares de indivíduos, o que significa muitos leads (oportunidades de negócio) novos para a empresa. Entretanto, filtrar quais desses indivíduos estão realmente interessados no produto ou serviço ofertado pela empresa demanda um grande esforço da equipe de vendas. Essa sobrecarga é prejudicial no sentido de que a empresa pode perder receita por falta de direcionamento das verdadeiras oportunidades. Visando amenizar tal problema, o presente trabalho oferece uma proposta cujo objetivo é a identificação automática de potenciais clientes com maior propensão à compra dentre os leads obtidos por uma empresa através de estratégias de marketing digital. Para tornar possível a execução desta proposta, foram utilizados recursos de Aprendizado de máquina, com aplicação dos algoritmos de classificação supervisionada, Árvore de decisão e Naive Bayes (NB), fornecidos pela biblioteca Scikit-learn, sob a linguagem de programação Python. Além disso, fez-se necessário a aplicação do algoritmo de sobreamostragem SMOTE, devido ao desbalanceamento do conjunto de dados. Com a finalidade de otimizar a classificação, foram utilizadas técnicas de seleção de atributos e seleção de modelos com ajuste de hiperparâmetros. Para avaliação dos resultados, utilizou-se as métricas de matriz de confusão, precisão, cobertura e curva de precisão e cobertura. Devido ao desbalanceamento dos dados, a métrica de precisão não relatou bons resultados, com médias de 5,5% de acerto. Já a cobertura alcançou médias de aproximadamente 83%. Mesmo com resultados tão divergentes entre as métricas aplicadas, o presente trabalho conseguiu identificar a maioria das verdadeiras oportunidades e relatando que ao utilizar esta abordagem, seria possível obter uma redução de até 85% da aplicação de esforço por parte da equipe de vendas. Em consequência disso, uma empresa pode ter uma redução de custos ao diminuir os recursos aplicados para obter novos clientes, propiciando que a equipe de vendas possa encontrar novos clientes com maior eficiência.Item Implementação de um sistema mobile colaborativo para acompanhamento do quadro de pacientes com esclerose múltipla por meio de análise de sentimento(2024-10-02) Araujo, Paula Priscila da Cruz; Gouveia, Roberta Macêdo Marques; Tschá, Elizabeth Regina; http://lattes.cnpq.br/9598413463162759; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/0280090820230057O estudo visa desenvolver um sistema mobile para facilitar o acompanhamento de pacientes acometidos por Esclerose Múltipla (EM) baseado no Toolkit Human-Centered Design (HCD) para atender as necessidades dos pacientes. O aplicativo permite que eles registrem e monitorarem emoções, sintomas e tratamentos, oferecendo relatórios mensais e alertas personalizados. Para a análise de sentimentos, foram utilizados os algoritmos de aprendizado de máquina XGBoost e Naive Bayes, sendo o XGBoost demonstrando melhor desempenho, com uma acurácia de 87,56% e um F1-Score de 0,876, enquanto o Naive Bayes, obteve 62,25% de acurácia e um F1-Score de 0,524. Os resultados indicam a eficácia da ferramenta no acompanhamento emocional e médico, contribuindo para a melhoria na qualidade de vida.
