01.1 - Graduação (Sede)
URI permanente desta comunidadehttps://arandu.ufrpe.br/handle/123456789/2
Navegar
60 resultados
Resultados da Pesquisa
Item Comparação de técnicas de redução de dimensionalidade aplicadas à clusterização de dados do censo da educação superior(2025-08-08) Mercês, Thamires Lopes das; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8266687622316308A grande quantidade de informações coletadas em censos da educação e avaliações nacionais demanda métodos eficientes para extração de conhecimento, permitindo identificar padrões e tendências relevantes. Nesse contexto, a clusterização se destaca como uma ótima técnica para segmentar e interpretar grandes volumes de dados educacionais, sendo o K-Means um dos algoritmos mais utilizados devido à sua simplicidade e eficiência. No entanto, quando aplicado a conjuntos de dados de alta dimensionalidade, seu desempenho pode ser comprometido, tornando necessário o uso de técnicas de redução de dimensionalidade como Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE) e Uniform Manifold Approximation and Projection (UMAP). Este trabalho investiga o impacto dessas técnicas na qualidade dos agrupamentos gerados pelo K-Means em uma base de dados composta pela junção dos Microdados do Censo da Educação Superior de 2022 e os indicadores de qualidade educacional Conceito Enade e CPC. A análise é realizada utilizando o índice de silhueta como métrica de avaliação e comparando o tempo de execução de cada método. Com dois componentes, o PCA superou o t-SNE e o UMAP na maioria dos testes. Com três componentes, o PCA teve melhor desempenho que o t-SNE em todos os testes, mas ficou equilibrado com o UMAP, onde foi superior em cinco dos nove cenários. Observou-se, ainda, que a quantidade de clusters teve influência relevante nos resultados, especialmente no desempenho crescente do UMAP à medida que se aumentava o número de clusters. O UMAP e o t-SNE mostraram resultados equilibrados com dois componentes. Porém, com três componentes, o UMAP se mostrou melhor em todos os cenários. Além disso, o PCA foi a técnica mais rápida em todos os cenários avaliados, superando tanto o t-SNE quanto o UMAP em termos de tempo de execução.Item Reestruturação ética na mineração de dados educacionais superiores: conformidade com a Lei Geral de Proteção de Dados(2025-08-12) Vasconcelos, Taciana dos Santos; Gouveia, Roberta Macêdo Marques; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/8691839294756407Este estudo aborda a reestruturação dos dados públicos educacionais do Ensino Superior promovida pelo INEP, alinhada à LGPD. Inspirado pelo estudo conduzido por Rodrigues (2021), que analisou concluintes de graduação, visando à construção de modelos de classificação utilizando fatores socioeconômicos e tempo estimado para conclusão da graduação em IES públicas. Este trabalho examina como as mudanças na configuração dos dados do ENADE e do Censo da Educação Superior afetam a realização de pesquisas científicas. Em resposta às mudanças nos microdados efetuadas pelo INEP, que impossibilitam a reprodução de trabalhos com finalidade de análise individual de discentes, este estudo direcionou seu enfoque para as informações dos cursos e tempo de graduação dos discentes nesses cursos, considerando medidas de tendência central. Consideraram-se os anos de 2016 a 2018 para dados do ENADE e 2018 para Censo da Educação Superior. Utilizou-se o processo de Knowledge Discovery in Database (KDD) ao longo do trabalho, desde a seleção até a interpretação de dados. Usando 5.170 registros de cursos, técnicas do Aprendizado de Máquina Supervisionado foram empregadas para construção de modelos de regressão e classificação. Essa abordagem visa superar os desafios éticos e metodológicos da reestruturação dos dados, garantindo a utilidade dos dados para fins de pesquisa científica. Resultados mostram que as mudanças permitiram o uso eficaz de modelos de Aprendizado de Máquina. O estudo destaca a importância da ética nos dados educacionais e na inteligência artificial, garantindo a proteção da privacidade e a responsabilidade na utilização dos dados para tomada de decisões futuras.Item Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina(2025-08-08) Souza, Celso Soares Cassiano de; Oliveira, Lidiano Augusto Nóbrega de; http://lattes.cnpq.br/7399493881755815A segurança cibernética tem se tornado uma das principais preocupações da era digital, impulsionada pelo crescimento acelerado da internet e pela proliferação de ameaças como phishing, malware e roubo de dados. Este trabalho propõe uma abordagem baseada em aprendizado de máquina para classificar URLs como legítimas ou maliciosas, utilizando um conjunto abrangente de atributos extraídos diretamente das URLs e de fontes complementares, como registros WHOIS e informações de rede. Foram aplicados e analisados algoritmos como Random Forest, SVM e XGBoost sobre um conjunto de dados coletado de fontes confiáveis, como PhishTank e Kaggle. As características consideradas englobam aspectos léxicos, informações de rede, conexão e reputação. A avaliação dos modelos foi conduzida por meio de métricas como acurácia, precisão, recall e F1-score, evidenciando um desempenho satisfatório na detecção de sites maliciosos. Como aplicação prática, foi desenvolvida uma plataforma interativa com Streamlit, permitindo que qualquer usuário insira urna URL e receba uma análise imediata sobre sua legitimidade. A análise de importância das variáveis forneceu insights valiosos sobre os fatores mais influentes no processo de classificação, contribuindo tanto para a transparência quanto para a evolução futura do sistema.Item Análise de desempenho do Gemini na estimativa de peso de alimentos por imagem(2025-08-06) Silva, Carlos Gabriel Farias da; Garrozi, Cícero; http://lattes.cnpq.br/0488054917286587Com o avanço das inteligências artificiais multimodais, cresce o interesse em sua aplicação na área da saúde para facilitar a análise nutricional e auxiliar no combate à obesidade. No entanto, a confiabilidade desses modelos para identificar alimentos e estimar porções a partir de imagens ainda é incerta, sendo fundamental mensurar seu desempenho de forma objetiva. Este trabalho avalia a capacidade do modelo Gemini de classificar ingredientes e estimar seus respectivos pesos (em gramas) a partir de fotografias de refeições. Para isso, foi desenvolvido um sistema automatizado que envia requisições à API do Gemini, utilizando um prompt textual padronizado, elaborado com técnicas de engenharia de prompt, e uma lista de ingredientes de referência. As respostas do modelo, obtidas em formato JSON, foram comparadas com dados reais para análise de desempenho. Os resultados obtidos nos experimentos indicaram um baixo desempenho geral. Na classificação de ingredientes, o modelo apresentou baixa precisão e sensibilidade (recall), com dificuldade em detectar itens como temperos e condimentos (por exemplo, azeite e sal) que estavam misturados a outros alimentos, embora tenha obtido altas taxas de aceno para ingredientes visualmente distintos, como morangos e ovos mexidos. Na estimativa de peso, o desempenho também foi insatisfatório, com altos valores de erro (MAE e RMSE) e coeficiente de determinação (R2) negativo, evidenciando tendência à superestimação e desempenho inferior a uma simples predição pela média.Item Aprendizado de máquina não supervisionado aplicado na dinâmica de preços de combustíveis no Brasil(2025-08-05) Lima, Andressa Luana Santana de; Gouveia, Roberta Macedo Marques; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/0993590347039876Este trabalho realiza uma análise exploratória e de clusterização dos dados públicos da Agência Nacional do Petróleo (ANP) para os preços de combustíveis no Brasil em 2024. A partir de variáveis numéricas agregadas por região e por produto, foi aplicado o algoritmo K-means para identificar padrões de comportamento no mercado. As variáveis selecionadas buscaram representar aspectos como níveis médios de preço, variações sazonais, volume de registros e distribuição de revendas. Os resultados apontaram diferenças estruturais entre regiões e entre combustíveis, evidenciando a heterogeneidade do setor. O estudo evidencia a importância do uso de técnicas de agrupamento para explorar padrões relevantes no mercado de combustíveis.Item Classificação multi-rótulo para análise de qualidade de feedback(2025-08-06) Batista, Hyan Hugo Noá; Mello, Rafael Ferreira de Leite; http://lattes.cnpq.br/6190254569597745; http://lattes.cnpq.br/4262454011553103O feedback é um fator muito importante no processo de ensino-aprendizagem e crucial na Educação a Distância, pois, como professores e alunos estão separados no espaço e/ou tempo, é através do feedback que o aluno vai entender como está o seu desempenho na disciplina e quais são os próximos passos do aprendizado. Existem na literatura modelos de feedback que ajudam o professor a estruturar e fornecer um feedback de qualidade ao aluno. Nesse trabalho utilizamos o conceituado modelo de feedback de Hattie e Timperley que divide o feedback em categorias (tarefa, processamento da tarefa, regulação e pessoal). É possível encontrar na literatura trabalhos que analisam feedback automaticamente com base nesse modelo. Contudo, esses trabalhos utilizam algoritmos tradicionais de aprendizagem de máquina e treinam classificadores binários para cada nível de feedback. Dessa forma, este trabalho tem como objetivo utilizar algoritmos de deep learning para classificação multi-classe de feedback com base no modelo de Hattie e Timperley.Item Aprendizagem de máquina para classificação de tipos textuais: estudo de caso em textos escritos em português brasileiro(2025-07-30) Barbosa, Gabriel Augusto; Miranda, Péricles Barbosa Cunha de; http://lattes.cnpq.br/8649204954287770; http://lattes.cnpq.br/7161363389816372A classificação de textos considerando tipos textuais é de suma importância para algumas aplicações de Processamento de Linguagem Natural (PLN). Nos últimos anos, algoritmos de aprendizado de máquina têm obtido bons resultados nesta tarefa considerando textos em inglês. No entanto, pesquisas voltadas para a detecção de tipos textuais escritos em português ainda são escassas, e ainda há muito a ser estudado e descoberto nesse contexto. Assim, este artigo propõe um estudo experimental que investiga o uso de algoritmos de aprendizado de máquina para classificar textos em português considerando tipos textuais. Para isso, propomos um novo corpus composto por textos em português de dois tipos textuais: narrativo e dissertativo. Três algoritmos de aprendizado de máquina tiveram seu desempenho avaliado no corpus criado em termos de precisão, revocação e pontuação F1. Além disso, também foi realizada uma análise dos atributos envolvidos no processo para identificar quais características textuais são mais importantes na tarefa atual. Os resultados mostraram que é possível alcançar altos níveis de precisão e rememoração na classificação de textos narrativos e dissertativos. Os algoritmos obtiveram níveis de métricas semelhantes, demonstrando a qualidade das características extraídas.Item Análise da previsibilidade do preço spot do milho na determinação do preço futuro: um estudo utilizando Random Forest(2025-07-21) Lima, Luiz Felipe Dias de; Duarte, Gisleia Benini; http://lattes.cnpq.br/6349616407324519; http://lattes.cnpq.br/2985117696253378Este estudo investigou a relevância do preço do contrato futuro de milho como variável preditora do preço spot da commodity para o período de 2018 a 2020 e de 2022 a 2024, com periodicidade diária e assim para as demais variáveis. Para tanto, adotou-se como metodologia o algoritmo Random Forest, considerando como variáveis explicativas a cotação do dólar, o preço futuro da soja e o próprio preço presente (spot) do milho. O principal objetivo foi avaliar se o preço atual do milho constitui um bom predito para o comportamento do mercado futuro. Dessa forma o Random Forest demostrou alto desempenho na previsão do contrato futuro do milho, indicando boa capacidade de generalização a partir do preço spot, além disso demostrando que a cotação do dólar é uma variável importante no comportamento do preço futuro do milho.Item Recomendação sensível ao contexto para comunicação aumentativa e alternativa baseada em aprendizagem de máquina(2024-02-23) Silva, Ulisses Chaves; Nascimento, André Câmara Alves do; http://lattes.cnpq.br/0622594061462533; http://lattes.cnpq.br/8993061329549653Comumente, observa-se a adoção de novas técnicas baseadas em inteligência artificial e aprendizagem de máquina (AM) em diversos contextos. Com o avanço das redes neurais artificiais, que possibilitam a representação de diversos tipos de dados e a compreensão das complexas relações entre eles, essa tendência foi ainda mais impulsionada. No entanto, a literatura atual mostra-se escassa ao tentar encontrar estudos atualizados que relacionem essas tecnologias a metodologias pedagógicas para resolver os diversos problemas sociais e promover a inclusão. Este trabalho propõe abordagens atuais utilizadas em AM para a recomendação de pictogramas em um sistema de Comunicação Aumentativa e Alternativa (AAC). Diante da complexidade das necessidades de usuários de AAC, neste trabalho dois modelos neurais sensíveis ao contexto são apresentados e comparados. Esses modelos utilizam técnicas de aprendizagem de máquina para considerar o contexto dinâmico do usuário para gerar recomendações, adaptando-se à localização e ao tempo específicos desse usuário que possui alguma deficiência na comunicação. Adicionalmente, são destacados outros trabalhos que foram usados como base para a criação dessa solução para o problema de recomendação de pictogramas existente na aplicação móvel Livox.Item Xphide: um sistema especialista para a detecção de phishing(2023-08-25) Barros, Mateus Lins e Silva Duque de; Miranda, Péricles Barbosa da Cunha; http://lattes.cnpq.br/6425827511465244Phishing é um tipo de crime cibernético que visa o roubo de dados pessoais do usuário por meios de disfarces e enganação. Este artigo propõe o Xphide, um sistema especialista para a detecção de páginas maliciosas. A base da construção do sistema foi feita através de uma análise aprofundada a respeito de atributos relevantes para descrição de páginas web. Esta análise serviu de insumo para a elaboração das regras do processo decisório do Xphide, que foram separadas em 3 categorias: estáticas, de lista e dinâmicas. O sistema proposto foi avaliado em três diferentes bases de dados, extraídas de repositórios públicos, sendo 2 de phishing válidos, e 1 de phishing inválidos. Os resultados mostraram que o Xphide superou algoritmos de classificação tradicionais em termos de precisão e revocação, se mostrando uma alternativa promissora para a classificação de página web.
