Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina
Data
2025-08-08
Autores
Lattes da Autoria
Orientação Docente
Lattes da Orientação Docente
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
A segurança cibernética tem se tornado uma das principais preocupações da era digital, impulsionada pelo crescimento acelerado da internet e pela proliferação de ameaças como phishing, malware e roubo de dados. Este trabalho propõe uma abordagem baseada em aprendizado de máquina para classificar URLs como legítimas ou maliciosas, utilizando um conjunto abrangente de atributos extraídos diretamente das URLs e de fontes complementares, como registros WHOIS e informações de rede. Foram aplicados e analisados algoritmos como Random Forest, SVM e XGBoost sobre um conjunto de dados coletado de fontes confiáveis, como PhishTank e Kaggle. As características consideradas englobam aspectos léxicos, informações de rede, conexão e reputação. A avaliação dos modelos foi conduzida por meio de métricas como acurácia, precisão, recall e F1-score, evidenciando um desempenho satisfatório na detecção de sites maliciosos. Como aplicação prática, foi desenvolvida uma plataforma interativa com Streamlit, permitindo que qualquer usuário insira urna URL e receba uma análise imediata sobre sua legitimidade. A análise de importância das variáveis forneceu insights valiosos sobre os fatores mais influentes no processo de classificação, contribuindo tanto para a transparência quanto para a evolução futura do sistema.
Resumo em outro idioma
Cyber security has become one of the main concerns of the digital age, driven by the accelerated growth of the internet and the proliferation of threats such as phishing, malware and data theft. This work proposes a machine learning-based approach to classify URLs as legitimate or malicious, using a comprehensive set of attributes extracted directly from URLs and complementary sources, such as whois records and network information. Algorithms such as Random Forest, SVM and XGboost were applied and analyzed on a data set collected from reliable sources such as Phishtank and Kaggle. The characteristics considered encompass lexical aspects, network information, connection and reputation. The evaluation of the models was conducted through metrics such as accuracy, accuracy, recall and F1-Score, showing satisfactory performance in detecting malicious websites. As a practical application, an interactive streamlit platform has been developed, allowing any user to enter a URL and receive an immediate analysis of its legitimacy. The analysis of importance of variables provided valuable insights on the most influential factors in the classification process, contributing to both transparency and future system evolution.
Descrição
Referência
SOUZA, Celso Soares Cassiano de. Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina. 2025. 36 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2025.
Identificador dARK
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como openAccess

