Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina

Imagem de Miniatura

Data

2025-08-08

Lattes da Autoria

Lattes da Orientação Docente

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

A segurança cibernética tem se tornado uma das principais preocupações da era digital, impulsionada pelo crescimento acelerado da internet e pela proliferação de ameaças como phishing, malware e roubo de dados. Este trabalho propõe uma abordagem baseada em aprendizado de máquina para classificar URLs como legítimas ou maliciosas, utilizando um conjunto abrangente de atributos extraídos diretamente das URLs e de fontes complementares, como registros WHOIS e informações de rede. Foram aplicados e analisados algoritmos como Random Forest, SVM e XGBoost sobre um conjunto de dados coletado de fontes confiáveis, como PhishTank e Kaggle. As características consideradas englobam aspectos léxicos, informações de rede, conexão e reputação. A avaliação dos modelos foi conduzida por meio de métricas como acurácia, precisão, recall e F1-score, evidenciando um desempenho satisfatório na detecção de sites maliciosos. Como aplicação prática, foi desenvolvida uma plataforma interativa com Streamlit, permitindo que qualquer usuário insira urna URL e receba uma análise imediata sobre sua legitimidade. A análise de importância das variáveis forneceu insights valiosos sobre os fatores mais influentes no processo de classificação, contribuindo tanto para a transparência quanto para a evolução futura do sistema.

Resumo em outro idioma

Cyber security has become one of the main concerns of the digital age, driven by the accelerated growth of the internet and the proliferation of threats such as phishing, malware and data theft. This work proposes a machine learning-based approach to classify URLs as legitimate or malicious, using a comprehensive set of attributes extracted directly from URLs and complementary sources, such as whois records and network information. Algorithms such as Random Forest, SVM and XGboost were applied and analyzed on a data set collected from reliable sources such as Phishtank and Kaggle. The characteristics considered encompass lexical aspects, network information, connection and reputation. The evaluation of the models was conducted through metrics such as accuracy, accuracy, recall and F1-Score, showing satisfactory performance in detecting malicious websites. As a practical application, an interactive streamlit platform has been developed, allowing any user to enter a URL and receive an immediate analysis of its legitimacy. The analysis of importance of variables provided valuable insights on the most influential factors in the classification process, contributing to both transparency and future system evolution.

Descrição

Referência

SOUZA, Celso Soares Cassiano de. Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina. 2025. 36 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Departamento de Estatística e Informática, Universidade Federal Rural de Pernambuco, Recife, 2025.

Identificador dARK

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como openAccess