Bacharelado em Sistemas de Informação (Sede)

URI permanente desta comunidadehttps://arandu.ufrpe.br/handle/123456789/12


Siglas das Coleções:

APP - Artigo Publicado em Periódico
TAE - Trabalho Apresentado em Evento
TCC - Trabalho de Conclusão de Curso

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 10 de 11
  • Imagem de Miniatura
    Item
    Aprendizagem de máquina para a identificação de clientes propensos à compra em Inbound marketing
    (2019-07-12) Silva, Bruno Roberto Florentino da; Monteiro, Cleviton Vinicius Fonsêca; Soares, Rodrigo Gabriel Ferreira; http://lattes.cnpq.br/2526739219416964; http://lattes.cnpq.br/9362573782715504
    O ponto mais importante para uma empresa deve ser sempre o cliente e conseguir novos clientes nem sempre é uma estratégia fácil. As técnicas de marketing digital estudam como atrair novos clientes para as empresas fazendo uso de plataformas digitais. Em virtude da popularização destes meios, as estratégias tiveram que se moldar às novas necessidades. Com apenas um clique é possível alcançar milhares de indivíduos, o que significa muitos leads (oportunidades de negócio) novos para a empresa. Entretanto, filtrar quais desses indivíduos estão realmente interessados no produto ou serviço ofertado pela empresa demanda um grande esforço da equipe de vendas. Essa sobrecarga é prejudicial no sentido de que a empresa pode perder receita por falta de direcionamento das verdadeiras oportunidades. Visando amenizar tal problema, o presente trabalho oferece uma proposta cujo objetivo é a identificação automática de potenciais clientes com maior propensão à compra dentre os leads obtidos por uma empresa através de estratégias de marketing digital. Para tornar possível a execução desta proposta, foram utilizados recursos de Aprendizado de máquina, com aplicação dos algoritmos de classificação supervisionada, Árvore de decisão e Naive Bayes (NB), fornecidos pela biblioteca Scikit-learn, sob a linguagem de programação Python. Além disso, fez-se necessário a aplicação do algoritmo de sobreamostragem SMOTE, devido ao desbalanceamento do conjunto de dados. Com a finalidade de otimizar a classificação, foram utilizadas técnicas de seleção de atributos e seleção de modelos com ajuste de hiperparâmetros. Para avaliação dos resultados, utilizou-se as métricas de matriz de confusão, precisão, cobertura e curva de precisão e cobertura. Devido ao desbalanceamento dos dados, a métrica de precisão não relatou bons resultados, com médias de 5,5% de acerto. Já a cobertura alcançou médias de aproximadamente 83%. Mesmo com resultados tão divergentes entre as métricas aplicadas, o presente trabalho conseguiu identificar a maioria das verdadeiras oportunidades e relatando que ao utilizar esta abordagem, seria possível obter uma redução de até 85% da aplicação de esforço por parte da equipe de vendas. Em consequência disso, uma empresa pode ter uma redução de custos ao diminuir os recursos aplicados para obter novos clientes, propiciando que a equipe de vendas possa encontrar novos clientes com maior eficiência.
  • Imagem de Miniatura
    Item
    Uma abordagem baseada em aprendizado de máquina para dimensionamento de requisitos de software
    (2016-12-13) Fernandes Neto, Eça da Rocha; Soares, Rodrigo Gabriel Ferreira; http://lattes.cnpq.br/2526739219416964; http://lattes.cnpq.br/6325583065151828
    Este trabalho se propõe a realizar o dimensionamento automático de requisitos de software utilizando uma abordagem de aprendizado de máquina. A base de dados utilizada é real e foi obtida de uma empresa que trabalha com processo de desenvol- vimento baseado no Scrum e estimativa Planning Poker. Durante os estudos foram utilizadas técnicas de pré processamento de dados, classificação e seleção de melho- res atributos com os algorítimos termo–inverso da frequência nos documentos (tf-idf) e análise de componentes principais (PCA). O aprendizado de máquina e classificação automática se deu com o uso de Máquinas de Vetores de Suporte (SVM) baseado no histórico de dados disponível. Os testes finais foram realizados com e sem a seleção de atributos via PCA. Está demonstrado que a assertividade é maior quando é feita a seleção dos melhores atributos. A ferramenta fruto do trabalho consegue estimar o tamanho de histórias de usuário com uma generalização de até 91%. Os resultados foram considerados passíveis de serem utilizados em ambiente de produção sem pre- juízo para a equipe de desenvolvimento.
  • Imagem de Miniatura
    Item
    Comparação de técnicas de classificação para predição de esforço no desenvolvimento de software
    (2019-01-31) Uehara, Matheus Pitancó de Lima; Soares, Rodrigo Gabriel Ferreira; http://lattes.cnpq.br/2526739219416964; http://lattes.cnpq.br/2761038597182432
    A estimação de esforço de atividades é uma etapa fundamental no desenvolvimento de software, ela é de fundamental importância para que o software seja entregue com qualidade no prazo estimado. Estimativas realizadas de forma isolada das equipes de desenvolvimento tendem a se basear na estimativa de um especialista, essas estimativas são facilmente obtidas porém não refletem fielmente o esforço necessário do responsável pelo desenvolvimento da atividade, enquanto abordagens que envolvem o time de desenvolvimento tendem a ser mais assertivas no entanto demandam mais tempo e mais pessoas envolvidas neste processo de estimativa. Neste trabalho é apresentado como o aprendizado de máquina pode auxiliar de forma automatizada os times na melhoria de estimativas de esforço diminuindo o tempo necessário para sua realização. Através dos experimentos foram obtidos resultados que validam a viabilidade da técnica utilizada para extração de características e classificação na estimativa de esforço a partir da descrição textual das atividades. Os resultados dos classificadores variaram de 31% à 33% de F-measure.
  • Imagem de Miniatura
    Item
    Uso da ciência de dados para estudo de falhas e fraudes dos abastecimentos de postos de gasolina
    (2019-12-19) Arruda, Luiz Felipe Ribeiro de; Albuquerque Júnior, Gabriel Alves de; Roullier, Ana; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/1825682578554550
    Nos dias de hoje, se faz necessário como uma prática essencial do empreendedorismo, um estudo descritivo das vendas realizadas pelas empresas levando em consideração fatores como localização, horário, fidelização do cliente e outros. Tales tudo, é necessário para compreender os padrões envolvidos nos volumes de vendas, bem como, em alguns casos, mensurar a produtividade de vendedores e criar uma métrica de produtividade baseado nos dados obtidos. Assim como toda empresa, os postos de gasolinas também gerenciam as suas vendas fazendo projeções, melhorias e estratégia de vendas. De acordo com a lei federal nº 9.9562, os postos de gasolinas são obrigados a terem técnicos responsáveis para realizar os abastecimentos, comumente chamados de frentistas. Os frentistas são tratados nos postos como vendedores, e então existe todo um controle de vendas para eles. Também é regulamentado em lei, para postos de combustíveis, ou so de automação comercial, antes pelo regulamento da SEFAZPAF-ECF e agora pela NFC-e. A automação comercial usada nos postos de combustíveis, trabalha em conjunto com as bombas de combustíveis e os frentistas. As bombas de combustíveis, nos postos, são os geradores de dados para o posto. É através das bombas que os consumidores recebem o que compram, e é o papel da automação registrar os dados oriundos dos abastecimentos e associar o frentista para o seu respectivo abastecimento. Esses dados são enviados para sistemas comerciais que fazem atratativa do gerenciamento de venda. Este estudo tem por finalidade usar os conceitos da ciência de dados e machine learning, para identificar falhas, possíveis fraudes, automatizar a análise dos logs e extrair dados relevantes para a análise de abastecimentos através delogs. Por isso, foram criados algoritmos de identificação de falhas e fraudes, que alimentam uma tabela de dados, e posteriormente, é criada uma machine learning, alimentada por essa tabela, para que seja possível prever futuros abastecimentos com erro. Após a aplicação dos treinos e testes, a máquina teve uma precisão (precision) de 96% de acerto das previsões de falhas nos abastecimentos.
  • Imagem de Miniatura
    Item
    Serviço computacional para interpolação espacial de dados meteorológicos
    (2019) Antonio, Wellington Luiz; Gonçalves, Glauco Estácio; Medeiros, Victor Wanderley Costa de; http://lattes.cnpq.br/7159595141911505; http://lattes.cnpq.br/6157118581200722; http://lattes.cnpq.br/6454060359445906
    A interpolação espacial é uma técnica de suma importância para diversas atuações:meteorologia, hidrologia, zoneamento agrícola, caracterização de áreas de risco à saúde, sociodemográfica, entre outras. Por meio da interpolação pode-se modelar asuperfície de uma variável espacialmente distribuída a partir de um conjunto finito de dados pontuais conhecidos, no caso de dados meteorológicos para agricultura, por exemplo, a interpolação permite observar como as variáveis meteorológicas se comportam em uma determinada propriedade rural, o que poderia servir como base para o manejo de irrigação nesta propriedade. Devido à demanda cada vez maior pelo uso dainterpolação espacial, propôs-se desenvolver um serviço de interpolação espacial, escalável baseado em tecnologias e padrões do estado da arte em sistemas distribuídospara interpolação espacial de dados meteorológicos associados à agricultura. Para o alcance de tal objetivo, buscou-se desenvolver um serviço web que implementasse três algoritmos diferentes para a interpolação da evapotranspiração de referência, sendo eles:Inverse distance weighted(IDW),Ordinary Kriging(OK) eRandom Forest(RF),os dois primeiros são algoritmos amplamente utilizados na espacialização da evapo-transpiração de referência, sendo conhecidos por produzirem baixos erros na interpolação. Já o último algoritmo utilizado é originário da aprendizagem de máquina e tem sido empregado em estudos recentes como alternativa para a interpolação espacial de variáveis ambientais, obtendo também resultados promissores na estimativa da evapo-transpiração. O serviço web de interpolação espacial proposto foi implementado e seu desempenho avaliado por meio de medição. Este serviço foi implantado em ambiente de produção por meio de um contêiner Docker, e um aplicativo móvel foi desenvolvidopara integrar e demonstrar as principais funcionalidades do serviço web. O presente serviço pode ser aplicado em diversas áreas, contudo nesse trabalho atentou-se mais para o setor agrícola, por ser o setor para o qual esse estudo encontra-se direcionado.Os principais beneficiários do serviço web incluem pesquisadores e desenvolvedoresdesoftwareque, por sua vez, a partir da aplicação do serviço, podem desenvolverestudos que beneficiarão o agricultor. Durante a realização desse trabalho, buscou-se também avaliar como o serviço desenvolvido poderia ser útil para a promoção do desempenho e da escalabilidade com relação ao cálculo da interpolação espacial e geração de modelos espaciais. Destacou-se também, a importância desse software como ferramenta de apoio para outras pesquisas ou mesmo para outros software, como por exemplo, o Aquaprev, que utiliza, além de outros parâmetros, a evapotranspiração e a interpolação espacial para estimar o tempo de irrigação de uma determinada cultura.
  • Imagem de Miniatura
    Item
    Estudo comparativo de algoritmos de classificação supervisionada para classificação de polaridade em análise de sentimentos
    (2019) Albuquerque, Rotsen Diego Rodrigues de; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/6441716676783585
    Com o grande aumento de dados na internet, mostra-se uma rica fonte para a avaliação da opinião pública sobre uma entidade específica. Consequentemente, o número de opiniões disponíveis torna impossível uma tomada de decisão se for necessário ler e analisar todas as opiniões. Como o uso de Machine Learning tem sindo bastante usado, irei apresentar um estudo comparativo de dois algoritmos para classificar oscomentários usando técnicas de processamento de linguagem natural e Análise de Sentimentos. O dados obtidos foram obtidos manualmente onde através do site de competições chamado Kaggle temos cerca de 50.000 comentários sobre diversos filmes. Este estudo tem por finalidade usar também os conceitos da ciência de dados e Machine Learning, processamento de linguagem natural e analises de sentimentos para agregar mais informação sobre a industria de entretenimento e cinema. Por isso esses algoritmos foram criados para que seja possível mostrar os resultados para esse domínio nos reviews de filmes registrados no site da grande industria cinematográfica o famoso IMDB. Após a aplicação dos treinos e testes, a máquina teve uma Acuráciade 86% sobre a predição de textos comentados de filmes.
  • Imagem de Miniatura
    Item
    Predição de popularidade de podcasts através de características textuais
    (2019) Santana Júnior, Bernardo de Moraes; Cabral, Giordano Ribeiro Eulalio; http://lattes.cnpq.br/6045470959652684; http://lattes.cnpq.br/9948081717430490
    Com o tremendo crescimento dos Podcast se profissionalização de seus criadores,ao ponto de redes de notícias chamarem esse momento como ”era de ouro”para os Podcasts, novas ferramentas surgiram para auxiliar esses produtores na construção emanutenção de seus canais. Nesse contexto encontrar características nos episódios produzidos que proporcionem um alcance maior ao público alvo é de grande valor tantopara os criadores quanto para os ouvintes, permitindo que canais permaneçam ativospor mais tempo e ofereçam uma melhor qualidade de conteúdo.Assim, este trabalho propõe um estudo de análise de popularidade dosPodcastsna-cionais, utilizando uma ferramenta de análise da audiência dos Podcasts em um dos agregadores de canais e episódios mais utilizados do mundo, oiTunes. Através de ferramentas deWeb Scraping para a coleta das informações disponíveis e necessárias,de ferramentas para transcrições dos áudios dos episódios para a obtenção do que foidito e o calculo de métricas para medir precisão do modelo gerado, assim fazer uma análise de quais informações são relevantes para a predição de popularidade de um canal.Resultados obtidos foram favoráveis na correlação entre as categorias analisadas de forma individual e texto dos episódios nelas contidos, enquanto em uma análise em que categorias não são descriminadas há uma baixa relação entre texto e popularidade, demonstrando que a categoria de determinado canal tem um papel importante na análise de sua popularidade.
  • Imagem de Miniatura
    Item
    Aspect term extraction in aspect-based sentiment analysis
    (2019) Francisco, Alesson Delmiro; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340
    O uso crescente da Internet criou a necessidade de analisar uma vasta quantidade dedados. Uma grande quantia de dados é apresentada como Texto em Linguagem Naturalnão estruturado, com várias maneiras de expressar a mesma informação. É uma tarefaimportante extrair informação e significado destes conteúdos não estruturados, comoopiniões em produtos ou serviços. A necessidade de extrair e analisar a vasta quantidadede dados criados todos os dias na Internet ultrapassou as capacidades humanas, comoresultado, várias aplicações de mineração de texto que extraem e analisam dados textuaisproduzidos por humanos estão disponíveis atualmente, uma destas aplicações é a Análise deSentimentos usada para que empresas e provedores de serviços possam usar o conhecimentoextraído de documentos textuais para melhor entender como seus clientes pensam sobreeles. No entanto, a tarefa de analisar texto não estruturado é difícil, por isso é necessárioprover informação coerente e resumos concisos para as revisões. Análise de Sentimentoé o processo de identificar e categorizar computacionalmente opiniões expressadas numtexto, especialmente para determinar a atitude do autor sobre um tópico ou produto emparticular. Análise de Sentimentos Baseada em Aspectos (ABSA) é um sub-campo daAnálise de Sentimentos que tem como objetivo extrair opiniões mais refinadas e exatas,quebrando o texto em aspectos. A maior parte dos trabalhos atuais na literatura não lucramde recursos baseados em semântica ou análises baseadas em Processamento de LinguagemNatural na fase de pré-processamento. Para tratar essas limitações, um estudo nestesrecursos é feito com o objetivo de extrair as características necessárias para a execuçãoda tarefa, e para fazer a melhor combinação para Extração de Termo de Aspecto. Estetrabalho tem como o principal objetivo implementar e analisar um método de Extraçãode Termo de Aspecto (ATE) de críticas de usuários (restaurantes e laptops). O métodoproposto é baseado em uma abordagem supervisionada chamada Campos CondicionaisAleatórios (CRF) que otimiza o uso de características para classificação, esta escolha éjustificada pelos trabalhos relacionados anteriores que demonstram a eficácia do CRFpara ATE. Um estudo também é feito em métodos para propor novas características eexperimantar com combinações de características para obter as melhores combinações.O estudo detalhado é feito a partir da experimentação com características de palavra,n-gramas e características customizadas utilizando um algoritmo supervisionado CRF pararealizar a tarefa de Extração de Termo de Aspecto com resultados em termo de Precisão,Cobertura e F-Measure, as métricas padrões de avaliação adotadas na área. Por fim, umaavaliação comparativa entre o método proposto para ATE contra outros trabalhos daliteratura mostra que o método apresentado neste trabalho é competitivo.
  • Imagem de Miniatura
    Item
    Avaliação de métodos para interpolação espacial de dados de precipitação
    (2019) Neris, Airton Martins; Gonçalves, Glauco Estácio; Medeiros, Victor Wanderley Costa de; http://lattes.cnpq.br/7159595141911505; http://lattes.cnpq.br/6157118581200722; http://lattes.cnpq.br/7254010025661115
    Informação sobre a quantidade de precipitação de chuva é essencial para os mais va-riados setores, como agrícola e agroflorestal. Apesar dessa importância, muitas áreasainda não possuem estações meteorológicas, o que ocasiona a falta de dados. Parasuprir essa necessidade existem os métodos de interpolação espacial, que utilizam asinformações de pontos correlatos para estimar o valor inexistente em determinada área.Assim, este trabalho tem como objetivo avaliar métodos para a interpolação de dadosdiários de precipitação. As técnicas de interpolação utilizadas nos experimentos foramos métodos: Ponderação pelo Inverso da Distância; Krigagem Ordinária; Floresta Ale-atória. Para a Floresta Aleatória foram usadas duas configurações distintas, uma querecebe como entrada as coordenadas, e outra que recebe a distância debuffer, que éum dos mais recentes pré-processamentos utilizados na literatura para que a FlorestaAleatória estime seus valores com base no seu referencial geográfico. Foram utilizadosdados de precipitações de chuva provenientes das 46 estações meteorológicas do es-tado de Pernambuco referentes ao período de 2013 a 2018, e para comparar a precisãoda generalização dos métodos, foi utilizado a validação cruzadaleave-one-out. Nos re-sultados, a Ponderação pelo Inverso da Distância apresentou um melhor desempenhoem suas estimativas, para todas as métricas, e a Floresta Aleatória utilizando coorde-nadas obteve o segundo melhor resultado. A Floresta Aleatória utilizando a distânciadebuffer, teve um resultado inferior em termos de suas métricas, mas a qualidade daespacialização visual mostrou-se superior por oferecer um resultado visualmente maissuave do que aquele oferecido pela Floresta Aleatória utilizando coordenadas.
  • Imagem de Miniatura
    Item
    Análise da utilização de aprendizado de máquina na redução do volume de alertas benignos
    (2019) Simião, Augusto Fernando de Melo; Soares, Rodrigo Gabriel Ferreira; http://lattes.cnpq.br/2526739219416964; http://lattes.cnpq.br/0529129636604731
    Para auxiliar no combate a ataques cibernéticos, Managed Security Services Providers (MSSPs) usam SIEMs (Security Information and Event Management). SIEMs são capazes de agregar, processar e correlacionar vastas quantidades de eventos provenientes de diferentes sistemas, alertando analistas de segurança da existência de ameças, tais como vírus de computador e ataques cibernéticos, em redes de computadores. No entanto, SIEMs são conhecidos pelas altas taxas de alertas benignos (alertas que não representam ameaça) em relação aos malignos (alertas que representam ameaça). Devido aos altos volumes e predominância de falsos alertas, o analista passa a ignorar alertas como um todo, o que inclui aqueles que representam incidentes em potencial, aumentando assim o risco da rede ser comprometida. Esse fenômeno é conhecido como fadiga de alerta e tem sido alvo frequente da aplicação de técnicas de aprendizado de máquina para a redução dos volume de alertas benignos. SIEMs modernos utilizam aprendizado de máquina, na correlação de eventos, para que apenas alertas que realmente representam possíveis ameaças sejam reportados. No entanto, essa correlação não leva em conta a deliberação do analista de segurança, permitindo assim que os SIEMs continuem gerando alertas previamente identificadas como benignos. Este trabalho investiga a utilização dos algorítimos Naïve Bayesian Learning, Árvore de Decisão e Random Forest, para a redução do volume de alertas benignos, utilizando alertas previamente identificados por analistas, ao invés da corrente de eventos que geram tais alertas. Dessa forma, foi possível mostrar, através de experimentos, que técnicas de aprendizado de máquina supervisionado podem ser aplicadas na identificação e alertas benignos previamente analisados.