Navegando por Assunto "Aprendizado do computador"

Agora exibindo 1 - 20 de 76

A importância dos Dados Estruturados, Não Estruturados e Semiestruturados os desafios da sua utilização nas organizações brasileiras
(2022-02-18) Simões, Rachel Albuquerque Mangueira; França, Sônia Virginia Alves; http://lattes.cnpq.br/6477581135066258; http://lattes.cnpq.br/1476668673947358
Devido ao avanço contínuo do Big Data e a necessidade cada vez mais de alcançar vantagem competitiva no mercado, as organizações estão se deparando com os novos desafios desta nova realidade e acompanhando a importância dos dados estruturados e não estruturados no mercado. Os dados são os atores principais no papel do desenvolvimento de softwares, são capazes de identificar padrões comportamentais de acordo com os diferentes nichos de clientes, insights e identificação de novas oportunidades a partir de sua análise. Desta forma, neste trabalho acadêmico foram levantados as vantagens e desvantagens, importância e desafios, baseada em pesquisas observacionais científicas participante de forma natural, onde a coleta de dados foi necessária para conseguir as informações, utilizando aspectos, analisando fatos e fenômenos do objeto de estudo em questão, participando efetivamente das atividades com finalidade de destacar os pontos de maior relevância para as organizações e sociedade no geral.
A utilização do computador como recurso didático - pedagógico em uma creche do município de Garanhuns - PE
(2019) Santos, Lucivânia Bernardo dos; Alencar, Anderson Fernandes de; http://lattes.cnpq.br/9517716593738845; http://lattes.cnpq.br/7901200189102635
O presente artigo vem apresentar um estudo acerca do uso do computador como recurso pedagógico em uma creche do município de Garanhuns – PE. A pesquisa teve como objetivo identificar se a informática auxilia no processo de ensino e aprendizagem de conteúdos escolares no âmbito da educação infantil, por se tratar de uma ferramenta que se destaca dentre os meios tecnológicos. O tipo de pesquisa escolhido foi a pesquisa-ação e a observação participante, com abordagem qualitativa das atividades realizadas no contexto da ação dos “UCAs itinerantes”, que tem como objetivo proporcionar o uso dos “UCAs” nas escolas que não foram contempladas com salas de informática permanentes. Constatamos durante a pesquisa que o uso do computador na educação infantil contribui para o desenvolvimento da aprendizagem dos conteúdos pedagógicos, do raciocínio lógico e na habilidade da coordenação motora.
Análise da evasão no ensino superior: predição e prevenção por meio da mineração de dados educacionais
(2024-03-05) Ferreira, Rodolfo André Barbosa; Mello, Rafael Ferreira Leite de; http://lattes.cnpq.br/6190254569597745; http://lattes.cnpq.br/2982020271806247
Tendo em vista que a evasão ocorre por abandono, transferência ou desistência do curso; quando o aluno se desliga da instituição que está matriculado ou quando o aluno abandona definitivamente ou não o curso superior, este artigo busca identificar métodos e técnicas automáticas para auxiliar os gestores a prevenir casos de evasão por meio das predições. Para realizar o estudo foi utilizada a Mineração de Dados Educacionais (MDE), que aplica técnicas de mineração de dados, tais como banco de dados, estatísticas e aprendizado de máquina nas áreas da educação. Foram empre- gues dados de 5144 alunos com características relacionadas ao curso, semestre e demografia constantes no banco de dados fornecido pelo Sistema de Informações e Gestão Acadêmica (SIGA) da Universidade Federal Rural de Pernambuco (UFRPE) para os cursos de Zootecnia, Engenharia de Pesca e Agronomia. Os dados, exceto aqueles que são informações pessoais, restritas e sensíveis, foram separados em Ca- racterísticas Acadêmicas por Semestre, Acadêmicas Gerais, dos Cursos, Demográficas e Característica alvo. O estudo usa o algoritmo de aprendizado de máquina LSTM e os otimizadores SGD e Adam, explorando diferentes valores para os parâmetros de taxa de aprendizagem, momentum, tamanho de lotes e número de épocas.
Análise da previsibilidade do preço spot do milho na determinação do preço futuro: um estudo utilizando Random Forest
(2025-07-21) Lima, Luiz Felipe Dias de; Duarte, Gisleia Benini; http://lattes.cnpq.br/6349616407324519; http://lattes.cnpq.br/2985117696253378
Este estudo investigou a relevância do preço do contrato futuro de milho como variável preditora do preço spot da commodity para o período de 2018 a 2020 e de 2022 a 2024, com periodicidade diária e assim para as demais variáveis. Para tanto, adotou-se como metodologia o algoritmo Random Forest, considerando como variáveis explicativas a cotação do dólar, o preço futuro da soja e o próprio preço presente (spot) do milho. O principal objetivo foi avaliar se o preço atual do milho constitui um bom predito para o comportamento do mercado futuro. Dessa forma o Random Forest demostrou alto desempenho na previsão do contrato futuro do milho, indicando boa capacidade de generalização a partir do preço spot, além disso demostrando que a cotação do dólar é uma variável importante no comportamento do preço futuro do milho.
Análise da utilização de aprendizado de máquina na redução do volume de alertas benignos
(2019) Simião, Augusto Fernando de Melo; Soares, Rodrigo Gabriel Ferreira; http://lattes.cnpq.br/2526739219416964; http://lattes.cnpq.br/0529129636604731
Para auxiliar no combate a ataques cibernéticos, Managed Security Services Providers (MSSPs) usam SIEMs (Security Information and Event Management). SIEMs são capazes de agregar, processar e correlacionar vastas quantidades de eventos provenientes de diferentes sistemas, alertando analistas de segurança da existência de ameças, tais como vírus de computador e ataques cibernéticos, em redes de computadores. No entanto, SIEMs são conhecidos pelas altas taxas de alertas benignos (alertas que não representam ameaça) em relação aos malignos (alertas que representam ameaça). Devido aos altos volumes e predominância de falsos alertas, o analista passa a ignorar alertas como um todo, o que inclui aqueles que representam incidentes em potencial, aumentando assim o risco da rede ser comprometida. Esse fenômeno é conhecido como fadiga de alerta e tem sido alvo frequente da aplicação de técnicas de aprendizado de máquina para a redução dos volume de alertas benignos. SIEMs modernos utilizam aprendizado de máquina, na correlação de eventos, para que apenas alertas que realmente representam possíveis ameaças sejam reportados. No entanto, essa correlação não leva em conta a deliberação do analista de segurança, permitindo assim que os SIEMs continuem gerando alertas previamente identificadas como benignos. Este trabalho investiga a utilização dos algorítimos Naïve Bayesian Learning, Árvore de Decisão e Random Forest, para a redução do volume de alertas benignos, utilizando alertas previamente identificados por analistas, ao invés da corrente de eventos que geram tais alertas. Dessa forma, foi possível mostrar, através de experimentos, que técnicas de aprendizado de máquina supervisionado podem ser aplicadas na identificação e alertas benignos previamente analisados.
Análise de desempenho do Gemini na estimativa de peso de alimentos por imagem
(2025-08-06) Silva, Carlos Gabriel Farias da; Garrozi, Cícero; http://lattes.cnpq.br/0488054917286587
Com o avanço das inteligências artificiais multimodais, cresce o interesse em sua aplicação na área da saúde para facilitar a análise nutricional e auxiliar no combate à obesidade. No entanto, a confiabilidade desses modelos para identificar alimentos e estimar porções a partir de imagens ainda é incerta, sendo fundamental mensurar seu desempenho de forma objetiva. Este trabalho avalia a capacidade do modelo Gemini de classificar ingredientes e estimar seus respectivos pesos (em gramas) a partir de fotografias de refeições. Para isso, foi desenvolvido um sistema automatizado que envia requisições à API do Gemini, utilizando um prompt textual padronizado, elaborado com técnicas de engenharia de prompt, e uma lista de ingredientes de referência. As respostas do modelo, obtidas em formato JSON, foram comparadas com dados reais para análise de desempenho. Os resultados obtidos nos experimentos indicaram um baixo desempenho geral. Na classificação de ingredientes, o modelo apresentou baixa precisão e sensibilidade (recall), com dificuldade em detectar itens como temperos e condimentos (por exemplo, azeite e sal) que estavam misturados a outros alimentos, embora tenha obtido altas taxas de aceno para ingredientes visualmente distintos, como morangos e ovos mexidos. Na estimativa de peso, o desempenho também foi insatisfatório, com altos valores de erro (MAE e RMSE) e coeficiente de determinação (R2) negativo, evidenciando tendência à superestimação e desempenho inferior a uma simples predição pela média.
Análise de sentimentos em publicações do Stackoverflow
(2019-08-22) Santos, Luiz Felipe dos; Trindade, Cleyton Carvalho da; http://lattes.cnpq.br/6298429503812388
A utilização de redes sociais, fóruns e diversos meios de comunicação, vem crescendo ex-ponencialmente, refletindo diretamente na quantidade de dados gerados na internet, uma grande parcela dos dados gerados, estão abertos e podem ser acessados e processados. Com isso, as possibilidades geradas com os dados abertos, tem atraído vários pesquisadores e empresas, com o intuito de extrair informações preciosas sobre seus clientes. As informações extraídas a partir dessa massa de dados, podem mudar a estratégia de diversas empresas e pessoas. Nos fóruns sobre computação, é possível visualizar o mesmo padrão, várias pessoas interagindo e gerando diversas informações sobre a tecnologia da informação e seus derivados. A pesquisa passará por todo o ciclo da análise de sentimentos, captação dos dados na plataforma do StackOverflow, tratamento dos dados, processamento de linguagem natural, treinamento dos algoritmos e a classificação. Com o intuito de mostrar as etapas de processamento e classificação dos dados, comparar as abordagens de classificação e extrair informações sobre a base de dados analisada. Após a aplicação do ciclo da análise de sentimentos, foi possível comparar os resultados de cada classificador e extrair informações sobre a base de dados analisada, sobre a performance dos classificadores em base de dados não estruturadas e a dificuldade de trabalhar com base de dados na língua portuguesa.
Análise de sentimentos em reviews de jogos digitais da Plataforma Steam
(2024-09-26) Albuquerque, Júlia de Melo; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584
A análise de sentimento é uma área que investiga as expressões emocionais da linguagem humana, buscando compreender as necessidades e opiniões subjacentes expressas em textos. Sua complexidade existe na habilidade de discernir não apenas o conteúdo textual, mas também as matrizes emocionais implícitas. Com o avanço tecnológico, a facilidade de expressar a opinião publicamente se dissemina por diversos meios, sendo campo dos jogos online uma vertente que atrai inúmeras publicações de jogadores sobre os diversos títulos disponíveis. No entanto, essa diversidade de públicos e temas torna desafiador compreender o sentimento expresso que permeia esse universo. O objetivo deste estudo é aplicar técnicas de análise de sentimento em avaliações de jogos digitais, adotando uma abordagem focada em algoritmos de aprendizado de máquina supervisionados e bibliotecas pre-polarizadas, a fim de identificar o melhor caminho de classificação capaz de discernir os sentimentos expressos pelos usuários nas avaliações. Nessa operação está sendo considerada uma abordagem com todas as opiniões e outra focada em gênero específico de cada jogo. Essa análise foi conduzida por meio da exploração de dados provenientes de uma empresa de distribuição de jogos online (Steam), seguindo com uma preparação desses dados devido às particularidades presentes nos registros. Os resultados revelam que os modelos de aprendizado de máquina superam as abordagens tradicionais, como a utilização da biblioteca VADER, apresentando uma precisão maior em aproximadamente 10% nas capturas, observou-se uma diferença de 20% a mais em métricas como recall e F1-score. Esse estudo representa uma contribuição analítica para a área da análise de sentimento, destacando a capacidade do modelo construído em lidar com a complexidade da linguagem humana.
Análise de Viés no Modelo BERTimbau para detecção de discurso de ódio em Português Brasileiro
(2026-02-12) Oliveira Filho, José Fernando de; Gouveia, Roberta Macedo Marques; http://lattes.cnpq.br/2024317361355224
A expansão das redes sociais intensificou a circulação de discursos de ódio online, gerando desafios à convivência democrática e à proteção de grupos minoritários. Diante da inviabilidade da moderação manual, este trabalho aplica técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (ML) para a identificação de conteúdo ofensivo em português brasileiro. O estudo investiga o viés algorítmico do modelo BERTimbau, ajustado via fine-tuning e treinado sobre as bases anotadas ToLD-BR e Tupy-E. A avaliação considera métricas tradicionais de desempenho (precisão, recall, F1-score) e de equidade (Paridade Demográfica), com o objetivo de examinar possíveis associações indevidas entre termos de identidade social e discurso de ódio, contribuindo para o debate sobre justiça algorítmica. Os resultados evidenciaram padrões estruturados de viés do BERTimbau entre os eixos de gênero, raça e orientação sexual, bem como entre grupos específicos dentro de cada eixo (por exemplo, mulheres, pessoas bissexuais, gays e pardas), mostrando que o modelo tende a associar esses termos de identidade ao discurso de ódio com maior frequência do que seus grupos de referência, mesmo em contextos neutros ou positivos.
Análise do comportamento através dos dados coletados na internet
(2021-04-07) Lima, Priscilla Amarante de; Diniz, Juliana Regueira Basto; http://lattes.cnpq.br/0175193064988810; http://lattes.cnpq.br/7284770857817456
Este trabalho apresenta uma análise sobre o comportamento humano através dos dados coletados na internet. Serão apresentadas as Big Techs e o estudo de caso da Cambridge Analytica. Os registros digitais de comportamento podem ser acessados, através das curtidas no Facebook e serem usadas para prever de forma automática e precisa um intervalo de atributos pessoais altamente confidenciais, incluindo: orientação sexual, etnia, pontos de vista religiosos e políticos, traços de personalidade, inteligência, felicidade, uso de substâncias viciantes, separação dos pais, idade e sexo. A análise apresentada é baseada em um conjunto de dados de mais de 58.000 voluntários que forneceram curtidas no Facebook, perfis demográficos detalhados e os resultados de vários testes psicométricos. O modelo proposto usa redução de dimensionalidade para processar os dados de curtidas, que são então inseridos em regressão linear para prever perfis psicodemográficos individuais de curtidas. O modelo classifica corretamente entre homens homossexuais e heterossexuais em 88% dos casos, afro-americanos e Americanos caucasianos em 95% dos casos, e entre democratas e Republicanos em 85% dos casos. Para o traço de personalidade "Abertura", a precisão da previsão está próxima da precisão teste-reteste de um padrão teste de personalidade. São apresentados exemplos de associações entre atributos e curtidas e discutidas as implicações para a personalização online e privacidade.
Análise e predição nas votações de leis federais na Câmara dos Deputados
(2022-05-27) Brito, Ranniery Dias de; Brito, Kellyton dos Santos; http://lattes.cnpq.br/8750956715158540; http://lattes.cnpq.br/1061900830319137
Este estudo tem por objetivo analisar algoritmos de aprendizagem de máquina e deep learning para a tarefa de previsibilidade de aprovação de PLs. É seguida uma abordagem pós-positivista, adotando o paradigma quali-quantitativo como metodologia. Na busca por resultados foram feitos experimentos utilizando os dados disponíveis no Portal da Câmara dos Deputados, seguindo as etapas de revisão bibliográfica, definição de ambiente de perimentação, análise descritiva e predição. Buscou-se ainda realizar uma análise descritiva e prever possíveis resultados no processo de votação de proposições legislativas tendo como foco projetos de lei que tenham sido votados.
Aplicação de aprendizado de máquinas na detecção de anomalias em componentes de linhas de transmissão
(2025-03-21) Melo, Isadora Rodrigues de; Ferreira, Felipe Alberti Barbosa Simão; http://lattes.cnpq.br/9939255113143786; https://lattes.cnpq.br/3445765194031185
O avanço da tecnologia ao longo dos anos mudou bastante o Sistema Elétrico de Potência (SEP) e a indústria, melhorando a segurança na entrega de energia para todos. A inspeção de linhas de transmissão é um processo essencial que garante o funcionamento do sistema elétrico, mas apresenta desafios. Tradicionalmente, as inspeções são realizadas por equipes que se deslocam até locais de difícil acesso, que envolve altos riscos e custos financeiros. Com os novos recursos de inteligência artificial, usar aprendizado de máquina tem se mostrado uma solução viável para otimizar o processo na identificação de problemas estruturais nas linhas de transmissão. Neste projeto, foi desenvolvido um sistema baseado em aprendizado de máquina para detectar e analisar equipamentos nas linhas de transmissão. O sistema usa o modelo YOLOv5 para encontrar as peças e identificar onde elas estão na imagem. Em seguida, a rede neural convolucional ResNet, que permite uma análise eficiente das imagens, classifica cada peça identificada, determinando se existe avaria ou não. Os componentes da linha de transmissão sem avaria possuem uma caixa delimitadora da cor verde, e as com avarias da cor vermelha. Nos testes feitos, o sistema acertou 90,6% das vezes ao encontrar as peças e 81% ao dizer se tinham defeito. No entanto foi constado alguns desafios, como a falta de certas amostras do próprio banco de dados, o que pode impactar o desempenho do modelo para determinados componentes. Assim, obter um conjunto de dados com mais imagens e robusto é fundamental para melhorar a eficácia do sistema. Este trabalho ajuda na modernização da manutenção das linhas de transmissão usando técnicas avançadas de aprendizado de máquina. Quando usado junto com sistemas de monitoramento remoto, pode diminuir gastos e riscos das inspeções feitas por pessoas. Além disso, permite a identificação de problemas previamente, tornando o sistema elétrico mais confiável e eficiente.
Aplicação web para detecção automática de URLs maliciosas com aprendizado de máquina
(2025-08-08) Souza, Celso Soares Cassiano de; Oliveira, Lidiano Augusto Nóbrega de; http://lattes.cnpq.br/7399493881755815
A segurança cibernética tem se tornado uma das principais preocupações da era digital, impulsionada pelo crescimento acelerado da internet e pela proliferação de ameaças como phishing, malware e roubo de dados. Este trabalho propõe uma abordagem baseada em aprendizado de máquina para classificar URLs como legítimas ou maliciosas, utilizando um conjunto abrangente de atributos extraídos diretamente das URLs e de fontes complementares, como registros WHOIS e informações de rede. Foram aplicados e analisados algoritmos como Random Forest, SVM e XGBoost sobre um conjunto de dados coletado de fontes confiáveis, como PhishTank e Kaggle. As características consideradas englobam aspectos léxicos, informações de rede, conexão e reputação. A avaliação dos modelos foi conduzida por meio de métricas como acurácia, precisão, recall e F1-score, evidenciando um desempenho satisfatório na detecção de sites maliciosos. Como aplicação prática, foi desenvolvida uma plataforma interativa com Streamlit, permitindo que qualquer usuário insira urna URL e receba uma análise imediata sobre sua legitimidade. A análise de importância das variáveis forneceu insights valiosos sobre os fatores mais influentes no processo de classificação, contribuindo tanto para a transparência quanto para a evolução futura do sistema.
Aprendizado de máquina não supervisionado aplicado na dinâmica de preços de combustíveis no Brasil
(2025-08-05) Lima, Andressa Luana Santana de; Gouveia, Roberta Macedo Marques; http://lattes.cnpq.br/2024317361355224; http://lattes.cnpq.br/0993590347039876
Este trabalho realiza uma análise exploratória e de clusterização dos dados públicos da Agência Nacional do Petróleo (ANP) para os preços de combustíveis no Brasil em 2024. A partir de variáveis numéricas agregadas por região e por produto, foi aplicado o algoritmo K-means para identificar padrões de comportamento no mercado. As variáveis selecionadas buscaram representar aspectos como níveis médios de preço, variações sazonais, volume de registros e distribuição de revendas. Os resultados apontaram diferenças estruturais entre regiões e entre combustíveis, evidenciando a heterogeneidade do setor. O estudo evidencia a importância do uso de técnicas de agrupamento para explorar padrões relevantes no mercado de combustíveis.
Aprendizado profundo com capacidade computacional reduzida: uma aplicação à quebra de CAPTCHAs
(2018-08-16) Melo, Diogo Felipe Félix de; Sampaio, Pablo Azevedo; http://lattes.cnpq.br/8865836949700771; http://lattes.cnpq.br/2213650736070295
Na última década, Redes Neurais Profundas tem se mostrado uma poderosa técnica de aprendizado de máquina. Em geral, essas técnicas demandam alto poder computacional e grandes volumes de dados para obter resultados expressivos, o que pode ser um fator limitante em algumas realidades. Entretanto, o projeto cuidadoso da arquitetura e do treino podem ajudar a reduzir estes requisitos. Neste trabalho apresentamos uma abordagem comparativa para a aplicação de redes neurais profundas à quebra de CAPTCHAs de texto como uma forma de contornar essas limitações. Estudamos modelos capazes de aprender a segmentar e identificar o texto contido em imagens baseando-se apenas em exemplos. A partir da experimentação de diferentes hiper-parâmetros e arquiteturas, fomos capazes de obter um modelo final com acurácia de 96.06% de acerto por token em aproximadamente 3 horas de treino executado em um simples computador pessoal.
Aprendizagem de máquina para a identificação de clientes propensos à compra em Inbound marketing
(2019-07-12) Silva, Bruno Roberto Florentino da; Monteiro, Cleviton Vinicius Fonsêca; Soares, Rodrigo Gabriel Ferreira; http://lattes.cnpq.br/2526739219416964; http://lattes.cnpq.br/9362573782715504
O ponto mais importante para uma empresa deve ser sempre o cliente e conseguir novos clientes nem sempre é uma estratégia fácil. As técnicas de marketing digital estudam como atrair novos clientes para as empresas fazendo uso de plataformas digitais. Em virtude da popularização destes meios, as estratégias tiveram que se moldar às novas necessidades. Com apenas um clique é possível alcançar milhares de indivíduos, o que significa muitos leads (oportunidades de negócio) novos para a empresa. Entretanto, filtrar quais desses indivíduos estão realmente interessados no produto ou serviço ofertado pela empresa demanda um grande esforço da equipe de vendas. Essa sobrecarga é prejudicial no sentido de que a empresa pode perder receita por falta de direcionamento das verdadeiras oportunidades. Visando amenizar tal problema, o presente trabalho oferece uma proposta cujo objetivo é a identificação automática de potenciais clientes com maior propensão à compra dentre os leads obtidos por uma empresa através de estratégias de marketing digital. Para tornar possível a execução desta proposta, foram utilizados recursos de Aprendizado de máquina, com aplicação dos algoritmos de classificação supervisionada, Árvore de decisão e Naive Bayes (NB), fornecidos pela biblioteca Scikit-learn, sob a linguagem de programação Python. Além disso, fez-se necessário a aplicação do algoritmo de sobreamostragem SMOTE, devido ao desbalanceamento do conjunto de dados. Com a finalidade de otimizar a classificação, foram utilizadas técnicas de seleção de atributos e seleção de modelos com ajuste de hiperparâmetros. Para avaliação dos resultados, utilizou-se as métricas de matriz de confusão, precisão, cobertura e curva de precisão e cobertura. Devido ao desbalanceamento dos dados, a métrica de precisão não relatou bons resultados, com médias de 5,5% de acerto. Já a cobertura alcançou médias de aproximadamente 83%. Mesmo com resultados tão divergentes entre as métricas aplicadas, o presente trabalho conseguiu identificar a maioria das verdadeiras oportunidades e relatando que ao utilizar esta abordagem, seria possível obter uma redução de até 85% da aplicação de esforço por parte da equipe de vendas. Em consequência disso, uma empresa pode ter uma redução de custos ao diminuir os recursos aplicados para obter novos clientes, propiciando que a equipe de vendas possa encontrar novos clientes com maior eficiência.
Aprendizagem de máquina para classificação de tipos textuais: estudo de caso em textos escritos em português brasileiro
(2025-07-30) Barbosa, Gabriel Augusto; Miranda, Péricles Barbosa Cunha de; http://lattes.cnpq.br/8649204954287770; http://lattes.cnpq.br/7161363389816372
A classificação de textos considerando tipos textuais é de suma importância para algumas aplicações de Processamento de Linguagem Natural (PLN). Nos últimos anos, algoritmos de aprendizado de máquina têm obtido bons resultados nesta tarefa considerando textos em inglês. No entanto, pesquisas voltadas para a detecção de tipos textuais escritos em português ainda são escassas, e ainda há muito a ser estudado e descoberto nesse contexto. Assim, este artigo propõe um estudo experimental que investiga o uso de algoritmos de aprendizado de máquina para classificar textos em português considerando tipos textuais. Para isso, propomos um novo corpus composto por textos em português de dois tipos textuais: narrativo e dissertativo. Três algoritmos de aprendizado de máquina tiveram seu desempenho avaliado no corpus criado em termos de precisão, revocação e pontuação F1. Além disso, também foi realizada uma análise dos atributos envolvidos no processo para identificar quais características textuais são mais importantes na tarefa atual. Os resultados mostraram que é possível alcançar altos níveis de precisão e rememoração na classificação de textos narrativos e dissertativos. Os algoritmos obtiveram níveis de métricas semelhantes, demonstrando a qualidade das características extraídas.
Aprendizagem de máquina quântica e comitê quântico de classificadores
(2019-12-02) Araujo, Ismael Cesar da Silva; Nascimento, André Câmara Alves do; Silva, Adenilton José da; http://lattes.cnpq.br/0314035098884256; http://lattes.cnpq.br/0622594061462533; http://lattes.cnpq.br/7125338940009959
Aprendizagem de máquina quântica trata-se de uma subárea de computação quântica que estuda, dentre outras coisas, a criação de equivalentes quânticos de modelos clássicos de classificação. Um comitê de classificadores, trata-se de um modelo de classificação cuja saída é resultado da composição das saídas de diversos classificadores que compõe o comitê. Comitê de classificadores é um modelo de aprendizado supervisionado que pode ser utilizado como tipo de aprendizado livre de otimização de parâmetros. Ou seja, sem o uso da etapa de treinamento. Com a premissa de que ao se utilizar um conjunto suficientemente grande de classificadores medianos pode-se obter um comitê com um bom desempenho. Este trabalho investiga as diferenças de desempenho no uso equivalente quântico do comitê de classificadores, para classificadores treinados e não treinados. Onde foram feitas simulações, cujo desempenho foi mensurado a partir do calculo de amplitudes de probabilidades do sistema. E os modelos de aprendizagem de máquina do comitê foram executados sobre bases benchmark disponíveis pela biblioteca scikitlearn.
Aspect term extraction in aspect-based sentiment analysis
(2019) Francisco, Alesson Delmiro; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340
O uso crescente da Internet criou a necessidade de analisar uma vasta quantidade dedados. Uma grande quantia de dados é apresentada como Texto em Linguagem Naturalnão estruturado, com várias maneiras de expressar a mesma informação. É uma tarefaimportante extrair informação e significado destes conteúdos não estruturados, comoopiniões em produtos ou serviços. A necessidade de extrair e analisar a vasta quantidadede dados criados todos os dias na Internet ultrapassou as capacidades humanas, comoresultado, várias aplicações de mineração de texto que extraem e analisam dados textuaisproduzidos por humanos estão disponíveis atualmente, uma destas aplicações é a Análise deSentimentos usada para que empresas e provedores de serviços possam usar o conhecimentoextraído de documentos textuais para melhor entender como seus clientes pensam sobreeles. No entanto, a tarefa de analisar texto não estruturado é difícil, por isso é necessárioprover informação coerente e resumos concisos para as revisões. Análise de Sentimentoé o processo de identificar e categorizar computacionalmente opiniões expressadas numtexto, especialmente para determinar a atitude do autor sobre um tópico ou produto emparticular. Análise de Sentimentos Baseada em Aspectos (ABSA) é um sub-campo daAnálise de Sentimentos que tem como objetivo extrair opiniões mais refinadas e exatas,quebrando o texto em aspectos. A maior parte dos trabalhos atuais na literatura não lucramde recursos baseados em semântica ou análises baseadas em Processamento de LinguagemNatural na fase de pré-processamento. Para tratar essas limitações, um estudo nestesrecursos é feito com o objetivo de extrair as características necessárias para a execuçãoda tarefa, e para fazer a melhor combinação para Extração de Termo de Aspecto. Estetrabalho tem como o principal objetivo implementar e analisar um método de Extraçãode Termo de Aspecto (ATE) de críticas de usuários (restaurantes e laptops). O métodoproposto é baseado em uma abordagem supervisionada chamada Campos CondicionaisAleatórios (CRF) que otimiza o uso de características para classificação, esta escolha éjustificada pelos trabalhos relacionados anteriores que demonstram a eficácia do CRFpara ATE. Um estudo também é feito em métodos para propor novas características eexperimantar com combinações de características para obter as melhores combinações.O estudo detalhado é feito a partir da experimentação com características de palavra,n-gramas e características customizadas utilizando um algoritmo supervisionado CRF pararealizar a tarefa de Extração de Termo de Aspecto com resultados em termo de Precisão,Cobertura e F-Measure, as métricas padrões de avaliação adotadas na área. Por fim, umaavaliação comparativa entre o método proposto para ATE contra outros trabalhos daliteratura mostra que o método apresentado neste trabalho é competitivo.
Avaliação de métodos de imputação de valores ausentes para a predição de interações fármaco-proteína
(2024-03-08) Santos, Victor Vidal dos; Nascimento, André Câmara Alves do; http://lattes.cnpq.br/0622594061462533; http://lattes.cnpq.br/7999257997046465
Na última década, o estudo de redes farmacológicas tem recebido muita atenção devido à sua relevância no processo de descoberta de medicamentos. Muitas abordagens diferentes para prever interações biológicas têm sido propostas, especialmente na área de aprendizado de múltiplos kernels (MKL). Tais métodos compreendem abordagens integrativas que podem lidar com fontes de dados heterogêneas, mas sofrem com o problema de dados incompletos. Técnicas para lidar com valores faltosos nas matrizes kernel base podem ser utilizadas, geralmente baseadas em técnicas simples, como imputação de zeros, média e mediana da matriz. Neste trabalho, foram avaliadas técnicas de tratamento de valores faltosos no contexto de redes bipartidas. Nossas análises mostraram que, dependendo da quantidade de dados faltantes, a técnica k-NN e SVD teve um desempenho muito melhor do que as outras técnicas, trazendo resultados animadores, enquanto o preenchimento zero apresentou o pior desempenho em relação a todos os outros métodos avaliados