Navegando por Assunto "Processamento de linguagem natural (Computação)"
Agora exibindo 1 - 11 de 11
- Resultados por Página
- Opções de Ordenação
Item A comprehensive software aging analysis in LLMs-based systems(2025) Santos, César Henrique Araújo dos; Andrade, Ermeson Carneiro de; http://lattes.cnpq.br/2466077615273972; http://lattes.cnpq.br/9618931332191622Large language models (LLMs) are increasingly popular in academia and industry due to their wide applicability across various domains. With their rising use in daily tasks, ensuring their reliability is crucial for both specific tasks and broader societal impact. Failures in LLMs can lead to serious consequences such as interruptions in services, disruptions in workflow, and delays in task completion. Despite significant efforts to understand LLMs from different perspectives, there has been a lack of focus on their continuous execution over long periods to identify signs of software aging. In this study, we experimentally investigate software aging in LLM-based systems using Pythia, OPT, and GPT Neo as the LLM models. Through statistical analysis of measurement data, we identify suspicious trends of software aging associated with memory usage under various workloads. These trends are further confirmed by the Mann-Kendall test. Additionally, our process analysis reveals potential suspicious processes that may contribute to memory degradation.Item Análise de sentimentos em publicações do Stackoverflow(2019-08-22) Santos, Luiz Felipe dos; Trindade, Cleyton Carvalho da; http://lattes.cnpq.br/6298429503812388The use of social networks, forums and various media has been growing exponentially, reflecting directly on the amount of data generated on the Internet, a large portion of the data generated, are open and can be accessed and processed. As a result, the possibilities generated by open data have attracted many researchers and companies to extract valuable information about their customers. Information extracted from this mass of data can change the strategy of many companies and people. In computer forums, you can see the same pattern, multiple people interacting and generating various information about information technology and its derivatives. The research will go through the whole cycle of sentiment analysis, data capture on the StackOverflow platform, data processing,natural language processing, algorithm training and classification. In order to show the data processing and classification steps, compare the classification approaches and extract information about the analyzed database. After applying the sentiment analysis cycle, it was possible to compare the results of each classifier and extract information about the analyzed database, about the performance of the unstructured classifiers and the difficulty of working with the language Portuguese database.Item Aprendizagem de máquina para classificação de tipos textuais: estudo de caso em textos escritos em português brasileiro(2025-07-30) Barbosa, Gabriel Augusto; Miranda, Péricles Barbosa Cunha de; http://lattes.cnpq.br/8649204954287770; http://lattes.cnpq.br/7161363389816372A classificação de textos considerando tipos textuais é de suma importância para algumas aplicações de Processamento de Linguagem Natural (PLN). Nos últimos anos, algoritmos de aprendizado de máquina têm obtido bons resultados nesta tarefa considerando textos em inglês. No entanto, pesquisas voltadas para a detecção de tipos textuais escritos em português ainda são escassas, e ainda há muito a ser estudado e descoberto nesse contexto. Assim, este artigo propõe um estudo experimental que investiga o uso de algoritmos de aprendizado de máquina para classificar textos em português considerando tipos textuais. Para isso, propomos um novo corpus composto por textos em português de dois tipos textuais: narrativo e dissertativo. Três algoritmos de aprendizado de máquina tiveram seu desempenho avaliado no corpus criado em termos de precisão, revocação e pontuação F1. Além disso, também foi realizada uma análise dos atributos envolvidos no processo para identificar quais características textuais são mais importantes na tarefa atual. Os resultados mostraram que é possível alcançar altos níveis de precisão e rememoração na classificação de textos narrativos e dissertativos. Os algoritmos obtiveram níveis de métricas semelhantes, demonstrando a qualidade das características extraídas.Item Coh-Metrix PT-BR: uma API web de análise textual para à educação(2021-03-02) Salhab, Raissa Camelo; Mello, Rafael Ferreira Leite de; http://lattes.cnpq.br/6190254569597745; http://lattes.cnpq.br/6761163457130594CohMetrix is a computational system that provides different measures of textual analysis, including legibility, coherence and textual cohesion. These measures allow a more indepth analysis of different types of educational texts such as essays, answers to open questions and messages in educational forums. This paper describes the features of a prototype, which encompass a website and an API, of a Brazilian Portuguese version of CohMetrix measures.Item Detecção de fake news: uma abordagem baseada em Large Language Models e Prompt Engineering(2025-03-20) Fonseca, Pablo Weslley Silva da; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340; http://lattes.cnpq.br/6258598537884813Este trabalho aborda o uso de Large Language Models (LLMs) para a detecção de fake news ou notícias falsas no idioma inglês e português. As notícias falsas têm gerado impactos negativos, como desinformação e conflitos sociais, sendo amplamente disseminadas pelas redes sociais. Embora métodos tradicionais de verificação sejam eficazes, como checagem manual e agências de verificação de fatos, a aplicação de algoritmos de machine learning e deep learning trouxe avanços importantes. No entanto, esses modelos apresentam limitações, como perda de contexto semântico e custos de treinamento. A introdução da arquitetura Transformers possibilitou avanços significativos com LLMs, como BERT, GPT e T5, devido à sua capacidade de compreender padrões linguísticos complexos. Este trabalho propõe uma abordagem de detecção de notícias falsas a partir recuperações de informações pela Web e o modelo Qwen2.5-7B-Instruct, comparando o desempenho com propostas que combina recuperação de informações com modelos tradicionais e LLMs. Os resultados destacam vantagens e desvantagens, contribuindo para futuras melhorias em sistemas automatizados de detecção de notícias falsas.Item Evaluation of dimensionality reduction and truncation techniques forword embeddings(2021-03-03) Aoun, Paulo Henrique Calado; Nascimento, André Câmara Alves do; Silva, Adenilton José da; http://lattes.cnpq.br/0314035098884256; http://lattes.cnpq.br/0622594061462533; http://lattes.cnpq.br/1048218441267310The use of word embeddings is becoming very common in many Natural Language Processing tasks. Most of the time, these require computacional resources that can not be found in most part of the current mobile devices. In this work, we evaluate a combination of numeric truncation and dimensionality reduction strategies in order to obtain smaller vectorial representations without substancial losses in performance.Item Geração aumentada para recuperação de dados urbanos integrados: consolidando dados do IBGE, Censo, CNEFE e OSM para a otimização do planejamento urbano(2025-03-21) Conceição, Keyson Raphael Acioli da; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340; http://lattes.cnpq.br/3198610477751043Nos últimos anos, os campos da Inteligência Artificial (IA) e do aprendizado de máquina (AM) revolucionaram o domínio do planejamento urbano, pois permitem que volumes substanciais de dados sejam analisados de forma eficaz, incentivando melhor alocação de recursos e entregas de serviços públicos. Para atingir este objetivo, o agente inteligente proposto neste trabalho reúne dados de várias fontes, incluindo Censo Demográfico, Cadastro Nacional de Endereços para Fins Estatísticos - CNEFE, e OpenStreetMap (OSM) para oferecer respostas baseadas em contexto relacionadas à distribuição da população e acesso a diferentes serviços urbanos. A abordagem proposta inclui um pipeline de processamento que implementa normalização, indexação vetorial das informações e representação semântica para tornar as consultas mais eficazes. Para avaliar o sistema proposto, foi conduzido um experimento com especialistas em planejamento urbano e analisamos a relevância, clareza e utilidade das respostas geradas pelo sistema. Tais resultados mostram que o agente é capaz de detectar áreas com pouca cobertura de serviços necessários, indicando uma alocação adequada. No entanto, outros desafios, tais como a necessidade de melhor clarificação das respostas e ampliação da cobertura espacial, foram reconhecidos como oportunidades para trabalho futuro.Item Implementação de um agente inteligente para atendimento automatizado de dúvidas acadêmicas na UFRPE(2025-03-31) Silva, Evelyn Mylena Bezerra e; Albuquerque Júnior, Gabriel Alves de; http://lattes.cnpq.br/1399502815770584; http://lattes.cnpq.br/5200293461568988Este trabalho teve como objetivo principal desenvolver e validar um agente inteligente baseado em técnicas de Processamento de Linguagem Natural (PLN) e Recuperação de Informação, voltado ao suporte acadêmico no curso de Bacharelado em Sistemas de Informação (BSI) da Universidade Federal Rural de Pernambuco (UFRPE). O sistema foi projetado para oferecer respostas rápidas, relevantes e contextualizadas a perguntas frequentes relacionadas à vida acadêmica dos estudantes, como carga horária, disciplinas, matrículas e procedimentos administrativos. A implementação envolveu a coleta e estruturação de documentos institucionais, a construção de um modelo vetorial para recuperação semântica de respostas e a integração com um módulo de memória conversacional. Para a validação, as respostas do agente inteligente foram comparadas com um FAQ do curso de BSI, utilizando como métrica a similaridade do cosseno, aplicada ao conteúdo semântico das respostas. Os resultados indicaram uma média de similaridade de aproximadamente 0,6396, com mediana de 0,6548 e baixa dispersão. A maioria das respostas apresentou alto ou médio grau de alinhamento semântico com o conteúdo oficial, sendo classificadas como semanticamente adequadas. Casos de baixa similaridade representaram uma minoria e estiveram, em geral, relacionados a perguntas de cunho prático-operacional não abordadas na base de dados do sistema. Em contrapartida, observou-se que, em alguns contextos, o agente inteligente forneceu respostas mais completas e fundamentadas do que aquelas presentes no próprio FAQ. Conclui-se que o sistema desenvolvido apresenta desempenho satisfatório e demonstra potencial para expansão como ferramenta institucional de apoio ao estudante, promovendo maior autonomia, agilidade e acessibilidade no acesso a informação acadêmica.Item Inferência automática de nível de dificuldade de receitas culinárias usando técnicas de processamento de linguagem natural(2020-12-21) Britto, Larissa Feliciana da Silva; Pacífico, Luciano Demétrio Santos; Ludermir, Teresa Bernarda; http://lattes.cnpq.br/6321179168854922; http://lattes.cnpq.br/9521600706234665; http://lattes.cnpq.br/5058497100007411In this work, a tool for inferring the degree of difficulty of cooking recipes will be proposed. The inference will be made by the textual classification of the recipe preparation methods. The tool will be a fundamental piece to the development of a contextaware contentbased cooking recipe recommendation system. Some of the main classifiers in Text Classification literature will be adopted, in addition to different feature extraction methods. An experimental evaluation is performed, in order to select the best approaches to compose the system.Item Predição de popularidade de podcasts através de características textuais(2019) Santana Júnior, Bernardo de Moraes; Cabral, Giordano Ribeiro Eulalio; http://lattes.cnpq.br/6045470959652684; http://lattes.cnpq.br/9948081717430490With the tremendous growth of Podcasts and the professionalization of its creators,to the point that news networks call this as Podcast’s ”golden age”, new tools have emerged to assist its content producers in building and maintaining of their channels.In this context, finding features inside episodes that provide broader reach to the target audience is of great value to both creators and listeners, allowing channels to stay active longer and offer better content quality.Thus, this paper proposes a study of popularity analysis of brazilian’s podcasts using a podcast audience analysis tool in one of the most used channel and episode aggregators in the world, iTunes. By using Web Scraping tools to collect available and necessary information, also tools for transcriptions of the audios’s episodes in orderto obtain what has been said, and calculating metrics to measure the accuracy of the generated model, therefore making an analysis of which information is relevant or not o predicting a channel’s popularity.Results displayed were favorable in the correlation between the categories analyzed individually and the its text, whereas in an analysis in which categories are not discriminated there is a low relationship between text and popularity, demonstrating that the category of a given channel plays an important role in analyzing its popularity.Item Utilização de processamento de linguagem natural para identificação do domínio da escrita formal em redações da língua portuguesa(2020-12-07) Araujo, Viviane Barbosa de; Mello, Rafael Ferreira Leite de; http://lattes.cnpq.br/6190254569597745; http://lattes.cnpq.br/5293423783550464In Brazil, the main means of entering a public or private university is through the National High School Exam, ENEM. This exam requires that the candidate has the ability to write a good dissertation-argumentative text according to the formal norm of the Portuguese language, and can be eliminated from the exam if he does not fulfill this requirement. In order to help the candidate to identify his mistakes and help in the process of writing a good essay, this article proposes the implementation of a tool capable of identifying the spelling and grammatical errors of a text using techniques of Natural Language Processing (PLN). The analysis of the tools showed that the results obtained by the research are promising, mainly in relation to the identification of grammatical errors.
