Navegando por Autor "Silva, João Marcos Nascimento da"

Agora exibindo 1 - 1 de 1

Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
(2019) Silva, João Marcos Nascimento da; Lima, Rinaldo José de; http://lattes.cnpq.br/7645118086647340; http://lattes.cnpq.br/5276914899067852
Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano. Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações. Este trabalho foca no primeiro problema que serve de base para o segundo, isto é, primeiramente tem-se que se identificar e classificar as entidades para, em seguida, com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver. A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL) em inglês. Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização, parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades (ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa. Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação. Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.