Análise dos componentes principais supervisionada: uma abordagem não-paramétrica

dc.contributor.advisorCarvalho, Tiago Buarque Assunção de
dc.contributor.advisorLatteshttp://lattes.cnpq.br/7150833804013500pt_BR
dc.contributor.authorSousa, Raul Pedro de Vasconcelos
dc.contributor.authorLatteshttp://lattes.cnpq.br/3362844917050042pt_BR
dc.date.accessioned2019-05-20T20:10:59Z
dc.date.available2019-05-20T20:10:59Z
dc.date.issued2019-02-04
dc.degree.departamentUAGpt_BR
dc.degree.graduationBacharelado em Ciência da Computaçãopt_BR
dc.degree.grantorUniversidade Federal Rural de Pernambucopt_BR
dc.degree.levelGraduacaopt_BR
dc.degree.localGaranhunspt_BR
dc.descriptionProblemas de classificação tem se tornado cada vez mais comuns, sendo utilizados desde da detecção de emails spams até classificação de tumores em malignos e benignos. Nestes problemas a quantidade de características desempenha um papel fundamental tanto na qualidade quanto no desempenho dos classificadores, nos quais, dados que possuem alta dimensionalidade tendem apresentar taxa de acerto inferior e maior tempo de processamento. Assim técnicas de extração de características são excelentes opções para contornar essa situação, gerando novas características e selecionando as melhores para a classificação. O Principal Component Analysis (PCA) é uma das técnicas de extração de características mais utilizadas obtendo, em termos gerais, ótimos resultados, contudo, por ser uma técnica não supervisada que utiliza a variância como critério de seleção, há situações em que o método não consegue extrair as melhores características. Então desenvolvemos uma versão supervisionada do PCA utilizando classificação Bayesiana em conjunto com técnica de estimação de densidade de Kernel (janela de Parzen) para avaliar e selecionar as características, ao invés de utilizar a variância como na tradicional implementação do PCA. Propondo assim uma seleção que utiliza o erro Bayesiano como critério base da avaliação. Esse método surgiu como uma extensão do Minimum Classification Error PCA (MCPCA) que utiliza o erro Bayesiano como métrica também, contudo, apresentado uma série de restrições, como ser limitado a problemas de apenas 2 classes. Comparamos o método proposto com o PCA, MCPCA e com o Supervised PCA (SPCA), outra abordagem supervisionada do PCA, comparando a taxa de acerto por quantidade de características em 4 classificadores para 16 bases de dado. O método proposto apresentou maior taxa de acerto em 72% dos casos, enquanto o PCA, MCPCA e SPCA conseguiram 31%, 36%, 12% respectivamente. No cenário de apenas uma característica o resultado obtido foi de 89%, 14%, 37%, e 25% dos casos para o proposto, PCA, MCPCA e SPCA respectivamente.pt_BR
dc.description.abstractProblems of classification of data become more commonly used. Classification task has a broader range of applications, ranging from detection of spam emails to classification of malignant and benign tumors. In these problems, the quantity of characteristics plays a fundamental role both in the quality and performance of the classifiers. Data having a high dimensionality tends to have lower accuracy and longer processing time. Feature extraction techniques are excellent solutions to this situation, generating a new set of features and selecting the best ones for classification. Principal Component Analysis (PCA) is one of the most common feature extraction techniques. In general, PCA presents excellent results, but because it is an unsupervised technique there are situations where the method can not extract discriminant features. We developed a supervised version of the PCA using Bayesian classification with the kernel density estimation (KDE) to select features. This method has emerged as an extension of the Minimum Classification Error PCA (MCPCA). MCPCA also uses the Bayesian error as a metric however it presents a series of constraints. Comparing the exposed method with PCA, MCPCA and Supervised PCA (SPCA), another supervised approach to PCA, comparing the accuracy by characteristics in four classifiers to sixteen databases. The proposed method presented the greater accuracy in 72% of the cases. For PCA, MCPCA, and SPCA this number is 31%, 36%, 12%, respectively. When using a single extracted feature, the maximum accuracy if achieved is 89%, 14%, 37%, and 25% of the cases for proposed method, PCA, MCPCA, and SPCA, respectively.pt_BR
dc.format.extent58 f.pt_BR
dc.identifier.citationSOUSA, Raul Pedro de Vasconcelos.Análise dos componentes principais supervisionada: uma abordagem não-paramétrica.2019.58 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Unidade Acadêmica de Garanhuns, Universidade Federal Rural de Pernambuco, Garanhuns, 2019.pt_BR
dc.identifier.urihttps://repository.ufrpe.br/handle/123456789/1066
dc.language.isoporpt_BR
dc.publisher.countryBrasilpt_BR
dc.rightsopenAccesspt_BR
dc.rightsAtribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0)pt_BR
dc.rightshttps://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BRpt_BR
dc.rightsopenAccesspt_BR
dc.rightsopenAccesspt_BR
dc.subjectTeoria bayesiana de decisão estatísticapt_BR
dc.subjectMineração de dados (Computação)pt_BR
dc.subjectEstatística - Processamento de dadospt_BR
dc.titleAnálise dos componentes principais supervisionada: uma abordagem não-paramétricapt_BR
dc.typebachelorThesispt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Imagem de Miniatura
Nome:
tcc_raulpedrodevasconcelossousa.pdf
Tamanho:
2.31 MB
Formato:
Adobe Portable Document Format
Descrição:

Licença do pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
license.txt
Tamanho:
1.87 KB
Formato:
Item-specific license agreed upon to submission
Descrição: