Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/30003
Tipo: Tese
Título: Autoencoder, análise via componentes principais e independentes aplicados no reconhecimento de padrões de populações
Autoencoder, independent and principal component analysis applied in the recognition of population patterns
Autor(es): Costa, Jaquicele Aparecida da
Abstract: Nos últimos tempos, diante do grande volume de informações, é essencial o desenvolvimento de metodologias que visam reduzir o tempo e esforço computacional da análise de dados com alta dimensionalidade. Nos estudos que buscam associações ou o reconhecimento de padrões, há um grande número de variáveis que apresentam informações sobrepostas ou correlacionadas, o que impossibilita a identificação de grupos divergentes, além de exigir um grande esforço computacional. A genética utiliza milhares de marcadores moleculares do tipo SNPs (Single nucleotide polymorphisms) para estimar os valores genéticos genômicos dos indivíduos, classificar genótipos dentro de determinados grupos e reconhecer padrões na população para direcionar os estudos de diversidade genética. Os principais métodos usados para redução de dimensionalidade são baseados em Análise via Componentes Principais (PCA), a versão esparsa da Análise via componentes Principais (SPCA) e Análise via Componentes Independentes (ICA). Outra técnica em destaque é a metodologia que combina os métodos PCA e ICA que é denominada Análise via Componentes Principais Independentes (IPCA), mas ainda pouco utilizada em banco de dados genômicos. Mais recentemente, têm se destacado os métodos fundamentados em inteligência artificial, como as redes neurais, sendo o Autoencoder um tipo de rede neural que também busca reduzir o espaço dimensional e reconstruir os dados com perda mínima de informação. Assim, o primeiro capítulo desta tese é uma revisão bibliográfica sobre os métodos estatísticos e baseados em inteligência computacional, destacando as vantagens e desvantagens ao utilizar cada uma das metodologias, além de apresentar as técnicas para agrupar e determinar o número ótimo de grupos nos estudos que visam reconhecer padrões. O segundo capítulo propõe a aplicação da PCA, SPCA e IPCA no reconhecimento de padrões de subpopulações do arroz asiático (Oryza Sativa) utilizando 36.901 marcadores moleculares e 413 genótipos, a fim de buscar uma técnica que seja eficiente e possa reduzir o tempo computacional na discriminação dos mesmos. As técnicas, PCA, SPCA e IPCA, apresentaram resultados similares, tais como a matriz confusão, porcentagem de acerto e correlação cofenética. O método Autoencoder foi menos eficiente, mas foi capaz de formar grupos mais compactos, menor variância dentro dos grupos, e mais dissimilares entre eles, maior variância entre os grupos, quando comparado com os métodos estatísticos tradicionais. Diante disso, foi proposto utilizar os componentes obtidos via PCA, SPCA e IPCA, como variáveis de entrada no Autoencoder. A proposta provocou melhorias no Autoencoder, sendo que o PCA-AUT (componentes principais como variáveis de entrada no Autoencoder) foi mais eficiente que os métodos estatísticos e o próprio Autoencoder, além de reduzir ainda mais o espaço dimensional para discriminar os genótipos de arroz. Além disso, a técnica conseguiu capturar parte da variabilidade mensurada antes de aplicar qualquer método de redução dimensional. Palavras-chave: Inteligência computacional. Redes Neurais. Redução de dimensionalidade. Oryza sativa. Marcadores Moleculares.
In recent times, given the large volume of information, it is essential to develop methodologies that aim to reduce the time and computational effort of analyzing high- dimensional data. Many variables present overlapping or correlated information in studies that aim to look for associations or recognize patterns, making it impossible to identify dissimilar groups and demanding a great computational effort. Genetics uses thousands of molecular markers such as SNPs (Single nucleotide polymorphisms) to estimate individuals' genomic-genetic values, classify genotypes within specific groups, and recognize patterns in the population to guide genetic diversity studies. The main methods used for dimensionality reduction are based on Principal Component Analysis (PCA), the sparse version of Principal Component Analysis (SPCA), and Independent Component Analysis (ICA). Another technique that stands out is the methodology that combines the PCA and ICA methods, called Independent Principal Component Analysis (IPCA), which is still rarely used in genomic databases. More recently, methods based on artificial intelligence, such as neural networks, have been highlighted. The Autoencoder is a type of neural network that also seeks to reduce dimensional space and reconstruct data with minimal loss of information. Thus, the first chapter is a literature review on statistical methods and methods based on computational intelligence, highlighting the advantages and disadvantages of using each of the methodologies and presenting the techniques to group and determine the optimal number of groups in studies that aim to recognize patterns. The second chapter proposes the application of PCA, SPCA, and IPCA in recognition of patterns of subpopulations of Asian rice, Oryza sativa, using 36,901 molecular markers and 413 genotypes to search for a technique that is efficient and can reduce the computational time in discrimination against them. PCA, SPCA, and IPCA presented similar results, such as the confusion matrix, percentage of correct answers, and cophenetic correlation. The Autoencoder method was less efficient, but it could form more compact groups, with minor variance within groups, and more dissimilar between them, with greater variance between groups, compared to traditional statistical methods. Therefore, it was proposed to use the components obtained via PCA, SPCA, and IPCA as input variables in the Autoencoder. The proposal led to improvements in the Autoencoder. The PCA-AUT (main components as input variables in the Autoencoder) was more efficient than the statistical methods and the Autoencoder itself, in addition to further reducing the dimensional space to discriminate rice genotypes. Furthermore, the technique captured part of the measured variability before applying any dimensional reduction method. Keywords: Computational Intelligence. Neural Networks. Dimensionality Reduction. Oryza sativa. Molecular Markers.
Palavras-chave: Sistemas de reconhecimento de padrões
Inteligência computacional
Redes neurais (Computação)
Análise dimensional
Oryza sativa - Populações
Marcadores genéticos - Métodos estatísticos
CNPq: Estatística Aplicada e Biometria
Editor: Universidade Federal de Viçosa
Titulação: Doutor em Estatística Aplicada e Biometria
Citação: COSTA, Jaquicele Aparecida da. Autoencoder, análise via componentes principais e independentes aplicados no reconhecimento de padrões de populações. 2022. 62 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2022.
Tipo de Acesso: Acesso Aberto
Identificador DOI: https://doi.org/10.47328/ufvbbt.2022.537
URI: https://locus.ufv.br//handle/123456789/30003
Data do documento: 10-Jun-2022
Aparece nas coleções:Estatística Aplicada e Biometria

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
texto completo.pdf
  Until 2024-06-11
texto completo1,58 MBAdobe PDFVisualizar/Abrir ACESSO RESTRITO


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.