Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 1 de 1
  • Imagem de Miniatura
    Item
    Autoencoder, análise via componentes principais e independentes aplicados no reconhecimento de padrões de populações
    (Universidade Federal de Viçosa, 2022-06-10) Costa, Jaquicele Aparecida da; Azevedo, Camila Ferreira; http://lattes.cnpq.br/6939298449989672
    Nos últimos tempos, diante do grande volume de informações, é essencial o desenvolvimento de metodologias que visam reduzir o tempo e esforço computacional da análise de dados com alta dimensionalidade. Nos estudos que buscam associações ou o reconhecimento de padrões, há um grande número de variáveis que apresentam informações sobrepostas ou correlacionadas, o que impossibilita a identificação de grupos divergentes, além de exigir um grande esforço computacional. A genética utiliza milhares de marcadores moleculares do tipo SNPs (Single nucleotide polymorphisms) para estimar os valores genéticos genômicos dos indivíduos, classificar genótipos dentro de determinados grupos e reconhecer padrões na população para direcionar os estudos de diversidade genética. Os principais métodos usados para redução de dimensionalidade são baseados em Análise via Componentes Principais (PCA), a versão esparsa da Análise via componentes Principais (SPCA) e Análise via Componentes Independentes (ICA). Outra técnica em destaque é a metodologia que combina os métodos PCA e ICA que é denominada Análise via Componentes Principais Independentes (IPCA), mas ainda pouco utilizada em banco de dados genômicos. Mais recentemente, têm se destacado os métodos fundamentados em inteligência artificial, como as redes neurais, sendo o Autoencoder um tipo de rede neural que também busca reduzir o espaço dimensional e reconstruir os dados com perda mínima de informação. Assim, o primeiro capítulo desta tese é uma revisão bibliográfica sobre os métodos estatísticos e baseados em inteligência computacional, destacando as vantagens e desvantagens ao utilizar cada uma das metodologias, além de apresentar as técnicas para agrupar e determinar o número ótimo de grupos nos estudos que visam reconhecer padrões. O segundo capítulo propõe a aplicação da PCA, SPCA e IPCA no reconhecimento de padrões de subpopulações do arroz asiático (Oryza Sativa) utilizando 36.901 marcadores moleculares e 413 genótipos, a fim de buscar uma técnica que seja eficiente e possa reduzir o tempo computacional na discriminação dos mesmos. As técnicas, PCA, SPCA e IPCA, apresentaram resultados similares, tais como a matriz confusão, porcentagem de acerto e correlação cofenética. O método Autoencoder foi menos eficiente, mas foi capaz de formar grupos mais compactos, menor variância dentro dos grupos, e mais dissimilares entre eles, maior variância entre os grupos, quando comparado com os métodos estatísticos tradicionais. Diante disso, foi proposto utilizar os componentes obtidos via PCA, SPCA e IPCA, como variáveis de entrada no Autoencoder. A proposta provocou melhorias no Autoencoder, sendo que o PCA-AUT (componentes principais como variáveis de entrada no Autoencoder) foi mais eficiente que os métodos estatísticos e o próprio Autoencoder, além de reduzir ainda mais o espaço dimensional para discriminar os genótipos de arroz. Além disso, a técnica conseguiu capturar parte da variabilidade mensurada antes de aplicar qualquer método de redução dimensional. Palavras-chave: Inteligência computacional. Redes Neurais. Redução de dimensionalidade. Oryza sativa. Marcadores Moleculares.