Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/20030
Tipo: Dissertação
Título: Predição genômica via redução de dimensionalidade em modelos aditivo dominante
Genomic prediction by reduction of dimensionality in additive dominant models
Autor(es): Costa, Jaquicele Aparecida da
Abstract: Grandes avanços no melhoramento animal e vegetal têm sido propiciados utilizando- se informações da genética molecular. Nessa perspectiva, idealizaram a Seleção Genômica Ampla (Genome Wide Selection – GWS) cuja abordagem envolve a cobertura completa do genoma utilizando milhares de marcadores SNPs (Single Nucleotide Polymorphisms). O objetivo é estimar o mérito genético dos indivíduos e para tal, as pesquisas realizadas na GWS se baseiam na busca e na aplicação de metodologias estatísticas que visam resolver os problemas enfrentados no processo de estimação, como a alta dimensionalidade e a alta colinearidade entre os marcadores. Dentre elas, se destacam os métodos de redução de dimensionalidade: Regressão via Componentes Principais (PCR), Quadrados Mínimos Parciais (PLS) e Regressão via Componentes Independentes (ICR) e o tradicional método de regularização/shrinkage, G-BLUP (Genomic Best Linear Unbiased Predictor). Assim, o primeiro capítulo contempla as ideias centrais e a importância da GWS para o melhoramento genético, a definição de efeitos aditivos e de efeitos devido à dominância, os problemas estatísticos enfrentados na estimação dos efeitos de marcadores nos fenótipos pelo método usual baseado em quadrados mínimos ordinários, bem como as metodologias estatísticas baseadas em redução dimensional para resolver tais problemas e os procedimentos de validação que tem por finalidade comparar as metodologias estatísticas da GWS. Já o segundo capítulo refere-se a proposição e aplicação de sete critérios para a escolha do número ótimo de componentes independentes a serem utilizados na ICR, considerando apenas os efeitos aditivos. Os critérios consistem em determinar que o número de componentes independentes seja igual ao número de componentes que conduz: (i) os valores genômicos estimados via PCR a um maior valor de acurácia; (ii) os valores genômicos estimados via PCR a um menor valor de viés; (iii) a PCR a 80% de explicação da variação total de X; (iv) a PCR a 80% de explicação da variação total de Y; (v) a ICR a 80% de explicação da variação total de X; além dos critérios que consistem no número de componentes independentes igual ao número de variáveis determinadas pelos procedimentos (vi) Forward Selection e (vii) Backward Selection. O conjunto de dados simulados era composto por 2.000 marcadores SNPs e as populações simuladas totalizaram 1.000 indivíduos de 20 famílias de irmãos completos que tiveram os fenótipos e os genótipos avaliados. Além disso, os cenários simulados são baseados em dois níveis de herdabilidade e duas arquiteturas genéticas com ausência de dominância, constituindo assim, em quatro cenários, os quais foram simulados dez vezes cada. Com o intuito de demonstrar a aplicabilidade do estudo no melhoramento genético, foram avaliadas seis características de produtividade de um conjunto de dados reais de arroz asiático Oryza sativa (Número de panículas por planta, altura da planta, comprimento da panícula, número de panículas no perfilho primário, número de sementes por panícula e espiguetas por panícula) correspondente a 370 acessos de arroz, os quais foram genotipados para 44.100 marcadores SNPs. Em ambos os casos (dados simulados e reais) foi utilizada a validação independente e calculada as medidas de eficiência para comparar os critérios. De modo geral, as análises indicaram que o primeiro critério (número de componentes independentes igual ao número de componentes principais cujos os valores genômicos estimados via PCR apresentava maior valor de acurácia) se mostrou mais eficiente para os dois conjuntos de dados e apresentou as medidas de eficiência mais próximas do método exaustivo, com a vantagem de exigir menos tempo e esforço computacional. Para complementar o estudo, o terceiro capítulo consiste na aplicação dos três critérios mais eficientes do capítulo 2, os quais consistem no número de componentes independentes igual ao número de componentes que conduz os valores genômicos estimados via PCR a um maior valor de acurácia; a um menor valor de viés e a PCR a 80% de explicação da variação total de X considerando o modelo aditivo-dominante. Ainda no contexto deste modelo, foi aplicado os três métodos de redução de dimensionalidade (PCR, PLS e ICR) levando em consideração a escolha do número ótimo de componentes que conduz os valores genômicos aditivos, valores genômicos devido à dominância ou os valores genômicos totais (aditivo + dominância) a uma maior acurácia. Todos os métodos de redução de dimensionalidade foram comparados com o G-BLUP em termos de eficiência na estimação dos valores genômicos. As populações simuladas foram constituídas por 1.000 indivíduos de 20 famílias de irmãos completos, sendo genotipados para 2000 marcadores SNPs e as análises correspondentes a quatro cenários (dois níveis de herdabilidade × duas arquiteturas genéticas) sendo assumido dominância completa. Os resultados do capítulo 3 assinalaram que se manteve a superioridade do critério 1 nos modelos aditivo-dominante. Além disso, para a estimação dos efeitos aditivos e devido a dominância concomitantemente por meio dos métodos de redução de dimensionalidade, é recomendável utilizar o número de componentes que conduz o valor genômico devido à dominância a uma maior acurácia. Ademais, ao confrontar as metodologias de redução dimensional (ICR, PCR e PLS) com o G-BLUP, verifica- se que a PCR é superior em termos de acurácia e o método vantajosamente apresenta um dos menores tempos computacionais na execução das análises. Ademais, nenhum dos métodos considerados capturaram adequadamente as herdabilidades simuladas e apresentaram viés.
Great advances in animal and plant breeding have been provided using molecular genetic information. In this perspective, they proposed Genome Wide Selection (GWS), whose approach involves complete coverage of the genome using thousands of single nucleotide polymorphisms (SNPs). The objective is to estimate the genetic merit of the individuals and to that end, the researches carried out in GWS are based on the search and application of methodologies that aim to solve the problems faced in the estimation process, such as high dimensionality and high colinearity between the markers. Among them, we highlight the dimensionality reduction methods: Principal Component Regression (PCR), Partial Least Squares (PLS) and Independent Regression Component (ICR) and the traditional method of regularization / shrinkage, G-BLUP (Genomic Best Linear Unbiased Predictor). Thus, the first chapter considers the central ideas and importance of GWS for genetic improvement, definition of additive effects and effects due to dominance, the statistical problems faced in estimating the effects of markers on phenotypes by the usual method based on ordinary least squares, as well as the alternative statistical methodologies to solve such problems and validation procedures that aim to compare GWS methodologies. The second chapter refers to the proposition and application of seven criteria for choose the optimal number of independent components to be used in the ICR, considering only the additive effects. The criteria that consist of the number of independent components equal to the number of components that leads: (i) the estimated genomic values by PCR to a higher accuracy; (ii) estimated genomic values by PCR at a lower bias value; (iii) the PCR at 80% of the explanation of the total variation of X; (iv) PCR at 80% of the total variation of Y; (v) the ICR at 80% of explanation of the total variation of X; in addition to the criteria that consist of the number of independent components equal to the number of variables determined by the procedures (vi) Forward Selection and (vii) Backward Selection. The simulated data set consisted of 2.000 SNPs and the simulated populations totaled 1.000 individuals from 20 families of complete siblings that had the phenotypes and genotypes evaluated. In addition, the simulated scenarios are based on two levels of heritability and two genetic architectures, constituting in four scenarios, which were simulated ten times each assuming absence of dominance. In order to demonstrate the applicability of the study to genetic improvement, were evaluated six characteristics of productivity of a real data set Asian rice Oryza sativa (Number of panicles per plant, plant height, panicle length, number of panicles in the tiller primary, number of seeds per panicle and spikelets per panicle) corresponding to 370 accessions of rice, which were genotyped for 44.100 markers SNPs. In both cases (simulated and real data) the independent validation was used and the efficiency measures were calculated to compare the criteria. In general, the analyzes indicated that the first criterion (number of independent components equal to the number of principal components whose genomic values estimated by PCR showed highest accuracy) proved to be more efficient for both sets of data and presented the measures of efficiencies closer to the exhaustive method, with the advantage of requiring less computational time and effort. To complement the study, the third chapter consists of the application of the three most efficient criteria of chapter 2, which consist of the number of independent components equal to the number of components that leads the estimated genomic values via PCR to a highest accuracy value; to a lower value of bias and the PCR to 80% of explanation of the total variation of X considering the additive-dominant model. In the context of this model, the three dimensionality reduction methods (PCR, PLS and ICR) were applied taking into account the choice of the optimal number of components that leads to the additive genomic values, genomic values due to dominance or total genomic values (additive + dominance) to greater accuracy. All dimensionality reduction methods were compared with G-BLUP in terms of efficiency in the estimation of genomic values. Simulated populations were composed of 1.000 individuals from 20 families of complete siblings, with genotyped 2000 SNPs markers and analyzes corresponding to four scenarios (two levels of heritability × two genetic architectures). The simulations assumed complete dominance. The results of chapter 3 pointed out that the superiority of criterion 1 was maintained in the additive-dominant models. In addition, for the estimation of the additive effects and due to the dominance concomitantly by means of dimensionality reduction methods, it is recommended to use the number of components that drives the genomic value due to the dominance to a greater accuracy. In addition, when comparing the methodologies of dimensional reduction (ICR, PCR and PLS) with G-BLUP, it is verified that the PCR is superior in terms of accuracy and the method advantageously presents one of the smallest computational times in the execution of the analyzes. In addition, none of the methods considered adequately captured the simulated heritabilities and showed bias.
Palavras-chave: Modelos multinivéis (Estatísticas)
Análise de componentes principais
Genômica
Melhoramento genético
CNPq: Estatística
Editor: Universidade Federal de Viçosa
Titulação: Mestre em Estatística Aplicada e Biometria
Citação: COSTA, Jaquicele Aparecida da. Predição genômica via redução de dimensionalidade em modelos aditivo dominante. 2018. 107 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2018.
Tipo de Acesso: Acesso Aberto
URI: http://www.locus.ufv.br/handle/123456789/20030
Data do documento: 26-Fev-2018
Aparece nas coleções:Estatística Aplicada e Biometria

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
texto completo.pdftexto completo995,67 kBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.