Análise de fatores para redução de dimensionalidade em estudos de predição genômica
Data
2022-12-12
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Viçosa
Resumo
O conceito de seleção genômica tem como base o desequilíbrio de ligação (LD) entre locos de características quantitativas (QTLs) e marcadores. Uma variação genética que se relaciona com a forma que o fenótipo é expresso conduz a múltiplas associações estatísticas em marcadores próximos em termos de ligação fatorial ou de desequilíbrio, podendo estas associações ser ou não de causa e efeito. Assim ao construir modelos preditivos, em geral não é conhecido quais SNPs possuem de fato associação de causa e efeito com o fenótipo de interesse, consequentemente o modelo é construído utilizando todas as informações genotípicas. Com o intuito de aumentar a acurácia dos modelos de predição, diferentes abordagens de seleção de marcadores foram propostas. São estratégias utilizadas para isto selecionar SNPs relatados anteriormente em estudos de associação para a característica de interesse, estimar a significância dos SNPs no conjunto de dados para cada característica utilizando um modelo preditivo e o efeito dos marcadores estimados pelo modelo, ou a seleção subconjuntos dos marcadores uniformemente espaçados ao longo do genoma. Dentre as abordagens citadas anteriormente, a seleção uniformemente espaçada ao longo do genoma é a mais versátil, uma vez que um painel de baixa densidade formado por meio dela pode ser utilizado em estudos de predição de valores genéticos de qualquer característica, diferentemente das outras abordagens citadas. Porém esta seleção está sujeita a possibilidade de excluir por completo blocos de haplótipos em LD relacionados com o fenótipo de interesse. Este trabalho foi desenvolvido com o objetivo de propor uma abordagem de seleção de marcadores espaçados dentro de blocos de haplótipos construídos utilizando Análise de Fatores (AF). Mostramos, utilizando dados simulados que a Análise de Fatores pode ser utilizada para construir os blocos de haplótipos, sendo ela capaz de sintetizar a relação linear entre marcadores e criar fatores comuns que podem ser interpretados como blocos de LD. Em seguida utilizamos em um conjunto de dados de soja, contendo 41985 marcadores do tipo SNPs com informação de 20087 acessos de soja, esta abordagem para construir os blocos e então foi feito a seleção espaçada dentro dos blocos formados a partir da AF. Três painéis de SNPs foram considerados, contendo 1%, 5% e 100% dos marcadores. Para avaliar o êxito desta abordagem, foi considerado a acurácia em uma tarefa de predição do valor fenotípico dos indivíduos utilizando os painéis reduzidos e o painel completo. Os resultados mostram que ao utilizar os painéis reduzidos não há diferença significativa de acurácia seletiva comparado a acurácia obtida utilizando o painel completo e para uma das características avaliadas também não foi encontrada diferença significativa para acurácia preditiva. Palavras-chave: SNP. GWS. Seleção de Marcadores. Análise Fatorial. Soja. Aprendizado de Máquina. Blocos de Haplótipos.
The concept of genomic selection is based on the linkage disequilibrium (LD) between quantitative trait loci (QTLs) and markers. A genetic variation that is related to the way the phenotype is expressed leads to multiple statistical associations in close markers in terms of factorial linkage or disequilibrium, these associations may or may not be cause and effect. Thus, when building predictive models, it is generally not known which SNPs have a cause-and-effect association with the phenotype of interest, consequently, the model is built using all genotypic information. To increase the accuracy of prediction models, different marker selection approaches have been proposed. Strategies used for this are selecting previously reported SNPs in association studies for the trait of interest, estimating the significance of SNPs in the dataset for each trait using a predictive model and the effect of markers estimated by the model, or selecting subsets of markers evenly spaced throughout the genome. Among the approaches mentioned above, selection evenly spaced throughout the genome is the most versatile, since a low-density panel formed through it can be used in studies to predict the genetic values of any trait, unlike the other approaches mentioned. However, this selection is subject to the possibility of completely excluding blocks of haplotypes in LD related to the phenotype of interest. This work was developed with the aim of proposing an approach for selecting spaced markers within blocks of haplotypes constructed using Factor Analysis (FA). We show, using simulated data, that Factor Analysis can be used to build blocks of haplotypes, being able to synthesize the linear relationship between markers and create common factors that can be interpreted as blocks of LD. Next, we used this approach to build the blocks in a soybean dataset, containing 41985 SNPs type markers with information from 20087 soybean accessions, and then the spaced selection was made within the blocks formed from the FA. Three panels of SNPs were considered, containing 1%, 5% and 100% of the markers. To assess the success of this approach, the accuracy of a task to predict the phenotypic value of individuals using the reduced panels and the full panel was considered. The results show that when using the reduced panels there is no significant difference in selective accuracy compared to the accuracy obtained usingthe full panel and for one of the evaluated characteristics no significant difference was found for predictive accuracy. Keywords: Dissertation. SNP. GWS. Marker Selection. Factor Analysis. Soybean. Machine Learning. Haplotype Blocks.
The concept of genomic selection is based on the linkage disequilibrium (LD) between quantitative trait loci (QTLs) and markers. A genetic variation that is related to the way the phenotype is expressed leads to multiple statistical associations in close markers in terms of factorial linkage or disequilibrium, these associations may or may not be cause and effect. Thus, when building predictive models, it is generally not known which SNPs have a cause-and-effect association with the phenotype of interest, consequently, the model is built using all genotypic information. To increase the accuracy of prediction models, different marker selection approaches have been proposed. Strategies used for this are selecting previously reported SNPs in association studies for the trait of interest, estimating the significance of SNPs in the dataset for each trait using a predictive model and the effect of markers estimated by the model, or selecting subsets of markers evenly spaced throughout the genome. Among the approaches mentioned above, selection evenly spaced throughout the genome is the most versatile, since a low-density panel formed through it can be used in studies to predict the genetic values of any trait, unlike the other approaches mentioned. However, this selection is subject to the possibility of completely excluding blocks of haplotypes in LD related to the phenotype of interest. This work was developed with the aim of proposing an approach for selecting spaced markers within blocks of haplotypes constructed using Factor Analysis (FA). We show, using simulated data, that Factor Analysis can be used to build blocks of haplotypes, being able to synthesize the linear relationship between markers and create common factors that can be interpreted as blocks of LD. Next, we used this approach to build the blocks in a soybean dataset, containing 41985 SNPs type markers with information from 20087 soybean accessions, and then the spaced selection was made within the blocks formed from the FA. Three panels of SNPs were considered, containing 1%, 5% and 100% of the markers. To assess the success of this approach, the accuracy of a task to predict the phenotypic value of individuals using the reduced panels and the full panel was considered. The results show that when using the reduced panels there is no significant difference in selective accuracy compared to the accuracy obtained usingthe full panel and for one of the evaluated characteristics no significant difference was found for predictive accuracy. Keywords: Dissertation. SNP. GWS. Marker Selection. Factor Analysis. Soybean. Machine Learning. Haplotype Blocks.
Descrição
Palavras-chave
Soja - Melhoramento Genetico, Polimorfismos de nucleotídeo unico, Marcadores genéticos - Seleção, Analise fatorial, Aprendizado do computador, Haplótipos
Citação
OLIVEIRA, Cristiano Ferreira. Análise de fatores para redução de dimensionalidade em estudos de predição genômica. 2022. 63 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2022.