Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
Data
2023-07-18
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Viçosa
Resumo
Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD𝜋, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD𝜋 quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.
With the growing global population, the demand for food is increasing every day, even as arable land areas approach their territorial limits. One solution to address this challenge is the practice of genetic improvement, which is gaining increasing prominence due to its ability to enhance productivity and improve the quality of food within the confines of existing cultivation areas. With advances in molecular genetics, it has become possible to obtain genetic information directly from DNA through molecular markers, particularly Single Nucleotide Polymorphism (SNP), which have been used in Genome-Wide Selection (GWS) studies. GWS aims to estimate genomic breeding values (GEBV) of individuals under study based on genotypic information. However, when adjusting the prediction equation, high dimensionality and multicollinearity pose challenges, as the number of markers is much larger than the number of evaluated individuals. Since not all markers in the genome influence a specific phenotypic trait, it is common practice to conduct a prior selection of these markers. In this context, this study proposes to select the most important markers for genomic prediction based on their inclusion probability. To achieve this, the dissertation is divided into two chapters. Chapter 1 consists of a literature review on the statistical methodologies to be applied in the following chapter. Chapter 2 aims to select the most important markers from a real dataset derived from Oryza Sativa rice, containing 413 genotyped accessions with 44,100 SNP markers, using their posterior inclusion probability. The calculation of this probability is supported by the marker molecular effects matrix, estimated through the BayesD𝜋 method, and the total number of saved iterations. After the selection of the most important markers, they are grouped into sets of 2,000, 4,000, 6,000, ..., up to 36,901 markers, according to their importance. Subsequently, each group has its effect estimated by the BayesA method, and the predictive ability of the prediction model is calculated. This metric is compared to the predictive ability of prediction models adjusted by the Bayesian methods, BayesA and BayesD𝜋 separately, without prior marker selection. The results obtained indicate that the selection of the most important markers for genomicprediction has proven to be efficient, as its exhibits high predictive ability compared to the BayesA and BayesD𝜋 methods when used in isolation and without prior selection. Furthermore, the posterior inclusion probability has also proven effective in understanding the genetic architecture of the trait under study. Thus, marker selection contributes to the reduction of high dimensionality, an increase in the predictive ability of the genomic prediction model, and a reduction in computational effort, addressing recurring issues in genomic selection. Keywords: Molecular Markers. Rice. Genomic Selection. Genetics. Genetic Breeding.
With the growing global population, the demand for food is increasing every day, even as arable land areas approach their territorial limits. One solution to address this challenge is the practice of genetic improvement, which is gaining increasing prominence due to its ability to enhance productivity and improve the quality of food within the confines of existing cultivation areas. With advances in molecular genetics, it has become possible to obtain genetic information directly from DNA through molecular markers, particularly Single Nucleotide Polymorphism (SNP), which have been used in Genome-Wide Selection (GWS) studies. GWS aims to estimate genomic breeding values (GEBV) of individuals under study based on genotypic information. However, when adjusting the prediction equation, high dimensionality and multicollinearity pose challenges, as the number of markers is much larger than the number of evaluated individuals. Since not all markers in the genome influence a specific phenotypic trait, it is common practice to conduct a prior selection of these markers. In this context, this study proposes to select the most important markers for genomic prediction based on their inclusion probability. To achieve this, the dissertation is divided into two chapters. Chapter 1 consists of a literature review on the statistical methodologies to be applied in the following chapter. Chapter 2 aims to select the most important markers from a real dataset derived from Oryza Sativa rice, containing 413 genotyped accessions with 44,100 SNP markers, using their posterior inclusion probability. The calculation of this probability is supported by the marker molecular effects matrix, estimated through the BayesD𝜋 method, and the total number of saved iterations. After the selection of the most important markers, they are grouped into sets of 2,000, 4,000, 6,000, ..., up to 36,901 markers, according to their importance. Subsequently, each group has its effect estimated by the BayesA method, and the predictive ability of the prediction model is calculated. This metric is compared to the predictive ability of prediction models adjusted by the Bayesian methods, BayesA and BayesD𝜋 separately, without prior marker selection. The results obtained indicate that the selection of the most important markers for genomicprediction has proven to be efficient, as its exhibits high predictive ability compared to the BayesA and BayesD𝜋 methods when used in isolation and without prior selection. Furthermore, the posterior inclusion probability has also proven effective in understanding the genetic architecture of the trait under study. Thus, marker selection contributes to the reduction of high dimensionality, an increase in the predictive ability of the genomic prediction model, and a reduction in computational effort, addressing recurring issues in genomic selection. Keywords: Molecular Markers. Rice. Genomic Selection. Genetics. Genetic Breeding.
Descrição
Palavras-chave
Bioestatítica, Genômica, Marcadores genéticos, Melhoramento genético
Citação
BEGNAMI, Vinicius Silva. Seleção de marcadores utilizando probabilidade a
posteriori de inclusão no modelo para predição genômica. 2023. 56 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.