Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
3 resultados
Resultados da Pesquisa
Item Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica(Universidade Federal de Viçosa, 2023-07-18) Begnami, Vinicius Silva; Azevedo, Camila Ferreira; http://lattes.cnpq.br/3707637931879411Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD𝜋, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD𝜋 quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.Item Tamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica ampla(Universidade Federal de Viçosa, 2023-06-15) Oliveira, Gabriela França; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/9895689990102944Estudos de associação genômica (Genome-Wide Association Studies - GWAS) são aqueles que buscam identificar marcadores significativos que podem estar relacionadas às características de interesse nos programas de melhoramento. O Modelo Linear Geral (General Linear Model - GLM) é um dos principais procedimentos de avaliação de associações significativas entre marcadores e QTLs (Quantitative Trait Locus). A estimação dos efeitos dos marcadores por meio do GLM é baseada em médias condicionais. No entanto, esta estimação pode ser inadequada quando os erros não seguem distribuição normal e/ou não possuem variâncias homogêneas. Uma metodologia alternativa e que recentemente vem sendo explorada em estudos de associação genômica é a Regressão Quantílica (RQ), a qual possibilita a estimação do efeito dos marcadores ao longo de toda distribuição dos valores fenotípicos. A RQ já foi avaliada com sucesso em estudos de GWAS em um conjunto de dados reais que apresentava um número reduzido de indivíduos. Porém, a performance da técnica para diferentes tamanhos populacionais ainda não foi estudada. Diante do exposto, o objetivo deste estudo, foi avaliar a performance da RQ em estudos de GWAS quanto à capacidade de detectar QTLs associados as características fenotípicas de interesse, considerando diferentes tamanhos populacionais. Para isso, foram utilizados dados simulados, com características de diferentes níveis de herdabilidade (ℎ 2 = 0,30 e 0,50), controlados por 3 e 100 QTLs. Foi simulada uma população de 1000 indivíduos e posteriormente foram realizadas reduções aleatórias de 100 indivíduos até atingir uma população de tamanho 200. O poder de detecção de QTLs e a taxa de falsos positivos foram obtidos por meio do GLM e também por meio da RQ considerando três quantis diferentes (𝜏 = 0,10; 0,50 e 0,90). Como resultado, observou-se que os modelos RQ, apresentaram maior poder de detecção de QTLs em todos os cenários avaliados e taxa de falsos positivos relativamente baixa em cenários com maior número de indivíduos. Os modelos de RQ nos quantis extremos (𝜏 = 0,1 e 0,90) foram aqueles que obtiveram maior poder de detecção de QTLs verdadeiros. Em contrapartida, a análise baseada no GLM detectou poucos (cenários com maior tamanho populacional) ou nenhum QTL nos cenários avaliados. Nos cenários com baixa herdabilidade, o RQ obteve um alto poder de detecção. Dessa forma, verificou-se que a utilização da RQ em GWAS é eficaz, permitindo a detecção de QTLs associados a características de interesse, mesmo em cenários com poucos indivíduos genotipados e fenotipados. Palavras-chave: GWAS. Melhoramento genético. Modelo Linear Geral. Simulação. Quantis condicionais.Item Random Forest Quantílico aplicado em estudos de seleção genômica(Universidade Federal de Viçosa, 2022-11-04) Valadares, Cristiane Botelho; Nascimento, Moysés; http://lattes.cnpq.br/1899074948442515A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.