Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
4 resultados
Resultados da Pesquisa
Item Tamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica ampla(Universidade Federal de Viçosa, 2023-06-15) Oliveira, Gabriela França; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/9895689990102944Estudos de associação genômica (Genome-Wide Association Studies - GWAS) são aqueles que buscam identificar marcadores significativos que podem estar relacionadas às características de interesse nos programas de melhoramento. O Modelo Linear Geral (General Linear Model - GLM) é um dos principais procedimentos de avaliação de associações significativas entre marcadores e QTLs (Quantitative Trait Locus). A estimação dos efeitos dos marcadores por meio do GLM é baseada em médias condicionais. No entanto, esta estimação pode ser inadequada quando os erros não seguem distribuição normal e/ou não possuem variâncias homogêneas. Uma metodologia alternativa e que recentemente vem sendo explorada em estudos de associação genômica é a Regressão Quantílica (RQ), a qual possibilita a estimação do efeito dos marcadores ao longo de toda distribuição dos valores fenotípicos. A RQ já foi avaliada com sucesso em estudos de GWAS em um conjunto de dados reais que apresentava um número reduzido de indivíduos. Porém, a performance da técnica para diferentes tamanhos populacionais ainda não foi estudada. Diante do exposto, o objetivo deste estudo, foi avaliar a performance da RQ em estudos de GWAS quanto à capacidade de detectar QTLs associados as características fenotípicas de interesse, considerando diferentes tamanhos populacionais. Para isso, foram utilizados dados simulados, com características de diferentes níveis de herdabilidade (ℎ 2 = 0,30 e 0,50), controlados por 3 e 100 QTLs. Foi simulada uma população de 1000 indivíduos e posteriormente foram realizadas reduções aleatórias de 100 indivíduos até atingir uma população de tamanho 200. O poder de detecção de QTLs e a taxa de falsos positivos foram obtidos por meio do GLM e também por meio da RQ considerando três quantis diferentes (𝜏 = 0,10; 0,50 e 0,90). Como resultado, observou-se que os modelos RQ, apresentaram maior poder de detecção de QTLs em todos os cenários avaliados e taxa de falsos positivos relativamente baixa em cenários com maior número de indivíduos. Os modelos de RQ nos quantis extremos (𝜏 = 0,1 e 0,90) foram aqueles que obtiveram maior poder de detecção de QTLs verdadeiros. Em contrapartida, a análise baseada no GLM detectou poucos (cenários com maior tamanho populacional) ou nenhum QTL nos cenários avaliados. Nos cenários com baixa herdabilidade, o RQ obteve um alto poder de detecção. Dessa forma, verificou-se que a utilização da RQ em GWAS é eficaz, permitindo a detecção de QTLs associados a características de interesse, mesmo em cenários com poucos indivíduos genotipados e fenotipados. Palavras-chave: GWAS. Melhoramento genético. Modelo Linear Geral. Simulação. Quantis condicionais.Item Random Forest Quantílico aplicado em estudos de seleção genômica(Universidade Federal de Viçosa, 2022-11-04) Valadares, Cristiane Botelho; Nascimento, Moysés; http://lattes.cnpq.br/1899074948442515A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.Item Redes neurais artificiais com componentes principais para a construção de modelos de predição em dados de espectroscopia NIR(Universidade Federal de Viçosa, 2022-07-06) Ferreira, Roberta de Amorim; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/6364173429092431A espectroscopia no infravermelho próximo (NIR), associada a métodos estatísticos multivariados, vem sendo utilizada para a predição de indivíduos com maior produtividade. O método Partial Least Squares (PLS) é comumente empregado para ajuste de modelos de dados NIR. Entretanto, este método considera que a relação espectro/propriedade seja linear, o que não é sempre garantido em dados dessa natureza e o que pode, consequentemente, influenciar na acurácia do modelo. Alternativamente, a rede neural artificial (ANN) associada à análise de componentes principais (PCA), denominada PCA-ANN, possui a vantagem de ser eficiente em lidar com dados não lineares, incompletos e com ruídos, captando assim algumas complexidades presentes nos mesmos. Além disso, tal abordagem permite o não uso de pré- tratamentos, o que pode aumentar a capacidade preditiva dos modelos, além de diminuir o custo e o tempo das análises, quando comparada ao PLS associado aos pré-tratamentos usuais. O objetivo deste estudo foi construir e validar modelos de predição e processos de classificação, além de verificar se existe diferença significativa entre o método PLS, associado à matriz de espectros pré-tratados, e o método PCA-ANN, aplicado aos dados brutos. Para tanto, tais métodos foram aplicados a oito conjuntos de dados NIR, na forma bruta (sem pré- tratamentos) e com pré-tratamentos. A avaliação da capacidade preditiva dos modelos obtidos ocorreu por meio da correlação entre os valores preditos e os valores originais, e da raiz quadrada do erro quadrático médio de predição. Já a avaliação dos processos de classificação ocorreu através da taxa de erro aparente (TEA) e da taxa de verdadeiros positivos (TVP). Os resultados alcançados indicam que, na maioria dos conjuntos de dados analisados, o método PCA-ANN não difere estatisticamente do PLS para a predição dos modelos e para os processos de classificação, por meio da aplicação dos testes t e de Wilcoxon (valor-p > 0,01). O PCA- ANN deve ser escolhido para a realização de futuras análises, pois apresenta tempo computacional inferior àquele referente ao PLS. Palavras-chave: PLS. PCA-ANN. Pré-tratamentos. Quimiometria. Predição.Item Splines de regressão adaptativa multivariada na predição genômica(Universidade Federal de Viçosa, 2020-10-27) Celeri, Maurício de Oliveira; Nascimento, Moysés; http://lattes.cnpq.br/2569243563413784A Seleção Genômica Ampla (SGA), proposta em 2001, é uma variação da Seleção Assistida por Marcadores (SAM) que prediz o valor genético genômico com base em marcadores distribuídos ao longo de todo o genoma. Desde sua proposição vários métodos estatísticos vêm sendo propostos para SGA, dentre os quais podemos destacar o Melhor Preditor Linear não Viesado Genômico (G-BLUP), uma das abordagens mais amplamente difundida devido a sua simplicidade e por permitir considerar efeitos não aditivos em seu ajuste. Uma metodologia ainda não explorada em SGA é a Splines de Regressão Adaptativa Multivariada (MARS). A MARS modela efeitos individuais e possíveis interações entre variáveis preditoras, podendo ser particularmente útil para SGA considerando efeitos não aditivos. Diante disso o objetivo deste trabalho é avaliar a utilização da MARS em SGA, considerando características quantitativas com efeitos não aditivos. Para isso, fez-se uso de um conjunto de dados simulados de 1000 indivíduos com 4010 marcadores SNPs e 12 cenários considerando efeitos não aditivos, definidos pela combinação de oito, 40, 80 ou 120 locus controladores e herdabilidade 0,3, 0,5 ou 0,8. Confrontou-se os resultados da MARS contra os resultados obtidos com o modelo ajustado G-BLUP considerando efeitos aditivos, aditivos e devido a dominância e aditivos e devido a epistasia aditiva-aditiva no que se refere à capacidade preditiva e ao coeficiente kappa de Cohen para seleção de indivíduos superiores. MARS apresentou resultados de capacidade preditiva superior a todos os modelos G-BLUP ajustado para os cenários de herdabilidade 0,3 e resultados semelhantes nos demais casos. Quanto ao coeficiente kappa de Cohen, MARS foi superior aos métodos G-BLUP em 11 dos 12 cenários avaliados. Portanto, MARS é uma metodologia que apresenta potencial para estudos em SGA. Palavras-chave: Regressão. Aprendizado estatístico. Seleção genômica ampla. Efeitos não aditivos.