Random Forest Quantílico aplicado em estudos de seleção genômica

Imagem de Miniatura

Data

2022-11-04

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Viçosa

Resumo

A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.
Genome Wide Selection (GWS) uses markers distributed throughout the genome to predict the genomic genetic value of individuals. This approach makes it possible to accelerate the improvement process from early selection and increase the prediction accuracy of genomic genetic values. Several statistical techniques used as RR-BL, such as RR-BL, G-BLUP, Bayes A and Bayes are calculated on errors and, consequently, as phenopic values with normality values. Machine learning techniques such as Bagging (BA), Random Forest (RF) and Random Forest Quantile (QRF) appear as alternative models since they do not require a priori assumptions about the functional relationship between markers and phenotypic values, without the need to meet assumptions about the distributions of data and residuals. QRF, a methodology not yet explored in the context of genomic selection, is a non-parametric benefit that combines with Random Forest (RF) and Quantile Regression (QR). This approach can explore nonlinear functions by determining the probability distribution of a response variable extracting information from different quantiles and not just predicting the mean. In this work, it is proposed to evaluate the use of QRF in genomic prediction and compare its results with other techniques that have already been explored in GWS. In this work two articles were developed within this proposal. In the first one, the goal was to evaluate the performance of the QRF (in the quantiles 0,1; 0,3; 0,5, 0,7 and 0,9) in predicting the genomic genetic value for traits with non-additive genetic architecture (epistasis and dominance). Additionally, the achieved accuracy was compared with those from G-BLUP (G-BLUP additive, G-BLUP dominant additive and G-BLUP epistatic additive). An F2 population was simulated with 1.000 genotyped individuals for 4.010 SNP markers. In addition, twelve characteristics were simulated from a model considering additive and non-additive effects, with the number of QTLs (Quantitative trait loci) ranging from 8 to 120 and and three levels of heritability (0,3, 0,5, or 0,8). In all scenarios, the results of the predictive capacity of the QRF were equal to or superior to the G-BLUP and proved to be an alternative tool to predict genetic values in complex characteristics. In the second work the objective was to evaluate the use of QRF in genomic prediction for three Coffea arabica traits and compare their predictive capabilities with machine learning methodologies (Bagging and Random Forest), Bayesian methods (Bayes Cπ and Bayes Dπ) and G -BLUP. The traits leaf miner, cercosporiosis, and grain production yield for 195 individuals genotyped with 20,477 SNP molecular markers were genotyped, resulting from the crossing between Catuaí and Timor Hybrid, contrasting concerning coffee rust. The objective was to evaluate the use of QRF in genomic prediction. The Bayesian methods showed better performance for the production, while the QRF was equal to or superior to the other methods for the characteristics of leaf miner and cercosporiosis, with a much lower processing time than Bayes Cπ and Bayes Dπ. The QRF then emerges as a promising algorithm for prediction, enabling, in some scenarios, more accurate predictions of GWS. Keywords: Genomic Prediction. Data Simulation. Genetic Improvement of Coffee. Bayesian Methods. G-BLUP. Machine Learning.

Descrição

Palavras-chave

Análise de regressão, Aprendizado do computador, Mapeamento cromossômico - Métodos estatísticos, Melhoramento genético

Citação

VALADARES, Cristiane Botelho. Random Forest Quantílico aplicado em estudos de seleção genômica. 2022. 58 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2022.

Avaliação

Revisão

Suplementado Por

Referenciado Por