Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
2 resultados
Resultados da Pesquisa
Item Random Forest Quantílico aplicado em estudos de seleção genômica(Universidade Federal de Viçosa, 2022-11-04) Valadares, Cristiane Botelho; Nascimento, Moysés; http://lattes.cnpq.br/1899074948442515A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.Item Redes neurais artificiais com componentes principais para a construção de modelos de predição em dados de espectroscopia NIR(Universidade Federal de Viçosa, 2022-07-06) Ferreira, Roberta de Amorim; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/6364173429092431A espectroscopia no infravermelho próximo (NIR), associada a métodos estatísticos multivariados, vem sendo utilizada para a predição de indivíduos com maior produtividade. O método Partial Least Squares (PLS) é comumente empregado para ajuste de modelos de dados NIR. Entretanto, este método considera que a relação espectro/propriedade seja linear, o que não é sempre garantido em dados dessa natureza e o que pode, consequentemente, influenciar na acurácia do modelo. Alternativamente, a rede neural artificial (ANN) associada à análise de componentes principais (PCA), denominada PCA-ANN, possui a vantagem de ser eficiente em lidar com dados não lineares, incompletos e com ruídos, captando assim algumas complexidades presentes nos mesmos. Além disso, tal abordagem permite o não uso de pré- tratamentos, o que pode aumentar a capacidade preditiva dos modelos, além de diminuir o custo e o tempo das análises, quando comparada ao PLS associado aos pré-tratamentos usuais. O objetivo deste estudo foi construir e validar modelos de predição e processos de classificação, além de verificar se existe diferença significativa entre o método PLS, associado à matriz de espectros pré-tratados, e o método PCA-ANN, aplicado aos dados brutos. Para tanto, tais métodos foram aplicados a oito conjuntos de dados NIR, na forma bruta (sem pré- tratamentos) e com pré-tratamentos. A avaliação da capacidade preditiva dos modelos obtidos ocorreu por meio da correlação entre os valores preditos e os valores originais, e da raiz quadrada do erro quadrático médio de predição. Já a avaliação dos processos de classificação ocorreu através da taxa de erro aparente (TEA) e da taxa de verdadeiros positivos (TVP). Os resultados alcançados indicam que, na maioria dos conjuntos de dados analisados, o método PCA-ANN não difere estatisticamente do PLS para a predição dos modelos e para os processos de classificação, por meio da aplicação dos testes t e de Wilcoxon (valor-p > 0,01). O PCA- ANN deve ser escolhido para a realização de futuras análises, pois apresenta tempo computacional inferior àquele referente ao PLS. Palavras-chave: PLS. PCA-ANN. Pré-tratamentos. Quimiometria. Predição.