Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
7 resultados
Resultados da Pesquisa
Item Análise de fatores para redução de dimensionalidade em estudos de predição genômica(Universidade Federal de Viçosa, 2022-12-12) Oliveira, Cristiano Ferreira; Cruz, Cosme DamiãoO conceito de seleção genômica tem como base o desequilíbrio de ligação (LD) entre locos de características quantitativas (QTLs) e marcadores. Uma variação genética que se relaciona com a forma que o fenótipo é expresso conduz a múltiplas associações estatísticas em marcadores próximos em termos de ligação fatorial ou de desequilíbrio, podendo estas associações ser ou não de causa e efeito. Assim ao construir modelos preditivos, em geral não é conhecido quais SNPs possuem de fato associação de causa e efeito com o fenótipo de interesse, consequentemente o modelo é construído utilizando todas as informações genotípicas. Com o intuito de aumentar a acurácia dos modelos de predição, diferentes abordagens de seleção de marcadores foram propostas. São estratégias utilizadas para isto selecionar SNPs relatados anteriormente em estudos de associação para a característica de interesse, estimar a significância dos SNPs no conjunto de dados para cada característica utilizando um modelo preditivo e o efeito dos marcadores estimados pelo modelo, ou a seleção subconjuntos dos marcadores uniformemente espaçados ao longo do genoma. Dentre as abordagens citadas anteriormente, a seleção uniformemente espaçada ao longo do genoma é a mais versátil, uma vez que um painel de baixa densidade formado por meio dela pode ser utilizado em estudos de predição de valores genéticos de qualquer característica, diferentemente das outras abordagens citadas. Porém esta seleção está sujeita a possibilidade de excluir por completo blocos de haplótipos em LD relacionados com o fenótipo de interesse. Este trabalho foi desenvolvido com o objetivo de propor uma abordagem de seleção de marcadores espaçados dentro de blocos de haplótipos construídos utilizando Análise de Fatores (AF). Mostramos, utilizando dados simulados que a Análise de Fatores pode ser utilizada para construir os blocos de haplótipos, sendo ela capaz de sintetizar a relação linear entre marcadores e criar fatores comuns que podem ser interpretados como blocos de LD. Em seguida utilizamos em um conjunto de dados de soja, contendo 41985 marcadores do tipo SNPs com informação de 20087 acessos de soja, esta abordagem para construir os blocos e então foi feito a seleção espaçada dentro dos blocos formados a partir da AF. Três painéis de SNPs foram considerados, contendo 1%, 5% e 100% dos marcadores. Para avaliar o êxito desta abordagem, foi considerado a acurácia em uma tarefa de predição do valor fenotípico dos indivíduos utilizando os painéis reduzidos e o painel completo. Os resultados mostram que ao utilizar os painéis reduzidos não há diferença significativa de acurácia seletiva comparado a acurácia obtida utilizando o painel completo e para uma das características avaliadas também não foi encontrada diferença significativa para acurácia preditiva. Palavras-chave: SNP. GWS. Seleção de Marcadores. Análise Fatorial. Soja. Aprendizado de Máquina. Blocos de Haplótipos.Item Random Forest Quantílico aplicado em estudos de seleção genômica(Universidade Federal de Viçosa, 2022-11-04) Valadares, Cristiane Botelho; Nascimento, Moysés; http://lattes.cnpq.br/1899074948442515A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.Item Selection indices and support vector machines in the selection of sugarcane families(Universidade Federal de Viçosa, 2022-10-27) Muetanene, Belo Afonso; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3498315508048631The present study aimed to compare selection indices, namely: Smith and Hazel multiplicative, Mulamba and Mock's, and the support vector machines algorithm for sugarcane families selection. We used two datasets, from Moreira et al. (2021) and from Ferreira et al. (2022), both related to the sugarcane breeding program conducted at the Center for Sugar cane Research and Breeding at the Federal University of Viçosa, Oratórios, Minas Gerais. Both experiments were conducted in a randomized complete block design. We constructed the selection indices via mixed models approach. We adopted a selection percentage of 18% of the top families for the selection process. In both studies, we considered as explanatory traits: the number of stalks, stalks diameter and stalk height, and as the response trait the tons of stalks per hectare per family. In the dataset from Ferreira et al. (2022), the support vector machine was a better approach to select sugarcane families by learning from the data after multivariate simulation. Whereas in the dataset from Moreira et al. (2021), using similar methodology, lower performance for support vector machines was obtained. Keywords: Synthetic data. Indirect selection. Yield prediction. Machine learning. BLUPItem Computational intelligence and statistical learning applied to Coffea canephora(Universidade Federal de Viçosa, 2022-05-02) Sousa, Ithalo Coelho de; Nascimento, Moysés; http://lattes.cnpq.br/1025209026546066Genomic prediction in Coffee breeding has shown good potential in predictive ability (PA), genetic gains and reduction of the selection cycle time. Many methodologies are used to predict the genetic merit, but some of them require priori assumptions that may increase the complexity of the model. Artificial neural network (ANN) has advantage to not require priori assumptions about the relationships between inputs and the output allowing great flexibility to handle different types of complex non-additive effects, such as dominance and epistasis. Despite this advantage, the biological interpretability of ANNs is still limited. In the elaboration of this research project, two basic questions were formulated. The first question, is it possible to estimate genetic parameters using ANNs? The second, is it possible to reduce the panel marker size with no penalty in predictive ability? For this, the analyzes were divided into two articles. In the first article, the aim was to estimate the heritability and markers effects for two traits in Coffea canephora using an additive-dominance architecture ANN and to compare it with genomic best linear unbiased prediction (GBLUP). In the second article, the aim was to evaluate the trade-off between density marker panels size and the PA for eight agronomic traits in Coffea canephora using machine learning (bagging and random forest) algorithms and comparing them with BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator) method. For both article, the data set consisted of 165 genotypes of Coffea canephora genotyped for 14,387 snp markers, after quality control analysis. For the first article the phenotypic data used was rust (Rus) and yield (Y). For the second article the phenotypic data is composed by vegetative vigor (Vig), rust (Rus) and cercosporiose incidence (Cer), fruit maturation time (Mat), fruit size (FS), plant height (PH), diameter of the canopy projection (DC) and yield (Y). In the first article we reduced the dimensionality of the data using bagging decision tree and then run 64,000 neural networks for each trait selecting the best architecture based on predictive ability for estimating the heritability, obtained results compatibles with those in literature. In the second article, 12 different density market panels were used to evaluate the effect of dimensionality reduction in PA. The common trend observed in the analysis shows an increase of the PA as the number of markers decreases, having a peak in most of the cases when used between 500 and 1,000 markers. In general, the worst results were obtained when used the full SNP panel density. The results of the second article indicate that the reduction of the number of markers can improve the selection of individuals at a lower cost. Computational Intelligence methods prove to be powerful tools for predicting genetic values, to estimate genetic parameters and to select markers. Keywords: GBLUP. BLASSO. BAGGING. Random forest. GEBV. Marker effect. Heritability.Item O uso de ciência de dados e inteligência geográfica como metodologias de políticas públicas para o diagnóstico precoce de tumores(Universidade Federal de Viçosa, 2022-02-24) Vieira, Flávio Ferraz; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/1888783441616975O Hospital do Câncer de Muriaé é um centro de oncologia que tem total pactuação com 83 municípios da Região Geográfica Intermediária de Juiz de Fora. Os tumores dos órgãos digestivos são os mais frequentes dos pacientes da instituição, sendo 19,16% dos casos entre 2010 e 2020. Os principais fatores de risco são o sobrepeso/obesidade e consumo exagerado de produtos com álcool e tabaco. O estado nutricional desses pacientes é obtido nos prontuários eletrônicos da instituição, porém essa informação possui um viés difícil de ser mensurado, pois tumores nos órgãos digestivos tem como consequência a rápida perda de peso. Com isso, este estudo teve como objetivo estimar o estado nutricional do paciente antes do surgimento do tumor utilizando o algoritmo Random Forest, e mapear as classes das variáveis que apresentam maiores proporções dos casos. A estimação pelo algoritmo obteve uma taxa de acurácia de 85,48% sendo considerado satisfatório. O perfil epidemiológico se manteve durante os 11 anos analisados no estudo (2010 - 2020), os perfis mais frequentes foram pacientes masculinos, com idade de 63 anos, casado, com ensino fundamental incompleto, não etilista, tabagista e acima do peso (de acordo com o Índice de Massa Corporal). O teste de Qui-Quadrado de Pearson foi utilizado para verificar a associação entre as variáveis epidemiológicas e letalidade em até 3 anos, o estadiamento e as variáveis de risco, também foi utilizado para verificar o estadiamento e a letalidade entre as variáveis de risco. O teste de associação apresentou significância para quase todas as variáveis, sendo os pacientes com baixa escolaridade com pior taxa. A identificação espacial dos fatores de risco, pacientes com baixa escolaridade e estadiamento avançado apresentou uma associação espacial para a maioria dos municípios do estudo, as regiões imediatas de Ubá e Viçosa apresentaram maior taxa de tabagistas e etilistas do que as outras imediatas, para os pacientes com baixa escolaridade esses foram em proporções maiores em cidades menos desenvolvidas e mais distantes dos municípios de referência das regiões imediatas. Palavras-chave: ELSA. Entrograma. Aprendizado de Máquina. Hospital do Câncer de Muriaé.Item Medidas alternativas para comparação de modelos e aplicação de métodos de aprendizado de máquina e de redução de dimensionalidade para seleção genômica com dados censurados(Universidade Federal de Viçosa, 2020-05-11) Pereira, Geraldo Magela da Cruz; Martins Filho, Sebastião; http://lattes.cnpq.br/3918050985377865Dados censurados são encontrados em diversas características de interesse no melhoramento animal, como por exemplo, tempo ao abate em suínos, idade ao primeiro parto em bovinos, resistência à doença em peixes. A modelagem destas características é comumente realizada via modelos lineares, que podem ou não considerar a natureza censurada dos dados. Os modelos G-BLUP, RR-BLUP e ssGBLUP são exemplos de modelos que não consideram a presença de observações incompletas nos dados. A classe de modelos bayesianos BGLR (Bayesian Generalized Linear Regression), possibilita a modelagem de fenótipos censurados. Recentemente tem surgido o interesse na utilização de modelos de sobrevivência para a análise de dados genômicos com observações censuradas. Neste contexto, estudos que avaliem a utilização de medidas mais adequadas para o cálculo da acurácia e do viés, bem como a utilização de métodos de aprendizado de máquina de sobrevivência, não foram encontrados na literatura consultada. O objetivo geral deste estudo foi contribuir para a discussão acerca das metodologias mais indicadas para a comparação de modelos, e para a realização de predições em estudos de seleção genômica com dados censurados simulados e reais de juvenis de dourada (Sparus aurata). As metodologias propostas foram comparadas com as metodologias tradicionalmente utilizadas em genômica. Para os dados simulados, foram comparadas as medidas de correlação: de Pearson (CP), maximal (CM) e de Pearson para dados censurados (CPC); e de viés: regressão linear simples e regressão Tobit. A predição de valores genéticos genômicos foi realizada pelos modelos misto de Cox e normal truncado, considerando diferentes cenários. Os resultados mostraram, que principalmente no cenário com herdabilidade de QTL igual à 0,27, as medidas CM e/ou CPC, mostraram-se estatisticamente superiores à CP. O coeficiente de regressão associado aos efeitos marginais para dados censurados e não censurados apresentou valores semelhantes aos obtidos pela regressão linear. Do ponto de vista estatístico, as metodologias propostas são mais adequadas para a análise de dados censurados, visto que em sua formulação, elas consideram a presença de fenótipos não observados. Para os dados reais, foi considerada a utilização dos métodos Random Survival Forest (RSF) e Gradient Boosting Machine e Análise de Componentes Principais Supervisionados em seleção genômica, sendo estes comparados ao método Regressão Ridge Bayesiana (BRR). Os modelos foram comparados via validação cruzada 7-fold, pelas medidas Area Under the Curve, Brier Score, correlação de Spearman, e pela proporção de indivíduos selecionados, e também pela localização de SNPs ou grupos de ligação relevantes. Os resultados mostraram que, os modelos RSF e BRR, apresentaram valores estatisticamente iguais de habilidade preditiva. O rank dos Top-40 SNPs obtido pela RSF apresentou maior interseção com os ranks obtidos pelos métodos BRR e modelo misto de Cox. A maior correlação de Spearman entre os GEBVs estimados via BRR e as probabilidades de sobrevivência, foi obtida pela RSF. A utilização de subconjuntos de SNPs selecionados pelos métodos propostos, não resultou em diferenças significativas na habilidade preditiva do modelo misto de Cox. Por fim, nota-se que o método RSF, apresenta um desempenho semelhante ao da BRR, sendo possível sua aplicação em estudos genômicos. Palavras-chave: Seleção genômica ampla. Valores genéticos genômicos. Dados censurados. Modelo misto de Cox. Aprendizado de máquina.Item Predição genômica da resistência à ferrugem alaranjada em café arábica via algoritmos de aprendizagem de máquina(Universidade Federal de Viçosa, 2018-02-26) Sousa, Ithalo Coelho de; Nascimento, Moysés; http://lattes.cnpq.br/1025209026546066A seleção genômica (SG) foi proposta como uma forma de aumentar a eficiência e acelerar o melhoramento genético. A SG enfatiza a predição simultânea dos efeitos genéticos de milhares de marcadores dispersos em todo o genoma de um organismo. Algumas metodologias estatísticas têm sido utilizadas em SG para a predição do mérito genético, como por exemplo a Ridge Regression Best Linear Unbiased Prediction (RR- BLUP), Bayesian Lasso (BLASSO). Porém tais metodologias exigem algumas pressuposições a respeito dos dados tais como normalidade da distribuição dos valores fenotípicos. Além disto, a presença de fatores complicadores tais como epistasia e dominância atrapalham a utilização destes modelos, uma vez que exigem que tais efeitos sejam estabelecidos à priori pelo pesquisador. Visando contornar a não normalidade dos valores fenotípicos a literatura sugere o uso dos modelos lineares generalizados sob o enfoque bayesiano (BGLR). Outra alternativa são os modelos baseados em aprendizagem de máquina (AM), representados por metodologias tais como Redes Neurais (RNA), Árvores de Decisão (AD) e seus possíveis refinamentos (Bagging, Random Forest e Boosting) as quais podem incorporar a epistasia e a dominância no modelo além de não exigirem pressuposições quanto ao modelo e a distribuição dos valores fenotípicos. Diante disso, o objetivo deste trabalho foi utilizar AD e seus refinamentos Bagging, Random Forest e Boosting para predição da resistência a ferrugem alaranjada no café arábica. Além disso, AD e seus refinamentos foram utilizadas para identificar a importância dos marcadores relacionados a característica de interesse. Os resultados foram comparados com aqueles provenientes do GBLASSO (Lasso Bayesiano Generalizado) e RNA. Foram utilizados dados da resistência a ferrugem do café de 245 plantas derivadas do cruzamento do Híbrido de Timor e do Catuaí Amarelo, genotipados para 137 marcadores. A AD e seus refinamentos obtiveram resultados satisfatórios, visto que apresentaram valores iguais ou inferiores de Taxa de Erro Aparente comparados com aqueles obtidos pelo GBLASSO e RNA. Ademais, os refinamentos da AD demonstraram ser capazes de identificar marcadores importantes para característica de interesse, visto que dentre os 10 marcadores mais importantes analisados em cada metodologia, 3-4 marcadores estavam próximos a QTL’s relacionados a resistência a doença listados na literatura. Por fim, a AD e seus refinamentos mostraram um melhor desempenho em relação ao GBLASSO e a RNA quanto ao custo computacional.