Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
8 resultados
Resultados da Pesquisa
Item Otimização do mapeamento de micronutrientes do solo com base em macronutrientes e técnicas de aprendizado estatístico(Universidade Federal de Viçosa, 2024-02-22) Oliveira, Samantha Gouvêa; Santos, Nerilson Terra; http://lattes.cnpq.br/1414362412644484O constante crescimento da população mundial acarreta diretamente no setor agronô- mico, resultando em um aumento na demanda por produção de alimentos, além de gerar preocupações relacionadas a limitações de áreas de cultivo e escassez de mão de obra. Surgem então a agricultura de precisão e a agricultura digital, que são res- ponsáveis por processar um grande volume de informações com o objetivo de promo- ver retorno econômico, vantagem competitiva para o produtor e minimizar os efeitos ao meio ambiente. Nota-se, portanto, a necessidade intrínseca de lidar de forma mais eficiente com os recursos e a variabilidade dos atributos do solo. Um dos ferramentais utilizados para a descrição da variabilidade espacial e mapeamento de atributos é conhecido como geoestatística. Contudo, um dos grandes desafios do método está relacionado com um número mínimo de amostras para realizar as interpolações, o que pode aumentar consideravelmente os gastos e necessidade de mão de obra para um projeto, pois a amostragem envolve a coleta e análise de atributos de todos os pontos previamente estipulados. Com o intuito de contornar a problemática relacionada a amostragem de dados em campo, este trabalho tem como objetivo reduzir o número de amostras analisadas quimicamente para micronutrientes ao predizer suas concen- trações com base nos macronutrientes, utilizando uma combinação de krigagem e métodos de machine learning (KNN). A área experimental é referente a uma parcela da fazenda “Sozinha” localizada em Goianápolis. As 150 amostras foram recolhidas nas profundidades de 0 a 0,2 𝑚, sendo cada uma composta por dez subamostras co- letadas a uma distância de até 5 𝑚 do ponto. Posteriormente foram realizadas análises físicas e químicas para quantificar os atributos presentes. Em seguida foram selecio- nadas grades modificadas (através dos métodos de amostragem aleatória simples (𝐴𝐴𝑆) e Conditioned Latin Hypercube Sampling (𝑐𝐿𝐻𝑆)) com redução de 15, 25 e 35% dos pontos originais, os quais resultaram em conjuntos de treinamento para o KNN. Posteriormente, o algoritmo KNN foi utilizado para predizer esses 23, 38 e 53 pontos amostrados e esses valores preditos foram então substituídos no conjunto de dados original. A seguir os mapas interpolados por malha e tipo de amostragem de cada um dos métodos empregados (krigagem ordinária (OK) e da diferença entre a OK e a krigagem ordinária combinada com KNN) foram obtidos. Todo o processo, desde a amostragem até as interpolações por krigagem, foi repetido por 50 vezes. Para com- parar as interpolações da krigagem ordinária no banco de dados original e nas grades modificadas foi analisada a razão entre a média da raiz quadrada do erro quadrático médio (𝑅𝑀𝑆𝐸) e do erro absoluto médio (𝑀𝐴𝐸) de ambas amostragens e o 𝑅𝑀𝑆𝐸 e 𝑀𝐴𝐸 da krigagem dos dados originais. A amostragem 𝑐𝐿𝐻𝑆 se mostrou melhor em manter as características espaciais do solo (com perda da variabilidade espacial) para os atributos estudados frente a todas as reduções de dimensionalidade quando com- parada a 𝐴𝐴𝑆. Sugere-se para trabalhos futuros, que sejam estudadas novas meto- dologias de machine learning combinadas à krigagem ordinária, além de tipos de amostragem diferentes como forma a avaliar seu comportamento frente a redução do adensamento amostral. Palavras-chave: Redução do adensamento amostral; Krigagem; KNN, Random Forest.Item Redes neurais regularizadas na predição de características agronômicas de soja(Universidade Federal de Viçosa, 2024-04-03) Costa, Noé Mitterhofer Eiterer Ponce de Leon da; Nascimento, Moysés; http://lattes.cnpq.br/9184271760739064Um dos métodos de aprendizado de máquina utilizado atualmente na Seleção Genômica (SG) são as Redes Neurais Artificiais (RNAs) e, dentre estas, a Rede Perceptron de Múltiplas Camadas (PMC). O PMC destaca-se na solução de problemas de classificação ou regressão pelo fato de não exigir um modelo funcional, nem de atender pressuposições e não requerer conhecimento a priori sobre o fenômeno em estudo. No entanto, um problema comum nas PMC é o overfitting, que se trata de um superajustamento da rede aos dados de treinamento. Nestes casos, o modelo não possui capacidade de generalização fazendo que ele seja menos eficaz nas predições em um novo conjunto de dados ou no conjunto de teste. Para contornar este problema, algumas alternativas são as regularizações L1 e L2, que se baseiam nas regressões em penalizações similares aos métodos Lasso e Ridge, respectivamente. O objetivo deste estudo foi avaliar a eficiência do uso da regularização em modelos de PMC aplicados na predição genômica. Além disso, os resultados obtidos foram comparados com outros utilizados em predição genômica, tais como o Perceptron de Múltiplas Camadas (PMC), Árvore de Decisão (AD), Random Forest (RF), Bagging (BAG), Boosting (BOO) e Genomic Best Linear Unbiased Prediction (GBLUP). Os dados são provenientes de 100 genótipos de soja, em um experimento conduzido de setembro a novembro de 2021, no delineamento em blocos ao acaso com três repetições, em que cada parcela foi constituída de uma planta cultivada em um vaso dentro de uma casa de vegetação. Foram avaliadas as características diâmetro de hipocótilo (DH, em milímetros), altura de planta (AP, em centímetros), comprimento total de raiz (CR, em centímetros) e área superficial projetada de raiz (AR, em centímetros quadrados). Na avaliação do PMC regularizado (PMCR), foram utilizados as medidas de capacidade preditiva (CP) e raiz do erro quadrático médio (RMSE) para comparação dos métodos. Em geral, o PMC com regularização L2 melhorou o desempenho em comparação com métodos avaliados em termos de CP e RMSE. Os valores de CP obtidos pelas redes regularizadas L2 foram melhores que todos os métodos avaliados. Especificamente, quando comparado com o segundo o melhor método, os ganhos em termos de CP foram de 6,05%, 25,86%, 32,90% e 0,16% para as características, respectivamente, AP, DH, CR e AR. Já em termos de RMSE, o PMCR apresentou resultados inferiores e desejáveis em 10,81%, 15,00%, 13,62% e 20,41% para as características AP, DH, CR e AR, respectivamente, quando comparado com as redes sem regularização. Quando a comparação é entre todas as metodologias comparativas, o GBLUP obteve o menor valor de RMSE para todas características avaliadas. Palavras-chave: Capacidade Preditiva. Machine Learning. Predição Genômica.Item Análise de fatores para redução de dimensionalidade em estudos de predição genômica(Universidade Federal de Viçosa, 2022-12-12) Oliveira, Cristiano Ferreira; Cruz, Cosme DamiãoO conceito de seleção genômica tem como base o desequilíbrio de ligação (LD) entre locos de características quantitativas (QTLs) e marcadores. Uma variação genética que se relaciona com a forma que o fenótipo é expresso conduz a múltiplas associações estatísticas em marcadores próximos em termos de ligação fatorial ou de desequilíbrio, podendo estas associações ser ou não de causa e efeito. Assim ao construir modelos preditivos, em geral não é conhecido quais SNPs possuem de fato associação de causa e efeito com o fenótipo de interesse, consequentemente o modelo é construído utilizando todas as informações genotípicas. Com o intuito de aumentar a acurácia dos modelos de predição, diferentes abordagens de seleção de marcadores foram propostas. São estratégias utilizadas para isto selecionar SNPs relatados anteriormente em estudos de associação para a característica de interesse, estimar a significância dos SNPs no conjunto de dados para cada característica utilizando um modelo preditivo e o efeito dos marcadores estimados pelo modelo, ou a seleção subconjuntos dos marcadores uniformemente espaçados ao longo do genoma. Dentre as abordagens citadas anteriormente, a seleção uniformemente espaçada ao longo do genoma é a mais versátil, uma vez que um painel de baixa densidade formado por meio dela pode ser utilizado em estudos de predição de valores genéticos de qualquer característica, diferentemente das outras abordagens citadas. Porém esta seleção está sujeita a possibilidade de excluir por completo blocos de haplótipos em LD relacionados com o fenótipo de interesse. Este trabalho foi desenvolvido com o objetivo de propor uma abordagem de seleção de marcadores espaçados dentro de blocos de haplótipos construídos utilizando Análise de Fatores (AF). Mostramos, utilizando dados simulados que a Análise de Fatores pode ser utilizada para construir os blocos de haplótipos, sendo ela capaz de sintetizar a relação linear entre marcadores e criar fatores comuns que podem ser interpretados como blocos de LD. Em seguida utilizamos em um conjunto de dados de soja, contendo 41985 marcadores do tipo SNPs com informação de 20087 acessos de soja, esta abordagem para construir os blocos e então foi feito a seleção espaçada dentro dos blocos formados a partir da AF. Três painéis de SNPs foram considerados, contendo 1%, 5% e 100% dos marcadores. Para avaliar o êxito desta abordagem, foi considerado a acurácia em uma tarefa de predição do valor fenotípico dos indivíduos utilizando os painéis reduzidos e o painel completo. Os resultados mostram que ao utilizar os painéis reduzidos não há diferença significativa de acurácia seletiva comparado a acurácia obtida utilizando o painel completo e para uma das características avaliadas também não foi encontrada diferença significativa para acurácia preditiva. Palavras-chave: SNP. GWS. Seleção de Marcadores. Análise Fatorial. Soja. Aprendizado de Máquina. Blocos de Haplótipos.Item Random Forest Quantílico aplicado em estudos de seleção genômica(Universidade Federal de Viçosa, 2022-11-04) Valadares, Cristiane Botelho; Nascimento, Moysés; http://lattes.cnpq.br/1899074948442515A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.Item Selection indices and support vector machines in the selection of sugarcane families(Universidade Federal de Viçosa, 2022-10-27) Muetanene, Belo Afonso; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3498315508048631The present study aimed to compare selection indices, namely: Smith and Hazel multiplicative, Mulamba and Mock's, and the support vector machines algorithm for sugarcane families selection. We used two datasets, from Moreira et al. (2021) and from Ferreira et al. (2022), both related to the sugarcane breeding program conducted at the Center for Sugar cane Research and Breeding at the Federal University of Viçosa, Oratórios, Minas Gerais. Both experiments were conducted in a randomized complete block design. We constructed the selection indices via mixed models approach. We adopted a selection percentage of 18% of the top families for the selection process. In both studies, we considered as explanatory traits: the number of stalks, stalks diameter and stalk height, and as the response trait the tons of stalks per hectare per family. In the dataset from Ferreira et al. (2022), the support vector machine was a better approach to select sugarcane families by learning from the data after multivariate simulation. Whereas in the dataset from Moreira et al. (2021), using similar methodology, lower performance for support vector machines was obtained. Keywords: Synthetic data. Indirect selection. Yield prediction. Machine learning. BLUPItem Computational intelligence and statistical learning applied to Coffea canephora(Universidade Federal de Viçosa, 2022-05-02) Sousa, Ithalo Coelho de; Nascimento, Moysés; http://lattes.cnpq.br/1025209026546066Genomic prediction in Coffee breeding has shown good potential in predictive ability (PA), genetic gains and reduction of the selection cycle time. Many methodologies are used to predict the genetic merit, but some of them require priori assumptions that may increase the complexity of the model. Artificial neural network (ANN) has advantage to not require priori assumptions about the relationships between inputs and the output allowing great flexibility to handle different types of complex non-additive effects, such as dominance and epistasis. Despite this advantage, the biological interpretability of ANNs is still limited. In the elaboration of this research project, two basic questions were formulated. The first question, is it possible to estimate genetic parameters using ANNs? The second, is it possible to reduce the panel marker size with no penalty in predictive ability? For this, the analyzes were divided into two articles. In the first article, the aim was to estimate the heritability and markers effects for two traits in Coffea canephora using an additive-dominance architecture ANN and to compare it with genomic best linear unbiased prediction (GBLUP). In the second article, the aim was to evaluate the trade-off between density marker panels size and the PA for eight agronomic traits in Coffea canephora using machine learning (bagging and random forest) algorithms and comparing them with BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator) method. For both article, the data set consisted of 165 genotypes of Coffea canephora genotyped for 14,387 snp markers, after quality control analysis. For the first article the phenotypic data used was rust (Rus) and yield (Y). For the second article the phenotypic data is composed by vegetative vigor (Vig), rust (Rus) and cercosporiose incidence (Cer), fruit maturation time (Mat), fruit size (FS), plant height (PH), diameter of the canopy projection (DC) and yield (Y). In the first article we reduced the dimensionality of the data using bagging decision tree and then run 64,000 neural networks for each trait selecting the best architecture based on predictive ability for estimating the heritability, obtained results compatibles with those in literature. In the second article, 12 different density market panels were used to evaluate the effect of dimensionality reduction in PA. The common trend observed in the analysis shows an increase of the PA as the number of markers decreases, having a peak in most of the cases when used between 500 and 1,000 markers. In general, the worst results were obtained when used the full SNP panel density. The results of the second article indicate that the reduction of the number of markers can improve the selection of individuals at a lower cost. Computational Intelligence methods prove to be powerful tools for predicting genetic values, to estimate genetic parameters and to select markers. Keywords: GBLUP. BLASSO. BAGGING. Random forest. GEBV. Marker effect. Heritability.Item O uso de ciência de dados e inteligência geográfica como metodologias de políticas públicas para o diagnóstico precoce de tumores(Universidade Federal de Viçosa, 2022-02-24) Vieira, Flávio Ferraz; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/1888783441616975O Hospital do Câncer de Muriaé é um centro de oncologia que tem total pactuação com 83 municípios da Região Geográfica Intermediária de Juiz de Fora. Os tumores dos órgãos digestivos são os mais frequentes dos pacientes da instituição, sendo 19,16% dos casos entre 2010 e 2020. Os principais fatores de risco são o sobrepeso/obesidade e consumo exagerado de produtos com álcool e tabaco. O estado nutricional desses pacientes é obtido nos prontuários eletrônicos da instituição, porém essa informação possui um viés difícil de ser mensurado, pois tumores nos órgãos digestivos tem como consequência a rápida perda de peso. Com isso, este estudo teve como objetivo estimar o estado nutricional do paciente antes do surgimento do tumor utilizando o algoritmo Random Forest, e mapear as classes das variáveis que apresentam maiores proporções dos casos. A estimação pelo algoritmo obteve uma taxa de acurácia de 85,48% sendo considerado satisfatório. O perfil epidemiológico se manteve durante os 11 anos analisados no estudo (2010 - 2020), os perfis mais frequentes foram pacientes masculinos, com idade de 63 anos, casado, com ensino fundamental incompleto, não etilista, tabagista e acima do peso (de acordo com o Índice de Massa Corporal). O teste de Qui-Quadrado de Pearson foi utilizado para verificar a associação entre as variáveis epidemiológicas e letalidade em até 3 anos, o estadiamento e as variáveis de risco, também foi utilizado para verificar o estadiamento e a letalidade entre as variáveis de risco. O teste de associação apresentou significância para quase todas as variáveis, sendo os pacientes com baixa escolaridade com pior taxa. A identificação espacial dos fatores de risco, pacientes com baixa escolaridade e estadiamento avançado apresentou uma associação espacial para a maioria dos municípios do estudo, as regiões imediatas de Ubá e Viçosa apresentaram maior taxa de tabagistas e etilistas do que as outras imediatas, para os pacientes com baixa escolaridade esses foram em proporções maiores em cidades menos desenvolvidas e mais distantes dos municípios de referência das regiões imediatas. Palavras-chave: ELSA. Entrograma. Aprendizado de Máquina. Hospital do Câncer de Muriaé.Item Medidas alternativas para comparação de modelos e aplicação de métodos de aprendizado de máquina e de redução de dimensionalidade para seleção genômica com dados censurados(Universidade Federal de Viçosa, 2020-05-11) Pereira, Geraldo Magela da Cruz; Martins Filho, Sebastião; http://lattes.cnpq.br/3918050985377865Dados censurados são encontrados em diversas características de interesse no melhoramento animal, como por exemplo, tempo ao abate em suínos, idade ao primeiro parto em bovinos, resistência à doença em peixes. A modelagem destas características é comumente realizada via modelos lineares, que podem ou não considerar a natureza censurada dos dados. Os modelos G-BLUP, RR-BLUP e ssGBLUP são exemplos de modelos que não consideram a presença de observações incompletas nos dados. A classe de modelos bayesianos BGLR (Bayesian Generalized Linear Regression), possibilita a modelagem de fenótipos censurados. Recentemente tem surgido o interesse na utilização de modelos de sobrevivência para a análise de dados genômicos com observações censuradas. Neste contexto, estudos que avaliem a utilização de medidas mais adequadas para o cálculo da acurácia e do viés, bem como a utilização de métodos de aprendizado de máquina de sobrevivência, não foram encontrados na literatura consultada. O objetivo geral deste estudo foi contribuir para a discussão acerca das metodologias mais indicadas para a comparação de modelos, e para a realização de predições em estudos de seleção genômica com dados censurados simulados e reais de juvenis de dourada (Sparus aurata). As metodologias propostas foram comparadas com as metodologias tradicionalmente utilizadas em genômica. Para os dados simulados, foram comparadas as medidas de correlação: de Pearson (CP), maximal (CM) e de Pearson para dados censurados (CPC); e de viés: regressão linear simples e regressão Tobit. A predição de valores genéticos genômicos foi realizada pelos modelos misto de Cox e normal truncado, considerando diferentes cenários. Os resultados mostraram, que principalmente no cenário com herdabilidade de QTL igual à 0,27, as medidas CM e/ou CPC, mostraram-se estatisticamente superiores à CP. O coeficiente de regressão associado aos efeitos marginais para dados censurados e não censurados apresentou valores semelhantes aos obtidos pela regressão linear. Do ponto de vista estatístico, as metodologias propostas são mais adequadas para a análise de dados censurados, visto que em sua formulação, elas consideram a presença de fenótipos não observados. Para os dados reais, foi considerada a utilização dos métodos Random Survival Forest (RSF) e Gradient Boosting Machine e Análise de Componentes Principais Supervisionados em seleção genômica, sendo estes comparados ao método Regressão Ridge Bayesiana (BRR). Os modelos foram comparados via validação cruzada 7-fold, pelas medidas Area Under the Curve, Brier Score, correlação de Spearman, e pela proporção de indivíduos selecionados, e também pela localização de SNPs ou grupos de ligação relevantes. Os resultados mostraram que, os modelos RSF e BRR, apresentaram valores estatisticamente iguais de habilidade preditiva. O rank dos Top-40 SNPs obtido pela RSF apresentou maior interseção com os ranks obtidos pelos métodos BRR e modelo misto de Cox. A maior correlação de Spearman entre os GEBVs estimados via BRR e as probabilidades de sobrevivência, foi obtida pela RSF. A utilização de subconjuntos de SNPs selecionados pelos métodos propostos, não resultou em diferenças significativas na habilidade preditiva do modelo misto de Cox. Por fim, nota-se que o método RSF, apresenta um desempenho semelhante ao da BRR, sendo possível sua aplicação em estudos genômicos. Palavras-chave: Seleção genômica ampla. Valores genéticos genômicos. Dados censurados. Modelo misto de Cox. Aprendizado de máquina.