Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 5 de 5
  • Imagem de Miniatura
    Item
    Decision tree e geoestatística na redução do número de análises de micronutrientes do solo
    (Universidade Federal de Viçosa, 2024-02-23) Batista, Luciano Gonçalves; Santos, Nerilson Terra; http://lattes.cnpq.br/4291726476430377
    Para realizar a interpolação por krigagem, é importante que cada ponto num semivariograma seja obtido com base no mínimo da combinação de 30 pares de pontos. Além disso, alguns autores alegam que é necessário ter pelo menos 100 amostras para fazer a interpolação. Sendo assim, o processo de amostragem se torna caro para o produtor rural. Como alternativa de contornar este problema de amostragem, foi utilizado metodologias de machine learning. O objetivo principal deste trabalho é avaliar o uso da metodologia de decision tree na redução do adensamento amostral para atributos do solo visando a realização da krigagem ordinária com tamanho amostral reduzido. Para isso, foi realizado 50 amostragem pelo algoritmo Latin Hypercube Sampling (LHS), com malhas contendo 82, 112 e 127 pontos amostrados e os valores faltantes foram preditos com decision tree, até completar 150 pontos e logo em seguida foi realizado a krigagem ordinária para as malhas 𝑀𝑅127, 𝑀𝑅112 e 𝑀𝑅82 , que foi gerado pela combinação das 50 predições por decision tree e avaliados os valores da Raiz Quadrada do Erro Médio (RMSE) e Média do Erro Absoluto (MAE), denominados RMSE_Krig e MAE_Krig. Foi percebido que há uma redução nestas estatísticas ao passo que aumentamos a redução amostral. A redução das estatísticas de validação indica que à medida que aumentamos a quantidade de amostras preditas com decision tree, há uma melhoria no modelo de krigagem ordinária. Ao fazer o mapa de atributos para as malhas reduzidas, é percebido que o padrão de concentração de nutrientes dos solos nas malhas reduzidas segue semelhante ao padrão original, ou seja, regiões com maiores concentrações ainda mantêm níveis elevados, enquanto aquelas com menores concentrações continuam a apresentar índices reduzidos. Ao fazer o mapa de atributos das malhas reduzidas é percebido que o padrão de concentração de micronutrientes dos solos nas malhas reduzidas segue semelhante ao padrão original, ou seja, zonas com maiores concentrações ainda continuam com concentrações elevadas e regiões com menores concentrações continuam com concentrações menores. Com isso, a decision tree, se mostrou eficiente em preservar o padrão de distribuição dos micronutrientes. Palavras-chave: Adensamento amostral; Aprendizado estatístico; Krigagem ordinária.
  • Imagem de Miniatura
    Item
    Otimização do mapeamento de micronutrientes do solo com base em macronutrientes e técnicas de aprendizado estatístico
    (Universidade Federal de Viçosa, 2024-02-22) Oliveira, Samantha Gouvêa; Santos, Nerilson Terra; http://lattes.cnpq.br/1414362412644484
    O constante crescimento da população mundial acarreta diretamente no setor agronô- mico, resultando em um aumento na demanda por produção de alimentos, além de gerar preocupações relacionadas a limitações de áreas de cultivo e escassez de mão de obra. Surgem então a agricultura de precisão e a agricultura digital, que são res- ponsáveis por processar um grande volume de informações com o objetivo de promo- ver retorno econômico, vantagem competitiva para o produtor e minimizar os efeitos ao meio ambiente. Nota-se, portanto, a necessidade intrínseca de lidar de forma mais eficiente com os recursos e a variabilidade dos atributos do solo. Um dos ferramentais utilizados para a descrição da variabilidade espacial e mapeamento de atributos é conhecido como geoestatística. Contudo, um dos grandes desafios do método está relacionado com um número mínimo de amostras para realizar as interpolações, o que pode aumentar consideravelmente os gastos e necessidade de mão de obra para um projeto, pois a amostragem envolve a coleta e análise de atributos de todos os pontos previamente estipulados. Com o intuito de contornar a problemática relacionada a amostragem de dados em campo, este trabalho tem como objetivo reduzir o número de amostras analisadas quimicamente para micronutrientes ao predizer suas concen- trações com base nos macronutrientes, utilizando uma combinação de krigagem e métodos de machine learning (KNN). A área experimental é referente a uma parcela da fazenda “Sozinha” localizada em Goianápolis. As 150 amostras foram recolhidas nas profundidades de 0 a 0,2 𝑚, sendo cada uma composta por dez subamostras co- letadas a uma distância de até 5 𝑚 do ponto. Posteriormente foram realizadas análises físicas e químicas para quantificar os atributos presentes. Em seguida foram selecio- nadas grades modificadas (através dos métodos de amostragem aleatória simples (𝐴𝐴𝑆) e Conditioned Latin Hypercube Sampling (𝑐𝐿𝐻𝑆)) com redução de 15, 25 e 35% dos pontos originais, os quais resultaram em conjuntos de treinamento para o KNN. Posteriormente, o algoritmo KNN foi utilizado para predizer esses 23, 38 e 53 pontos amostrados e esses valores preditos foram então substituídos no conjunto de dados original. A seguir os mapas interpolados por malha e tipo de amostragem de cada um dos métodos empregados (krigagem ordinária (OK) e da diferença entre a OK e a krigagem ordinária combinada com KNN) foram obtidos. Todo o processo, desde a amostragem até as interpolações por krigagem, foi repetido por 50 vezes. Para com- parar as interpolações da krigagem ordinária no banco de dados original e nas grades modificadas foi analisada a razão entre a média da raiz quadrada do erro quadrático médio (𝑅𝑀𝑆𝐸) e do erro absoluto médio (𝑀𝐴𝐸) de ambas amostragens e o 𝑅𝑀𝑆𝐸 e 𝑀𝐴𝐸 da krigagem dos dados originais. A amostragem 𝑐𝐿𝐻𝑆 se mostrou melhor em manter as características espaciais do solo (com perda da variabilidade espacial) para os atributos estudados frente a todas as reduções de dimensionalidade quando com- parada a 𝐴𝐴𝑆. Sugere-se para trabalhos futuros, que sejam estudadas novas meto- dologias de machine learning combinadas à krigagem ordinária, além de tipos de amostragem diferentes como forma a avaliar seu comportamento frente a redução do adensamento amostral. Palavras-chave: Redução do adensamento amostral; Krigagem; KNN, Random Forest.
  • Imagem de Miniatura
    Item
    Redes neurais regularizadas na predição de características agronômicas de soja
    (Universidade Federal de Viçosa, 2024-04-03) Costa, Noé Mitterhofer Eiterer Ponce de Leon da; Nascimento, Moysés; http://lattes.cnpq.br/9184271760739064
    Um dos métodos de aprendizado de máquina utilizado atualmente na Seleção Genômica (SG) são as Redes Neurais Artificiais (RNAs) e, dentre estas, a Rede Perceptron de Múltiplas Camadas (PMC). O PMC destaca-se na solução de problemas de classificação ou regressão pelo fato de não exigir um modelo funcional, nem de atender pressuposições e não requerer conhecimento a priori sobre o fenômeno em estudo. No entanto, um problema comum nas PMC é o overfitting, que se trata de um superajustamento da rede aos dados de treinamento. Nestes casos, o modelo não possui capacidade de generalização fazendo que ele seja menos eficaz nas predições em um novo conjunto de dados ou no conjunto de teste. Para contornar este problema, algumas alternativas são as regularizações L1 e L2, que se baseiam nas regressões em penalizações similares aos métodos Lasso e Ridge, respectivamente. O objetivo deste estudo foi avaliar a eficiência do uso da regularização em modelos de PMC aplicados na predição genômica. Além disso, os resultados obtidos foram comparados com outros utilizados em predição genômica, tais como o Perceptron de Múltiplas Camadas (PMC), Árvore de Decisão (AD), Random Forest (RF), Bagging (BAG), Boosting (BOO) e Genomic Best Linear Unbiased Prediction (GBLUP). Os dados são provenientes de 100 genótipos de soja, em um experimento conduzido de setembro a novembro de 2021, no delineamento em blocos ao acaso com três repetições, em que cada parcela foi constituída de uma planta cultivada em um vaso dentro de uma casa de vegetação. Foram avaliadas as características diâmetro de hipocótilo (DH, em milímetros), altura de planta (AP, em centímetros), comprimento total de raiz (CR, em centímetros) e área superficial projetada de raiz (AR, em centímetros quadrados). Na avaliação do PMC regularizado (PMCR), foram utilizados as medidas de capacidade preditiva (CP) e raiz do erro quadrático médio (RMSE) para comparação dos métodos. Em geral, o PMC com regularização L2 melhorou o desempenho em comparação com métodos avaliados em termos de CP e RMSE. Os valores de CP obtidos pelas redes regularizadas L2 foram melhores que todos os métodos avaliados. Especificamente, quando comparado com o segundo o melhor método, os ganhos em termos de CP foram de 6,05%, 25,86%, 32,90% e 0,16% para as características, respectivamente, AP, DH, CR e AR. Já em termos de RMSE, o PMCR apresentou resultados inferiores e desejáveis em 10,81%, 15,00%, 13,62% e 20,41% para as características AP, DH, CR e AR, respectivamente, quando comparado com as redes sem regularização. Quando a comparação é entre todas as metodologias comparativas, o GBLUP obteve o menor valor de RMSE para todas características avaliadas. Palavras-chave: Capacidade Preditiva. Machine Learning. Predição Genômica.
  • Imagem de Miniatura
    Item
    Random Forest Quantílico aplicado em estudos de seleção genômica
    (Universidade Federal de Viçosa, 2022-11-04) Valadares, Cristiane Botelho; Nascimento, Moysés; http://lattes.cnpq.br/1899074948442515
    A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.
  • Imagem de Miniatura
    Item
    Selection indices and support vector machines in the selection of sugarcane families
    (Universidade Federal de Viçosa, 2022-10-27) Muetanene, Belo Afonso; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3498315508048631
    The present study aimed to compare selection indices, namely: Smith and Hazel multiplicative, Mulamba and Mock's, and the support vector machines algorithm for sugarcane families selection. We used two datasets, from Moreira et al. (2021) and from Ferreira et al. (2022), both related to the sugarcane breeding program conducted at the Center for Sugar cane Research and Breeding at the Federal University of Viçosa, Oratórios, Minas Gerais. Both experiments were conducted in a randomized complete block design. We constructed the selection indices via mixed models approach. We adopted a selection percentage of 18% of the top families for the selection process. In both studies, we considered as explanatory traits: the number of stalks, stalks diameter and stalk height, and as the response trait the tons of stalks per hectare per family. In the dataset from Ferreira et al. (2022), the support vector machine was a better approach to select sugarcane families by learning from the data after multivariate simulation. Whereas in the dataset from Moreira et al. (2021), using similar methodology, lower performance for support vector machines was obtained. Keywords: Synthetic data. Indirect selection. Yield prediction. Machine learning. BLUP