Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 2 de 2
  • Imagem de Miniatura
    Item
    Redes neurais regularizadas na predição de características agronômicas de soja
    (Universidade Federal de Viçosa, 2024-04-03) Costa, Noé Mitterhofer Eiterer Ponce de Leon da; Nascimento, Moysés; http://lattes.cnpq.br/9184271760739064
    Um dos métodos de aprendizado de máquina utilizado atualmente na Seleção Genômica (SG) são as Redes Neurais Artificiais (RNAs) e, dentre estas, a Rede Perceptron de Múltiplas Camadas (PMC). O PMC destaca-se na solução de problemas de classificação ou regressão pelo fato de não exigir um modelo funcional, nem de atender pressuposições e não requerer conhecimento a priori sobre o fenômeno em estudo. No entanto, um problema comum nas PMC é o overfitting, que se trata de um superajustamento da rede aos dados de treinamento. Nestes casos, o modelo não possui capacidade de generalização fazendo que ele seja menos eficaz nas predições em um novo conjunto de dados ou no conjunto de teste. Para contornar este problema, algumas alternativas são as regularizações L1 e L2, que se baseiam nas regressões em penalizações similares aos métodos Lasso e Ridge, respectivamente. O objetivo deste estudo foi avaliar a eficiência do uso da regularização em modelos de PMC aplicados na predição genômica. Além disso, os resultados obtidos foram comparados com outros utilizados em predição genômica, tais como o Perceptron de Múltiplas Camadas (PMC), Árvore de Decisão (AD), Random Forest (RF), Bagging (BAG), Boosting (BOO) e Genomic Best Linear Unbiased Prediction (GBLUP). Os dados são provenientes de 100 genótipos de soja, em um experimento conduzido de setembro a novembro de 2021, no delineamento em blocos ao acaso com três repetições, em que cada parcela foi constituída de uma planta cultivada em um vaso dentro de uma casa de vegetação. Foram avaliadas as características diâmetro de hipocótilo (DH, em milímetros), altura de planta (AP, em centímetros), comprimento total de raiz (CR, em centímetros) e área superficial projetada de raiz (AR, em centímetros quadrados). Na avaliação do PMC regularizado (PMCR), foram utilizados as medidas de capacidade preditiva (CP) e raiz do erro quadrático médio (RMSE) para comparação dos métodos. Em geral, o PMC com regularização L2 melhorou o desempenho em comparação com métodos avaliados em termos de CP e RMSE. Os valores de CP obtidos pelas redes regularizadas L2 foram melhores que todos os métodos avaliados. Especificamente, quando comparado com o segundo o melhor método, os ganhos em termos de CP foram de 6,05%, 25,86%, 32,90% e 0,16% para as características, respectivamente, AP, DH, CR e AR. Já em termos de RMSE, o PMCR apresentou resultados inferiores e desejáveis em 10,81%, 15,00%, 13,62% e 20,41% para as características AP, DH, CR e AR, respectivamente, quando comparado com as redes sem regularização. Quando a comparação é entre todas as metodologias comparativas, o GBLUP obteve o menor valor de RMSE para todas características avaliadas. Palavras-chave: Capacidade Preditiva. Machine Learning. Predição Genômica.
  • Imagem de Miniatura
    Item
    Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
    (Universidade Federal de Viçosa, 2023-02-16) Costa, Noé Mitterhofer Eiterer Ponce de Leon da; Nascimento, Moysés; http://lattes.cnpq.br/9184271760739064
    O aumento populacional gera uma demanda para o aumento da produção agrícola, principalmente no quesito da produtividade, uma vez que quase todas as áreas agricultáveis já produzem alimentos. Dentro da demanda do aumento de produtividade, o melhoramento genético aliado a estatística é fundamental para alcançar as atuais demandas. A Estatística oferece diversos métodos para análises dos dados agropecuários, entre esses métodos estão os classificadores. Tais métodos são capazes de alocar cada observação em uma das classes de interesse. Entre os métodos disponíveis, o classificador Naive Bayes (NB) se destaca pela sua simplicidade e bom desempenho. Entretanto, o mesmo tem como pressuposição a independência entre as variáveis preditoras. Diante do fato de que tal pressuposição é dificilmente alcançada na prática, este trabalho tem por objetivo avaliar métodos híbridos na tentativa de melhorar seu desempenho considerando diferentes níveis de dependência entre variáveis. As metodologias combinadas ao NB foram à análise de componentes principais (PCA + NB), componentes esparsos (SPCA + NB) e análise discriminante (AD + NB). Foram simulados dados com diferentes níveis de correlação (0,10; 0,50 e 0,90) e diferentes vetores de médias. Todos os cenários foram avaliados considerando 2, 4, 8 e 16 variáveis. As metodologias usadas na comparação dos métodos propostos foram Random Forest, Bagging e Rede Neural Artificial através do cálculo da acurácia média e o respectivo erro padrão da média. A partir dos resultados obtidos por simulação pôde-se concluir que a pressuposição de independência é importante, uma vez que o aumento na correlação sempre resultou em redução da acurácia média dos classificadores. Os classificadores híbridos propostos no trabalho apresentaram-se como boas alternativas ao NB, uma vez que apresentaram resultados semelhantes ou superiores ao próprio NB e demais métodos avaliados quanto a acurácia média. Palavras-chave: Classificador híbrido. Metodologias combinadas. Simulação.