Redes neurais regularizadas na predição de características agronômicas de soja

dc.contributorNascimento, Ana Carolina Campana
dc.contributorAzevedo, Camila Ferreira
dc.contributor.advisorNascimento, Moysés
dc.contributor.authorCosta, Noé Mitterhofer Eiterer Ponce de Leon da
dc.contributor.authorLatteshttp://lattes.cnpq.br/9184271760739064pt-BR
dc.date.accessioned2024-06-07T14:20:18Z
dc.date.available2024-06-07T14:20:18Z
dc.date.issued2024-04-03
dc.degree.date2024-04-03
dc.degree.departmentDepartamento de Estatísticapt-BR
dc.degree.grantorUniversidade Federal de Viçosapt-BR
dc.degree.levelDoutoradopt-BR
dc.degree.localViçosa - MGpt-BR
dc.degree.programDoutor em Estatística Aplicada e Biometriapt-BR
dc.description.abstractUm dos métodos de aprendizado de máquina utilizado atualmente na Seleção Genômica (SG) são as Redes Neurais Artificiais (RNAs) e, dentre estas, a Rede Perceptron de Múltiplas Camadas (PMC). O PMC destaca-se na solução de problemas de classificação ou regressão pelo fato de não exigir um modelo funcional, nem de atender pressuposições e não requerer conhecimento a priori sobre o fenômeno em estudo. No entanto, um problema comum nas PMC é o overfitting, que se trata de um superajustamento da rede aos dados de treinamento. Nestes casos, o modelo não possui capacidade de generalização fazendo que ele seja menos eficaz nas predições em um novo conjunto de dados ou no conjunto de teste. Para contornar este problema, algumas alternativas são as regularizações L1 e L2, que se baseiam nas regressões em penalizações similares aos métodos Lasso e Ridge, respectivamente. O objetivo deste estudo foi avaliar a eficiência do uso da regularização em modelos de PMC aplicados na predição genômica. Além disso, os resultados obtidos foram comparados com outros utilizados em predição genômica, tais como o Perceptron de Múltiplas Camadas (PMC), Árvore de Decisão (AD), Random Forest (RF), Bagging (BAG), Boosting (BOO) e Genomic Best Linear Unbiased Prediction (GBLUP). Os dados são provenientes de 100 genótipos de soja, em um experimento conduzido de setembro a novembro de 2021, no delineamento em blocos ao acaso com três repetições, em que cada parcela foi constituída de uma planta cultivada em um vaso dentro de uma casa de vegetação. Foram avaliadas as características diâmetro de hipocótilo (DH, em milímetros), altura de planta (AP, em centímetros), comprimento total de raiz (CR, em centímetros) e área superficial projetada de raiz (AR, em centímetros quadrados). Na avaliação do PMC regularizado (PMCR), foram utilizados as medidas de capacidade preditiva (CP) e raiz do erro quadrático médio (RMSE) para comparação dos métodos. Em geral, o PMC com regularização L2 melhorou o desempenho em comparação com métodos avaliados em termos de CP e RMSE. Os valores de CP obtidos pelas redes regularizadas L2 foram melhores que todos os métodos avaliados. Especificamente, quando comparado com o segundo o melhor método, os ganhos em termos de CP foram de 6,05%, 25,86%, 32,90% e 0,16% para as características, respectivamente, AP, DH, CR e AR. Já em termos de RMSE, o PMCR apresentou resultados inferiores e desejáveis em 10,81%, 15,00%, 13,62% e 20,41% para as características AP, DH, CR e AR, respectivamente, quando comparado com as redes sem regularização. Quando a comparação é entre todas as metodologias comparativas, o GBLUP obteve o menor valor de RMSE para todas características avaliadas. Palavras-chave: Capacidade Preditiva. Machine Learning. Predição Genômica.pt-BR
dc.description.abstractOne of the machine learning methods currently used in Genomic Selection (GS) are Artificial Neural Networks (ANNs) and, among these, the Multilayer Perceptron Network (MLP). MLP stands out in solving classification or regression problems because it does not require a functional model, nor does it meet presuppositions and does not require a priori knowledge about the phenomenon under study. However, a common problem in MLP is overfitting, which is an overfitting of the network to the training data. In these cases, the model does not have generalization capacity, making it less effective in making predictions on a new set of data or on the test set. To overcome this problem, some alternatives are L1 and L2 regularizations, which are based on regressions in penalties similar to the Lasso and Ridge methods, respectively. The objective of this study was to evaluate the efficiency of using regularization in MLP models applied in genomic prediction. Furthermore, the results obtained were compared with others used in genomic prediction, such as Multilayer Perceptron (MLP), Decision Tree (DT), Random Forest (RF), Bagging (BAG), Boosting (BOO) and Genomic Best Linear Unbiased Prediction (GBLUP). The data come from 100 soybean genotypes, in an experiment conducted from September to November 2021, in a randomized block design with three replications, in which each plot consisted of a plant grown in a pot inside a greenhouse. The characteristics of hypocotyl diameter (HD, in millimeters), plant height (PH, in centimeters), total root length (RL, in centimeters) and projected root surface area (SA, in square centimeters) were evaluated. In evaluating the regularized MPL (MPLR), the predictive capacity (PC) and root mean square error (RMSE) measures were used to compare the methods. In general, MPL with L2 regularization improved performance compared to methods evaluated in terms of PC and RMSE. The PC values obtained by the L2 regularized networks were better than all the methods evaluated. Specifically, when compared with the second best method, the gains in terms of PC were 6.05%, 25.86%, 32.90% and 0.16% for the characteristics, respectively, PH, HD, RL and SA. In terms of RMSE, the MPLR presented inferior and desirable results at 10.81%, 15.00%, 13.62% and 20.41% for the characteristics PH, HD, RL and SA, respectively, when compared with the networks without regularization. When the comparison is between all comparative methodologies, GBLUP obtained the lowest RMSE value for all characteristics evaluated. Keywords: Predictive Capacity. Machine Learning. Genomic Prediction.en
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt-BR
dc.identifier.citationCOSTA, Noé Mitterhofer Eiterer Ponce de Leon da. Redes neurais regularizadas na predição de características agronômicas de soja. 2024. 54 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2024.pt-BR
dc.identifier.doihttps://doi.org/10.47328/ufvbbt.2024.130pt-BR
dc.identifier.urihttps://locus.ufv.br//handle/123456789/32308
dc.language.isoporpt-BR
dc.publisherUniversidade Federal de Viçosapt-BR
dc.publisher.programEstatística Aplicada e Biometriapt-BR
dc.rightsAcesso Abertopt-BR
dc.subjectTeoria bayesiana de decisão estatísticapt-BR
dc.subjectGenômicapt-BR
dc.subjectRedes neurais (Computação)pt-BR
dc.subjectAprendizado do computadorpt-BR
dc.subjectControle preditivopt-BR
dc.subjectSoja - Melhoramento genético - Métodos estatísticospt-BR
dc.subject.cnpqEstatística Aplicada e Biometriapt-BR
dc.titleRedes neurais regularizadas na predição de características agronômicas de sojapt-BR
dc.titleRegularized neural networks to predict soybean agronomic traitsen
dc.typeTesept-BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
texto completo.pdf
Tamanho:
953.26 KB
Formato:
Adobe Portable Document Format
Descrição:
texto completo

Licença do pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: