Stacking Ensemble Learning para seleção genômica em características complexas

dc.contributorNascimento, Ana Carolina Campana
dc.contributor.advisorNascimento, Moysés
dc.contributor.authorCeleri, Maurício de Oliveira
dc.contributor.authorLatteshttp://lattes.cnpq.br/2569243563413784
dc.date.accessioned2025-11-25T15:16:12Z
dc.date.issued2025-07-09
dc.degree.date2025-07-09
dc.degree.departmentDepartamento de Estatísticapt-BR
dc.degree.grantorUniversidade Federal de Viçosa
dc.degree.levelDoutorado
dc.degree.localViçosa - MG
dc.degree.programDoutor em Estatística Aplicada e Biometria
dc.description.abstractA seleção genômica (SG), proposta pela primeira vez por Mewissen et al. em 2001, tem por objetivo estimar os valores genéticos genômicos como uma soma dos efeitos de todos os marcadores distribuídos ao longo do genoma. A possibilidade de reduzir o tempo necessário para desenvolvimento de novas variedades torna a SG um componente primordial em programas de melhoramento. No entanto um ponto crucial na SG é decidir qual método estatísticas será utilizado para estimação dos efeitos de marcadores e, posteriormente, predizer os valores genéticos genômicos de indivíduos não fenotipados. Diversas metodologias foram propostas, como, por exemplo, o GBLUP, as Redes Neurais Artificiais e o alfabeto bayesiano. Em especial para características genéticas quantitativas, alguns métodos podem apresentar limitações devido à complexidade. Recentemente uma classe de modelos de aprendizagem em conjunto vem ganhando destaque nos estudos de seleção e predição genômica: a aprendizagem ensemble, em especial o stacking. Stacking é uma forma usual de método ensemble onde a predição de cada um dos modelos usados na aprendizagem de base é usada como variáveis de entrada para treinar um novo modelo de regressão para a predição final, podendo apresentar maior poder de generalização e representações não lineares. O objetivo deste trabalho é avaliar diferentes configurações para os métodos stacking em predição genômica de características complexas. Para isso, será utilizado um conjunto de dados simulados com 10 características fenotípicas distintas, cada qual com uma arquitetura genética própria. A validação cruzada foi 5-fold e foram testadas diferentes formas de se selecionar os aprendizes de base provindas de modelos como GBLUP, splines de regressão adaptativa multivariada, Bayes A, Bayes A com inclusão de efeitos de dominância, Bayes B, árvore de regressão, bagging, boosting e random forest. Diferentes formas de predição final, escolhidas entre mínimos quadrados ordinários e dos métodos para solução da multicolinearidade: regressão ridge, LASSO, regressão de componentes principais, regressão de fatores e redes neurais artificiais. Os resultados mostram um ganho de até 82,76% na capacidade preditiva quando utilizado as predições de aprendizes de base que apresentaram capacidade preditiva acima da média de capacidades preditivas de treinamento e quando feita a seleção pelo quantil 75% da distribuição das capacidades preditivas. Dentre todos os meta-aprendizes utilizados foi observado que os métodos baseados em redução de dimensionalidade e penalização apresentaram melhores resultados de predição. Palavras-chave: seleção genômica; stacking ensemble learning; efeitos não aditivospt-BR
dc.description.abstractGenomic selection (GS), first proposed by Meuwissen et al. (2001), aims to estimate genomic estimated breeding values as the sum of the effects of all markers distributed across the genome. The potential to shorten the time required to develop new varieties makes genomic selection (GS) a cornerstone of modern breeding programs. However, a critical aspect of GS lies in choosing the statistical method used to estimate marker effects and, subsequently, to predict genomic estimated breeding values for non-phenotyped individuals. Various methodologies have been proposed, such as Genomic Best Linear Unbiased Prediction (GBLUP), Artificial Neural Networks, and the Bayesian alphabet. For quantitative genetic traits, some methods may exhibit limitations due to their inherent complexity. Recently, a class of ensemble learning models has gained prominence in genomic selection and prediction studies: ensemble learning, particularly stacking. Stacking is a common ensemble method in which the predictions from each base learner are used as input features to train a new regression model for the final prediction, potentially yielding greater generalization ability and capturing nonlinear relationships. The objective of this study is to evaluate different configurations of stacking methods for genomic prediction of complex traits. To this end, a simulated dataset comprising 10 distinct phenotypic traits, each with its own genetic architecture, will be used. A 5-fold cross- validation scheme was employed, and different strategies for selecting base learners—derived from models such as GBLUP, Multivariate Adaptive Regression Splines, BayesA, BayesA with dominance effects, BayesB, regression trees, bagging, boosting, and Random Forest were evaluated. Additionally, multiple approaches for the final prediction were tested, including Ordinary Least Squares and methods designed to address multicollinearity: Ridge Regression, LASSO, Principal Component Regression, Factor Regression, and Artificial Neural Networks. The results show a gain of up to 82.76% in predictive capacity when using the predictions from base learners that exhibited a predictive capacity above the average of training predictive capacities and when the selection is made based on the 75th percentile of the distribution of predictive capacities. Among all the meta-learners used, it was observed that methods based on dimensionality reduction and penalization yielded better prediction results. Keywords: genomic selection; stacking ensemble learning; non-additive effectsen
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
dc.identifier.citationCELERI, Maurício de Oliveira. Stacking Ensemble Learning para seleção genômica em características complexas. 2025. 72 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2025.
dc.identifier.doihttps://doi.org/10.47328/ufvbbt.2025.656
dc.identifier.urihttps://locus.ufv.br/handle/123456789/34898
dc.language.isopor
dc.publisherUniversidade Federal de Viçosa
dc.publisher.programEstatística Aplicada e Biometriapt-BR
dc.rightsAcesso Aberto
dc.subjectTeoria da previsãopt-BR
dc.subjectMapeamento cromossômico - Métodos estatísticospt-BR
dc.subjectAprendizado do computador - Métodos estatísticospt-BR
dc.subject.cnpqCIENCIAS AGRARIAS::AGRONOMIA::FITOTECNIA::MELHORAMENTO VEGETAL
dc.titleStacking Ensemble Learning para seleção genômica em características complexaspt-BR
dc.titleStacking Ensemble Learning for genomic selection in complex traitsen
dc.typeTese

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
texto completo.pdf
Size:
2.09 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: