Stacking Ensemble Learning para seleção genômica em características complexas

Celeri, Maurício de Oliveira

doi:https://doi.org/10.47328/ufvbbt.2025.656

Stacking Ensemble Learning para seleção genômica em características complexas

dc.contributor	Nascimento, Ana Carolina Campana
dc.contributor.advisor	Nascimento, Moysés
dc.contributor.author	Celeri, Maurício de Oliveira
dc.contributor.authorLattes	http://lattes.cnpq.br/2569243563413784
dc.date.accessioned	2025-11-25T15:16:12Z
dc.date.issued	2025-07-09
dc.degree.date	2025-07-09
dc.degree.department	Departamento de Estatística	pt-BR
dc.degree.grantor	Universidade Federal de Viçosa
dc.degree.level	Doutorado
dc.degree.local	Viçosa - MG
dc.degree.program	Doutor em Estatística Aplicada e Biometria
dc.description.abstract	A seleção genômica (SG), proposta pela primeira vez por Mewissen et al. em 2001, tem por objetivo estimar os valores genéticos genômicos como uma soma dos efeitos de todos os marcadores distribuídos ao longo do genoma. A possibilidade de reduzir o tempo necessário para desenvolvimento de novas variedades torna a SG um componente primordial em programas de melhoramento. No entanto um ponto crucial na SG é decidir qual método estatísticas será utilizado para estimação dos efeitos de marcadores e, posteriormente, predizer os valores genéticos genômicos de indivíduos não fenotipados. Diversas metodologias foram propostas, como, por exemplo, o GBLUP, as Redes Neurais Artificiais e o alfabeto bayesiano. Em especial para características genéticas quantitativas, alguns métodos podem apresentar limitações devido à complexidade. Recentemente uma classe de modelos de aprendizagem em conjunto vem ganhando destaque nos estudos de seleção e predição genômica: a aprendizagem ensemble, em especial o stacking. Stacking é uma forma usual de método ensemble onde a predição de cada um dos modelos usados na aprendizagem de base é usada como variáveis de entrada para treinar um novo modelo de regressão para a predição final, podendo apresentar maior poder de generalização e representações não lineares. O objetivo deste trabalho é avaliar diferentes configurações para os métodos stacking em predição genômica de características complexas. Para isso, será utilizado um conjunto de dados simulados com 10 características fenotípicas distintas, cada qual com uma arquitetura genética própria. A validação cruzada foi 5-fold e foram testadas diferentes formas de se selecionar os aprendizes de base provindas de modelos como GBLUP, splines de regressão adaptativa multivariada, Bayes A, Bayes A com inclusão de efeitos de dominância, Bayes B, árvore de regressão, bagging, boosting e random forest. Diferentes formas de predição final, escolhidas entre mínimos quadrados ordinários e dos métodos para solução da multicolinearidade: regressão ridge, LASSO, regressão de componentes principais, regressão de fatores e redes neurais artificiais. Os resultados mostram um ganho de até 82,76% na capacidade preditiva quando utilizado as predições de aprendizes de base que apresentaram capacidade preditiva acima da média de capacidades preditivas de treinamento e quando feita a seleção pelo quantil 75% da distribuição das capacidades preditivas. Dentre todos os meta-aprendizes utilizados foi observado que os métodos baseados em redução de dimensionalidade e penalização apresentaram melhores resultados de predição. Palavras-chave: seleção genômica; stacking ensemble learning; efeitos não aditivos	pt-BR
dc.description.abstract	Genomic selection (GS), first proposed by Meuwissen et al. (2001), aims to estimate genomic estimated breeding values as the sum of the effects of all markers distributed across the genome. The potential to shorten the time required to develop new varieties makes genomic selection (GS) a cornerstone of modern breeding programs. However, a critical aspect of GS lies in choosing the statistical method used to estimate marker effects and, subsequently, to predict genomic estimated breeding values for non-phenotyped individuals. Various methodologies have been proposed, such as Genomic Best Linear Unbiased Prediction (GBLUP), Artificial Neural Networks, and the Bayesian alphabet. For quantitative genetic traits, some methods may exhibit limitations due to their inherent complexity. Recently, a class of ensemble learning models has gained prominence in genomic selection and prediction studies: ensemble learning, particularly stacking. Stacking is a common ensemble method in which the predictions from each base learner are used as input features to train a new regression model for the final prediction, potentially yielding greater generalization ability and capturing nonlinear relationships. The objective of this study is to evaluate different configurations of stacking methods for genomic prediction of complex traits. To this end, a simulated dataset comprising 10 distinct phenotypic traits, each with its own genetic architecture, will be used. A 5-fold cross- validation scheme was employed, and different strategies for selecting base learners—derived from models such as GBLUP, Multivariate Adaptive Regression Splines, BayesA, BayesA with dominance effects, BayesB, regression trees, bagging, boosting, and Random Forest were evaluated. Additionally, multiple approaches for the final prediction were tested, including Ordinary Least Squares and methods designed to address multicollinearity: Ridge Regression, LASSO, Principal Component Regression, Factor Regression, and Artificial Neural Networks. The results show a gain of up to 82.76% in predictive capacity when using the predictions from base learners that exhibited a predictive capacity above the average of training predictive capacities and when the selection is made based on the 75th percentile of the distribution of predictive capacities. Among all the meta-learners used, it was observed that methods based on dimensionality reduction and penalization yielded better prediction results. Keywords: genomic selection; stacking ensemble learning; non-additive effects	en
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
dc.identifier.citation	CELERI, Maurício de Oliveira. Stacking Ensemble Learning para seleção genômica em características complexas. 2025. 72 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2025.
dc.identifier.doi	https://doi.org/10.47328/ufvbbt.2025.656
dc.identifier.uri	https://locus.ufv.br/handle/123456789/34898
dc.language.iso	por
dc.publisher	Universidade Federal de Viçosa
dc.publisher.program	Estatística Aplicada e Biometria	pt-BR
dc.rights	Acesso Aberto
dc.subject	Teoria da previsão	pt-BR
dc.subject	Mapeamento cromossômico - Métodos estatísticos	pt-BR
dc.subject	Aprendizado do computador - Métodos estatísticos	pt-BR
dc.subject.cnpq	CIENCIAS AGRARIAS::AGRONOMIA::FITOTECNIA::MELHORAMENTO VEGETAL
dc.title	Stacking Ensemble Learning para seleção genômica em características complexas	pt-BR
dc.title	Stacking Ensemble Learning for genomic selection in complex traits	en
dc.type	Tese

Files

Original bundle

Now showing 1 - 1 of 1

Name:: texto completo.pdf
Size:: 2.09 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Estatística Aplicada e Biometria