Predição genômica de resistência à requeima e caracteres de produção em programa de melhoramento de batata para regiões tropicais de altitude orienada por aprendizado de máquina
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidade Federal de Viçosa
Abstract
A requeima (Phytophthora infestans) impõe perdas severas à produção de batata (Solanum tuberosum), exigindo ferramentas de seleção mais rápidas e precisas para desenvolvimento de variedades resistentes e duráveis. Este trabalho objetiva desenvolver e validar metodologias de predição genômica que combinam seleção de marcadores (feature selection - FS) e algoritmos de aprendizado de máquina (ML) para predizer resistência à requeima (rAUDPC) e componentes de rendimento (DM, MTWP, TNTP, TTWP) em batata autotetraploide. Parte-se da hipótese de que painéis reduzidos e informativos, aliados a modelos capazes de captar não linearidades, superam o uso generalizado de polimorfismos de único nucleotídeo (SNPs). Os dados incluem 466 clones em ensaios intermediários (IYT) para treinamento e 177 clones em ensaios avançados (AYT) para validação independente, fenotipados em três e quatro localidades contrastantes, respectivamente, e genotipados por 2.482 SNPs. Os fenótipos derivaram-se de melhores estimativas lineares não-enviesadas (BLUEs) obtidas a partir de modelos lineares mistos; a avaliação usa validação cruzada aninhada com otimização de hiperparâmetros que combinam três seletores (ANOVA, LASSO, RF) e seis regressores (RF, GB, SVR, MLP, Lasso, Ridge). A incorporação de FS apresenta desempenho superior ao uso de todos os marcadores, trazendo mais sinais genéticos importantes, exigindo menos imputações, diminuindo o custo computacional e fornecendo maior estabilidade. Na validação independente, as melhores combinações alcançam máximos de capacidade preditiva (correlação de Pearson) de ~0,605 (DM) e ~0,595 (rAUDPC). Conclui-se que a integração FS+ML produz modelos validados e operacionais para caracteres com forte componente genético, ao passo que a predição de rendimento requer amostras de treino mais representativas e modelagem mais explícita de interação genótipo × ambiente. Em suma, a implementação adequada dessa combinação pode servir de instrumento prático para priorizar genótipos em programas de melhoramento de batata, desde que apoiados por validação independente e amostras representativas, e contribuir para a obtenção de cultivares mais resilientes frente à requeima. Palavras-chave: Solanum tuberosum; Phytophthora infestans; polimorfismo de nucleotídeo único; rendimento; seleção de marcadores.
Late blight (Phytophthora infestans) imposes severe losses on potato (Solanum tuberosum) production, demanding faster and more accurate selection tools for the development of resistant and durable varieties. This study aims to develop and validate genomic prediction methodologies that use feature selection (FS) and machine learning (ML) algorithms to predict late blight resistance (rAUDPC) and yield components (DM, MTWP, TNTP, TTWP) in autotetraploid potato. The working hypothesis is that reduced, informative single-nucleotide polymorphism (SNP) panels combined with models capable of capturing nonlinearities outperform generalised use of the SNP set. The data comprises 466 clones from intermediate yield trials (IYT) for training and 177 clones from advanced yield trials (AYT) for independent validation, phenotyped in three or four contrasting locations, respectively, and genotyped for 2,482 SNPs. Phenotypes derive from best linear unbiased estimates (BLUEs) from linear mixed models; evaluation follows nested cross-validation with hyperparameter optimisation across pipelines that combine three selectors (ANOVA, LASSO, RF) and six regressors (RF, GB, SVR, MLP, Lasso, Ridge). Incorporation of FS yields superior performance compared to using all markers, requires fewer imputations, reduces computational cost and provides greater model stability. In independent validation, the best combinations achieve predictive abilities (Pearson correlations) of ~0.605 (DM) and 0.595 (rAUDPC). We conclude that integrating FS and ML produces validated, operational models for traits with a strong genetic component, whereas predicting yield components requires more representative training samples and more explicit modelling of genotype × environment interaction. In summary, appropriate implementation of these combined approaches can serve as a practical tool to prioritise genotypes in potato breeding programs, provide independent validation and representative sampling, and thus contribute to the development of cultivars more resilient to late blight. Keywords: Solanum polymorphism; yield; tuberosum; Phytophthora feature selection infestans; single-nucleotide
Late blight (Phytophthora infestans) imposes severe losses on potato (Solanum tuberosum) production, demanding faster and more accurate selection tools for the development of resistant and durable varieties. This study aims to develop and validate genomic prediction methodologies that use feature selection (FS) and machine learning (ML) algorithms to predict late blight resistance (rAUDPC) and yield components (DM, MTWP, TNTP, TTWP) in autotetraploid potato. The working hypothesis is that reduced, informative single-nucleotide polymorphism (SNP) panels combined with models capable of capturing nonlinearities outperform generalised use of the SNP set. The data comprises 466 clones from intermediate yield trials (IYT) for training and 177 clones from advanced yield trials (AYT) for independent validation, phenotyped in three or four contrasting locations, respectively, and genotyped for 2,482 SNPs. Phenotypes derive from best linear unbiased estimates (BLUEs) from linear mixed models; evaluation follows nested cross-validation with hyperparameter optimisation across pipelines that combine three selectors (ANOVA, LASSO, RF) and six regressors (RF, GB, SVR, MLP, Lasso, Ridge). Incorporation of FS yields superior performance compared to using all markers, requires fewer imputations, reduces computational cost and provides greater model stability. In independent validation, the best combinations achieve predictive abilities (Pearson correlations) of ~0.605 (DM) and 0.595 (rAUDPC). We conclude that integrating FS and ML produces validated, operational models for traits with a strong genetic component, whereas predicting yield components requires more representative training samples and more explicit modelling of genotype × environment interaction. In summary, appropriate implementation of these combined approaches can serve as a practical tool to prioritise genotypes in potato breeding programs, provide independent validation and representative sampling, and thus contribute to the development of cultivars more resilient to late blight. Keywords: Solanum polymorphism; yield; tuberosum; Phytophthora feature selection infestans; single-nucleotide
Description
Citation
NOGUEIRA, Nathállia Pires. Predição genômica de resistência à requeima e caracteres de produção em programa de melhoramento de batata para regiões tropicais de altitude orientada por aprendizado de máquina. 2025. 110 f. Dissertação (Mestrado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2025.
