Integrating statistical genetics, geographical information systems and envirotyping: a novel approach for predictive breeding and decision-making

Imagem de Miniatura

Data

2024-02-27

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Viçosa

Resumo

The crossover genotype-by-environments (G × E) interaction is responsible for the variation in genotype performance across different environments. Disregarding the effect of this inter- action means neglecting the specific adaptations of genotypes in the target population of environments. Environmental characterization enables an understanding of the specificities and similarities among different environments. In this context, enviromics has emerged as a new area that integrates information from data analysis, quantitative genetics, geographic information systems (GIS), and principles of ecophysiology. Incorporating environmental features into Statistical Genetics models contributes to enhancing the predictive capability of these models and a better understanding of the cultivation environment. Thus, this study aimed to propose a new predictive breeding method (GIS-FA) that integrates GIS information, factor analytic (FA) models, partial least squares regression (PLS), and enviromics to predict purelines of rice and soybean in untested environments. Two databases were used: one for rice, with 80 purelines cultivated in the years 2009/10 and 2010/11 in 21 environments in eight Brazilian states; and the second composed of 195 soybean purelines evaluated in 49 environments (in years 2019/20, 2020/21, and 2021/22) in the state of Mato Grosso do Sul. The term “environment” refers to the location-year combination. For both datasets, FA models were adjusted, with FA4 being selected based on the average semivariance ratio. A total of 32 environmental features (EF) were collected, including three geographical, 16 climatic, and 13 soil-related features. To make predictions, 50 points were randomly chosen within each municipality in the evaluated states, and, for each point, EFs data were obtained from a historical series (2000-2021). Leveraging the FA model outcomes, we used the PLS method to predict the overall performance and stability of both crops in untested environments. Cross-validation was performed using the leave-one-out method, and subsequently, the GIS-FA method was compared with the GGE-GIS approach, which uses directly the within-environment eBLUPs to perform the prediction. After the spatial prediction, performance and stability parameters were represented in thematic maps. For predicting eBLUEs, GIS-FA was 10% and 1% superior to GIS-GGE in the rice and soybean datasets, respectively. For predicting eBLUPs, GIS-FA was 9% and 5% more effective than GIS-GGE. Three types of maps were created: (i) zones of genotype adaptation; (ii) pairwise comparison between pureline vs. check and pureline vs. pureline; (iii) which-won-where. The GIS-FA approach proved to be efficient in predicting genotypes for untested environments, allowing the evaluation of the G × E interaction throughout the experimental network. Keywords: Environmental features. Factor analytic. Predictive models. Partial Least Squares.
A interação genótipos por ambientes (G × A) complexa é responsável pela variação no desempenho dos genótipos em diferentes ambientes. Desconsiderar o efeito dessa interação significa, pode negligenciar as adaptações especı́ficas dos genótipos em população de ambientes alvo. A caracterização ambiental possibilita a compreensão das especificidades e semelhanças entre diferentes ambientes. Nesse contexto, a enviromics surgiu como uma nova área que integra informações de análise de dados, genética quantitativa, sistemas de informação geográfica (SIG) e princı́pios de ecofisiologia. Incorporar caracterı́sticas ambientais (CA) em modelos de genético estatı́stico contribui para aprimorar a capacidade preditiva desses modelos e para uma melhor compreensão do ambiente de cultivo. Assim, este estudo teve como objetivo propor um novo método de melhoramento preditivo (SIG- FA) que integra informações SIG, modelos de análise fator analı́tico (FA), regressão de mı́nimos quadrados parciais (PLS) e enviromics para predizer linhas puras de arroz e soja em ambientes não testados. Foram utilizados dois bancos de dados: um para arroz, com 80 linhas puras cultivadas nos anos 2009/10 e 2010/11 em 21 ambientes em oito estados brasileiros; e o segundo composto por 195 linhas puras de soja avaliadas em 49 ambientes (nos anos 2019/20, 2020/21 e 2021/22) no estado de Mato Grosso do Sul. O termo “ambiente” refere-se à combinação local-ano. Para ambos os conjuntos de dados, foram ajustados modelos FA, sendo selecionado o FA4 com base na razão média de semivariância. Um total de 32 CA foram coletadas, incluindo três geográficas, 16 climáticas e 13 relacionadas ao solo. Para fazer a predição, 50 pontos foram coletados aleatoriamente dentro de cada municı́pio nos estados avaliados, e, para cada ponto, os dados de CA foram obtidos de uma série histórica (2000-2021). Utilizando os resultados do modelo FA, empregamos o método PLS para predizer o desempenho geral e a estabilidade de ambas as culturas em ambientes não testados. A validação cruzada foi realizada usando o método leave-one-out, e posteriormente, o método SIG-FA foi comparado com a abordagem GGE-GIS, que utiliza diretamente os eBLUPs dentro do ambiente para realizar a predição. Após a predição espacial, os parâmetros de desempenho e estabilidade foram representados em mapas temáticos. Para predizer eBLUEs, o SIG-FA foi 10% e 1% superior ao GIS-GGE nos conjuntos de dados de arroz e soja, respectivamente. Para predizer eBLUPs, o SIG-FA foi 9% e 5% mais eficaz do que o GIS-GGE. Três tipos de mapas foram criados: (i) zonas de adaptação do genótipo; (ii ) comparação par a par entre linhas puras vs. testemunha e linha pura vs. linha pura; (iii) quem-ganhou-onde. A abordagem SIG-FA mostrou-se eficiente na predição de genótipos para ambientes não testados, permitindo a avaliação da interação G × A em toda a rede experimental. Palavras-chave: Caracterı́sticas ambientais. Análise fator analı́tico. Modelos preditivos. Mı́nimos quadrados parciais.

Descrição

Palavras-chave

Interação genótipo-ambiente, Genética - Métodos estatísticos, Sistemas de informação geográfica, Processo decisório

Citação

ARAÚJO, Mauricio dos Santos. Integrating statistical genetics, geographical information systems and envirotyping: a novel approach for predictive breeding and decision-making. 2024. 79 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2024.

Avaliação

Revisão

Suplementado Por

Referenciado Por