Distribuição de probabilidades do valor extremo e tamanho amostral para o melhoramento genético do quantil máximo em plantas
Arquivos
Data
2016-02-29
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Viçosa
Resumo
Dentre os objetivos dos programas de melhoramento genético de plantas de propagação assexuada (como a cana-de-açúcar e o eucalipto) e autógamas encontra-se o de selecionar indivíduos extremos ou segregantes transgressivos. Assim, é conveniente encontrar progênies com distribuições de caudas longas ou mesmo assimétricas, já que elas têm uma maior tendência de gerar indivíduos excepcionais. Os métodos de seleção comumente utilizados no melhoramento dessas espécies enquadram-se na classe BLUP sob os conceitos de média aritmética e média harmônica, os quais não levam em consideração a ocorrência de valores extremos dentro das famílias. Diante do exposto, este trabalho teve como objetivo propor e avaliar uma metodologia estatística para o melhoramento do máximo ou valor extremo das distribuições, e não necessariamente das médias das distribuições. Essa abordagem baseia-se nos quantis superiores da GEV (Distribuição de Valores Extremos Generalizada) dos BLUP ́s genotípicos individuais entre e dentro de famílias, como forma de prever o aumento da ocorrência de valores extremos em função do aumento do tamanho da família (seleção de indivíduos extremos dentro de família) e também do número de famílias utilizado para representar uma população (seleção de indivíduos extremos em toda a população). A metodologia consistiu em usar dados simulados e reais, típicos das variáveis consideradas no melhoramento genético (por exemplo, distribuição normal com ampla variabilidade e presença de valores extremos). A partir dessa base de dados, distribuições de valores extremos generalizadas são ajustadas aos máximos de cada família, visando verificar qual a distribuição mais adequada (Gumbel, Fréchet, ou Weibull). Os resultados revelaram que a distribuição Weibull se ajusta melhor à bases de dados com 100 ou mais famílias e mais de 20 indivíduos por família e a distribuição Gumbel se ajusta melhor à bases de dados menores. Uma base de dados experimentais referentes à avaliação de famílias, mediante o uso de uma distribuição de valor extremo para predição do máximo das distribuições dos indivíduos, permite a previsão do comportamento da eficiência seletiva para os máximos associados a vários tamanhos de famílias e de populações experimentais. Isso possibilita ao melhorista a otimização da experimentação no melhoramento visando a seleção de indivíduos extremos. Para essas previsões, emprega-se o período de retorno associado à ocorrência de um evento raro (nível de retorno) típico da distribuição ajustada. No caso, o período de retorno é interpretado como o tamanho amostral necessário para a ocorrência do nível de retorno do evento raro, interpretado como a magnitude do valor extremo. Simulações estocásticas e reamostragens de dados experimentais indicaram consistentemente que a avaliação de 200 famílias em cada ciclo seletivo maximiza a eficiência do melhoramento visando a seleção de indivíduos extremos. Uma boa opção prática seria a avaliação de 200 famílias com 100 indivíduos, perfazendo um total de 20000 indivíduos. Segundo a distribuição Weibull, o aumento da eficiência seletiva com o aumento do tamanho de família é em torno de 1,10 quando se passa de 20 para 100 indivíduos por família e de 1,12 quando se passa de 100 para 200 indivíduos e esses números são aproximadamente constantes independentemente do número de famílias avaliadas. Os modelos Gumbel e Weibull mostraram-se adequados para analisar as variáveis massa média de colmos (MMC em kg) e teor de Brix (B em %), sendo que a Gumbel mostrou-se adequada apenas nos casos de números de famílias muito pequenos. Assim, recomenda-se a Weibull para inferências práticas. A metodologia é adequada também para classificar as famílias ou progênies pela capacidade de geração de indivíduos superiores ou excepcionais e informar os tamanhos amostrais a serem praticados em cada família para capturar esses indivíduos.
Among the objectives of programs of genetic improvement of asexual propagation of plants (such as sugarcane and eucalyptus) and autogamous is to select extreme or segregating individuals transgressive. It is therefore appropriate to find progenies distributions of long or asymmetrical tails, as they are more likely to generate exceptional individuals. Selective methods commonly used in the improvement of these species fall under the BLUP (Best Linear Unbiased Predictor) class under the concepts of arithmetic mean and harmonic mean, which do not take into account the occurrence of extreme values within families. Given the above, this study aimed to propose and evaluate a statistical methodology to improve the maximum or extreme value distributions, and not necessarily the means of distribution. This approach is based on the upper quantiles of GEV a (Generalized Extremes Values Distribution) of BLUP's individual genotypic between and within families, as a way to predict the increased occurrence of extreme values due to the increase in family size (selection of extreme individuals within family), and also the number of families used to represent a population (selection of extreme individuals in the population). The methodology consisted of using simulated and real data, typical of the variables considered in genetic improvement (eg, normal distribution with wide variability and the presence of extreme values). From this database, generalized extreme value distributions are adjusted to the maximum of each family, in order to ascertain the most appropriate distribution (Gumbel, Fréchet, or Weibull). The results showed that the Weibull distribution best fits the data bases with 100 or more families and more than 20 individuals per family and the Gumbel distribution fits better at smaller databases. A basis of experimental data relating to the evaluation of families, through the use of an extreme value distribution for predicting the maximum of the distribution of individuals, allows a prediction of the selection efficiency behavior to the maximum associated with various families and sizes of experimental populations. This enables the breeder to optimize the experiment in breeding for the selection of extreme individuals. To these predictions, is employed the return period associated with the occurrence of a rare event (return level) typical of the fitted distribution. In this case, the return period is interpreted as the sample size required for the occurrence of the level of return the rare event, interpreted as the magnitude of the extreme value. Stochastic simulations and experimental data resampling consistently indicated that the evaluation of 200 families in each selection cycle to maximize efficiency improvement in order to select extreme individuals. A good practical option would be the evaluation of 200 families with 100 individuals, a total of 20,000 individuals. According to the Weibull distribution, the increase in selection efficiency with increasing family size is about 1.10 when going from 20 to 100 individuals per family and 1.12 when going from 100 to 200 individuals and these numbers they are approximately constant regardless of the number of families evaluated. The Gumbel and Weibull models have shown to be adequate to analyze the average mass variable stem (MMC kg) and Brix content (B %), and the Gumbel was adequate only in the case of very small families numbers. Thus, it is recommended to Weibull for practical inferences. The methodology is also suitable to classify the families or the progenies ability to generate superior or exceptional individuals and inform the sample sizes to be practiced in every family to capture these individuals.
Among the objectives of programs of genetic improvement of asexual propagation of plants (such as sugarcane and eucalyptus) and autogamous is to select extreme or segregating individuals transgressive. It is therefore appropriate to find progenies distributions of long or asymmetrical tails, as they are more likely to generate exceptional individuals. Selective methods commonly used in the improvement of these species fall under the BLUP (Best Linear Unbiased Predictor) class under the concepts of arithmetic mean and harmonic mean, which do not take into account the occurrence of extreme values within families. Given the above, this study aimed to propose and evaluate a statistical methodology to improve the maximum or extreme value distributions, and not necessarily the means of distribution. This approach is based on the upper quantiles of GEV a (Generalized Extremes Values Distribution) of BLUP's individual genotypic between and within families, as a way to predict the increased occurrence of extreme values due to the increase in family size (selection of extreme individuals within family), and also the number of families used to represent a population (selection of extreme individuals in the population). The methodology consisted of using simulated and real data, typical of the variables considered in genetic improvement (eg, normal distribution with wide variability and the presence of extreme values). From this database, generalized extreme value distributions are adjusted to the maximum of each family, in order to ascertain the most appropriate distribution (Gumbel, Fréchet, or Weibull). The results showed that the Weibull distribution best fits the data bases with 100 or more families and more than 20 individuals per family and the Gumbel distribution fits better at smaller databases. A basis of experimental data relating to the evaluation of families, through the use of an extreme value distribution for predicting the maximum of the distribution of individuals, allows a prediction of the selection efficiency behavior to the maximum associated with various families and sizes of experimental populations. This enables the breeder to optimize the experiment in breeding for the selection of extreme individuals. To these predictions, is employed the return period associated with the occurrence of a rare event (return level) typical of the fitted distribution. In this case, the return period is interpreted as the sample size required for the occurrence of the level of return the rare event, interpreted as the magnitude of the extreme value. Stochastic simulations and experimental data resampling consistently indicated that the evaluation of 200 families in each selection cycle to maximize efficiency improvement in order to select extreme individuals. A good practical option would be the evaluation of 200 families with 100 individuals, a total of 20,000 individuals. According to the Weibull distribution, the increase in selection efficiency with increasing family size is about 1.10 when going from 20 to 100 individuals per family and 1.12 when going from 100 to 200 individuals and these numbers they are approximately constant regardless of the number of families evaluated. The Gumbel and Weibull models have shown to be adequate to analyze the average mass variable stem (MMC kg) and Brix content (B %), and the Gumbel was adequate only in the case of very small families numbers. Thus, it is recommended to Weibull for practical inferences. The methodology is also suitable to classify the families or the progenies ability to generate superior or exceptional individuals and inform the sample sizes to be practiced in every family to capture these individuals.
Descrição
Palavras-chave
Estatística aplicada, Biometria, Teoria dos valores extremos, Produtos agrícolas - Métodos estatísticos, Plantas - Melhoramento genético
Citação
ESCOBAR, José Alfredo Diaz. Distribuição de probabilidades do valor extremo e tamanho amostral para o melhoramento genético do quantil máximo em plantas. 2016. 64 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2016.