Predição e importância de preditores em abordagens fundamentadas em inteligência computacional e aprendizado de máquinas

Silva Júnior, Antônio Carlos da

Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/28761

Tipo:	Tese
Título:	Predição e importância de preditores em abordagens fundamentadas em inteligência computacional e aprendizado de máquinas Prediction and importance of predictors in approaches based on computational intelligence and machine learning
Autor(es):	Silva Júnior, Antônio Carlos da
Abstract:	O estudo da importância das características permite ao melhorista orientar estratégias para selecionar e acelerar o progresso do melhoramento genético. Embora, a avaliação simultânea de características no programa de melhoramento de plantas forneça uma grande quantidade de informações, identificar qual característica fenotípica é a mais importante é um desafio para o melhorista. Assim, o objetivo deste trabalho foi estimar a melhor abordagem para predição e estabelecer uma rede de melhor poder preditivo via metodologias baseadas em regressão, inteligência artificial e aprendizado de máquinas. A quantificação da importância de variáveis através da rede Percepton Multicamadas (MLP) pode ser obtida através de (i) algoritmo de GARSON (1991) modificado por GOH (1995) (GA), que consiste no particionamento dos pesos de conexão de rede neural para determinar a importância relativa de cada variável de entrada na rede. (ii) Avaliação da importância de variáveis (entrada) através do impacto da desestruturação ou perturbação da informação de uma determinada entrada sobre a estimativa do 𝑅 2 . Essa importância foi estimada trocando informações ou tornando o valor fenotípico de cada característica constante e verificando as mudanças nas estimativas de 𝑅 2 . Quando os valores de uma característica são perturbados, o valor de 𝑅 2 diminui, indicando que a característica é importante em relação às outras para fins de predição. A importância de variáveis utilizando a rede função de base radial (RBF) foi estimado conforme a MLP. Para aprendizado de máquina foram usadas árvores de decisão, bagging, floresta aleatória e boosting. A qualidade do modelo preditivo foi ajustada determinado com base em 𝑅 2 , e o MSE foi usado para quantificar a importância das características fenotípicas. A importância da característica explicativa foi determinada estimando o aumento percentual no MSE. No primeiro artigo, avaliou-se a importância de características auxiliares de uma característica principal com base em informações fenotípicas e estrutura genética previamente conhecida usando inteligência computacional e aprendizado de máquina para desenvolver ferramentas preditivas para o melhoramento genético. Foram simulados uma população F 2 representada por 500 indivíduos, obtidos a partir de um cruzamento entre pais homozigotos contrastantes. Os caracteres fenotípicos simulados apresentam com base em médias previamente estabelecidas e estimativas de herdabilidade (30%, 50% e 80%). As características foram distribuídas em um genoma com 10 grupos de ligação, considerando dois alelos. Foram considerados quatro cenários diferentes. Para a característica principal (PT1), a herdabilidade constitui-se de 50%, e 40 locos de controle foram distribuídos em cinco grupos de ligação. A simulação de outras características de controle fenotípico com a mesma complexidade da característica principal, mas sem qualquer relação genética com ele e sem pleiotropia ou uma ligação fatorial entre os loci de controle. Essas características compartilhavam grande número de locos de controle com a característica principal, mas podiam ser distinguidas pela ação diferencial do ambiente sobre elas, conforme refletido nas estimativas de herdabilidade (30%, 50% e 80%). Os 𝑅 2 variaram de 44,0% - 83,0% e 79,0% - 94,0%, para inteligência computacional e aprendizado de máquina, respectivamente. Na rede MLP os 𝑅 2 foram 83,03%, 77,89%, 75,49% e 82,14% para os cenários 1, 2, 3 e 4. Pela abordagem GA em todos os cenários, as contribuições relativas de PT5 e PT2 na previsão de PT1 foram quantificadas como maiores e menores, respectivamente. Para a rede RFB a permutação foi eficiente na quantificação da contribuição relativa de PT5 como um fator importante com base na redução na estimativa de 𝑅 2 quando a informação foi perturbada e PT2 foi identificado como o traço menos importante. O PT5 foi estimado como o traço fenotípico mais importante em todas as metodologias de aprendizado de máquina e em todos os cenários. As contribuições relativas de características auxiliares em diferentes cenários em programas de melhoramento de plantas podem ser predito com eficiência usando inteligência computacional e aprendizado de máquina. No segundo artigo, o objetivo foi estimar a melhor abordagem para predição e estabelecer uma rede de melhor poder preditivo em arroz irrigado por inundação via tais metodologias. Os experimentos foram realizados nos municípios de Leopoldina, Lambari e Janaúba, estado de Minas Gerais, Brasil. Foram utilizado 75 genótipos de arroz irrigado por inundação. As características avaliadas foram rendimento de grãos, comprimento da panícula e relação comprimento x largura de grãos, que foram utilizadas como variáveis de resposta e outras dez variáveis explicativas. A abordagem de inteligência artificial em Leopoldina proporcionou maior estimativa para as variáveis preditivas PL e GY no procedimento RBF, 83,44% e 78,90%, respectivamente. Em Leopoldina e Lambari, para a variável resposta LGW, obteve estimativa máxima de 𝑅 2 de aproximadamente 100% por regressão múltipla e abordagens de inteligência artificial e em Janaúba, de 62%. A contribuição relativa de caracteres auxiliares em arroz por meio de inteligência computacional e aprendizado de máquina mostrou-se eficiente para determinar a importância relativa de variáveis em arroz irrigado por inundação. Os caracteres indicados para auxiliar na tomada de decisão são floração, número de grãos cheios por panículas e comprimento de panículas para este estudo. No procedimento de boosting, as variáveis que se destacaram foram HP, GL, PL, GP, WG e LGW em todos os ambientes. Os caracteres indicados para auxiliar na tomada de decisão são floração, número de grãos cheios por panículas e comprimento de panículas para este estudo. No terceiro artigo, avaliou-se a contribuição relativa de caracteres auxiliares em aveia branca por meio de tais metodologias. Os experimentos foram conduzidos na região Sul do Brasil. Foram avaliados 78 genótipos de aveia branca avaliados anos de 2008 e 2009. Em cada ano, constitui-se de sem e com fungicida, de forma que foram estabelecidos modelos de predição em quatro conjuntos experimentais. O delineamento foi em blocos casualizados com três repetições. As características avaliadas foram rendimento de grãos que foram utilizadas como variável resposta e dez outras como variáveis explicativas. O procedimento bagging e boosting, verifica- se que as estimativas de 𝑅 2 foram superiores a 92.70% e 80%, respectivamente. O 𝑅 2 variaram de 30,14% - 96,45% e 10,57% - 94,61%, para inteligência computacional e aprendizado de máquina, respectivamente. Os caracteres indicados para auxiliar na tomada de decisão são estatura de planta, severidade de ferrugem da folha e percentual de acamamento para este estudo. Acredita-se que, com a utilização de procedimento para quantificar a importância de variáveis, as técnicas fundamentadas em inteligência computacional e aprendizado de máquina possam ser facilmente empregadas sem demandar recursos computacionais sofisticados. Palavras-chave: Rede Neurais Artificiais. Árvore de decisão. Coeficiente de Determinação. Importância de Variáveis. The study of the importance of traits allows the breeder to guide strategies to select and accelerate the progress of genetic improvement. Although the simultaneous evaluation of traits in the plant breeding program provides a great deal of information, identifying which phenotypic trait is the most important is a challenge for the breeder. Thus, the objective of this work was to estimate the best prediction approach and establish a network with better predictive power via methodologies based on regression, artificial intelligence, and machine learning. The quantification of the importance of variables through the Multilayer Perception Network (MLP) can be obtained through (i) GARSON's (1991) algorithm modified by GOH (1995) (GA), which consists in the partitioning of the neural network connection weights for determine the relative importance of each input variable in the network. (ii) Evaluation of the importance of variables (input) through the impact of destructuring or disturbing the information of a given input on the estimation of 𝑅 2 . This importance was estimated by exchanging information or making the phenotypic value of each characteristic constant and checking for changes in the estimates of 𝑅 2 . When the values of a feature are disturbed, the value of 𝑅 2 decreases, indicating that the feature is important over the others for prediction purposes. The importance of variables using the radial basis function network (RBF) was estimated according to the MLP. For machine learning, decision trees, bagging, random forest, and boosting were used. The quality of the predictive model was determined based on 𝑅 2 , and the MSE was used to quantify the importance of the phenotypic traits. The importance of the explanatory characteristic was determined by estimating the percentage increase in the MSE. In the first manuscript, we assessed the importance of auxiliary traits of a main trait based on phenotypic information and previously known genetic structure using computational intelligence and machine learning to develop predictive tools for genetic improvement. An F 2 population represented by 500 individuals, obtained from a cross between contrasting homozygous parents, was simulated. The simulated phenotypic characters are based on previously established means and heritability estimates (30%, 50%, and 80%). The traits were distributed in a genome with 10 linkage groups, considering two alleles. Four different scenarios were considered. For the main trait (PT1), heritability was 50%, and 40 control loci were distributed into five linkage groups. The simulation of other phenotypic control traits with the same complexity as the main trait but without any genetic relationship to it and without pleiotropy or a factorial link between the control loci. These traits shared a large number of control loci with the main trait but could be distinguished by the differential action of the environment on them, as reflected in heritability estimates (30%, 50%, and 80%). The 𝑅 2 ranged from 44.0% - 83.0% and 79.0% - 94.0%, for computational intelligence and machine learning, respectively. In the MLP network the 𝑅 2 were 83.03%, 77.89%, 75.49% and 82.14% for scenarios 1, 2, 3 and 4. By the GA approach in all scenarios, the relative contributions of PT5 and PT2 in the prediction of PT1 were quantified as major and minor, respectively. For the RFB network, permutation was efficient in quantifying the relative contribution of PT5 as an important factor based on the reduction in the estimate of 𝑅 2 when the information was perturbed and PT2 was identified as the least important trait. PT5 was estimated as the most important phenotypic trait in all machine learning methodologies and in all scenarios. The relative contributions of auxiliary traits in different scenarios in plant breeding programs can be efficiently predicted using computational intelligence and machine learning. In the second manuscript, the objective was to estimate the best prediction approach and establish a network with better predictive power in flood irrigated rice via such methodologies. The experiments were carried out in the municipalities of Leopoldina, Lambari, and Janaúba, the state of Minas Gerais, Brazil. Seventy-five genotypes of flood irrigated rice were used. The characteristics evaluated were grain yield, panicle length, and grain length x grain width ratio, which were used as response variables and ten other explanatory variables. The artificial intelligence approach in Leopoldina provided a higher estimate for the predictive variables PL and GY in the RBF procedure, 83.44% and 78.90%, respectively. In Leopoldina and Lambari, for the response variable LGW, a maximum estimate of 𝑅 2 was approximately 100% by multiple regression and artificial intelligence approaches, and in Janaúba, with a maximum estimate of 62%. The relative contribution of auxiliary characters in rice through computational intelligence and machine learning proved to be efficient to determine the relative importance of variables in flooded rice. Characters indicated to aid in decision making are flowering, number of filled grains per panicle, and panicle length for this study. In the boosting procedure, the variables that stood out were HP, GL, PL, GP, WG, and LGW in all environments. Characters indicated to aid in decision making are flowering, number of filled grains per panicle, and panicle length for this study. In the third manuscript, the relative contribution of auxiliary characters in white oat was evaluated through such methodologies. The experiments were carried out in southern Brazil. 78 genotypes of white oat evaluated in the years 2008 and 2009 were evaluated. Each year, it consists of without and with fungicide, so that prediction models were established in four experimental sets. The design was in randomized blocks with three replications. The characteristics evaluated were grain yield, which was used as the response variable, and ten others as explanatory variables. In the bagging and boosting procedure, it is verified that the estimates of 𝑅 2 were superior to 92.70% and 80%, respectively. The 𝑅 2 ranged from 30.14% - 96.45% and 10.57% - 94.61%, for computational intelligence and machine learning, respectively. The characters indicated to assist in decision-making are plant height, leaf rust severity, and lodging percentage for this study. It is believed that, with the use of a procedure to quantify the importance of variables, techniques based on computational intelligence and machine learning can be easily employed without demanding sophisticated computational resources. Keywords: Artificial Neural Network. Decision Tree. Determination Coefficient. Importance of Variables.
Palavras-chave:	Melhoramento genético - Simulação por computador Rede neurais (Computação) Decisão estatística Determinantes (Matemática) Variáveis (Matemática)
CNPq:	Genética Vegetal
Editor:	Universidade Federal de Viçosa
Titulação:	Doutor em Genética e Melhoramento
Citação:	SILVA JÚNIOR, Antônio Carlos da. Predição e importância de preditores em abordagens fundamentadas em inteligência computacional e aprendizado de máquinas. 2021. 138 f. Tese (Doutorado em Genética e Melhoramento) - Universidade Federal de Viçosa, Viçosa. 2021.
Tipo de Acesso:	Acesso Aberto
Identificador DOI:	https://doi.org/10.47328/ufvbbt.2021.070
URI:	https://locus.ufv.br//handle/123456789/28761
Data do documento:	16-Set-2021
Aparece nas coleções:	Genética e Melhoramento

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
texto completo.pdf	texto completo	1,7 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas