Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados
Arquivos
Data
2019-07-22
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Viçosa
Resumo
Na análise discriminante, é avaliado a diversidade ou classificação dos indivíduos nas populações, para tal um grande número de metodologias está disponível, dentre as quais destacam-se os métodos multivariados de análise discriminante que têm sido utilizados em estudos preditivos da diversidade genética. Tal metodologia visa identificar as populações nas quais um indivíduo deva pertencer, admitindo previamente, que este indivíduo pertença a uma das populações avaliadas, no entanto esta análise pressupõe que as populações sejam provenientes de uma distribuição normal multivariada. Dentre as diversas metodologias de análise discriminante destaca-se a função discriminante linear de Fisher que possui para sua utilização a pressuposição de que as matrizes de covariância entre as populações sejam homogêneas, e na quebra desse pressuposto outras abordagens são necessárias como a análise discriminante quadrática ou auxilio de métodos computacionais como os de aprendizado de máquina. Desse modo o presente trabalho visa avaliar a robustez da função discriminante linear de Fisher na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados, já que na literatura não exemplifica o critério de escolha quanto ao uso de tal função. Os dados foram gerados por meio de simulação com cenários caracterizados por matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados e seus resultados foram comparados com outras metodologias de mesmo proposito, tais como a Análise Discriminante Quadrática, Redes Neurais Artificiais, Máquina de Vetor Suporte e Árvore de Classificação. De acordo com os resultados foi possível observar que as técnicas para classificação de indivíduos devem ser utilizadas seguindo suas pressuposições. Especificamente, para situações em que os dados apresentam normalidade multivariada e heterocedasticidade de matrizes de covariâncias, a função discriminante Quadrática apresentou melhores resultados quanto ao valor de Taxa de Erro Aparente (TEA). Para situações em que os dados apresentaram distribuição Poisson multivariada e homogeneidade de matrizes de covariância, a Função Discriminante de Fisher apresentou menores valores de TEA. As demais metodologias, Redes Neurais Artificiais, Máquina de Vetor Suporte, Árvores de Decisão e seus refinamentos (Poda, Bagging e Random Forest) e Boosting apresentaram valores razoáveis de TEA e se apresentam como técnicas alternativas para situações em que os pressupostos necessários para aplicação das técnicas da Função Discriminante de Fisher e da Função Discriminante Quadrática não são atendidos.
In discriminant analysis, is evaluated the diversity or classification of individuals in populations, for that a large number of methodologies are available, among which stand out the multivariate methods of discriminant analysis that have been widely used in predictive studies of genetic diversity. This methodology aims to identify the populations in which an individual should belong, previously admitting that this individual belongs to one of the evaluated populations, however this analysis assumes that the populations come from a normal multivariate distribution. Among the various discriminant analysis methodologies, stands out the Fisher's linear discriminant function, which has for its use the assumption that the covariance matrices between populations are homogeneous, and in breaking this assumption other approaches are necessary such as quadratic discriminant analysis or the aid of computational methods such as machine learning. Thus, the present work aims to evaluate the robustness of Fisher's linear discriminant function in the presence of heterogeneous covariance matrices and multivariate non-normal random vectors since in the literature it does not exemplify the criterion of choice regarding the use of such function. The data were generated by simulation with scenarios characterized by heterogeneous covariance matrices and multivariate non-normal random vectors and their results were compared with other methodologies of the same purpose, such as Quadratic Discriminant Analysis, Artificial Neural Networks, Support Vector Machine and Decision Tree. According to the results it was observed that the techniques for classification of individuals should be used following their assumptions. Specifically, for situations in which data present multivariate normality and heteroscedasticity of covariance matrices, the Quadratic discriminant function presented better results regarding the Apparent Error Rate (AER) value. For situations in which the data presented multivariate Poisson distribution and homogeneity of covariance matrices, Fisher Discriminant Function presented lower AER values. The other methodologies such as, Artificial Neural Networks, Support Vector Machine, Decision Trees and their refinements (Pruning, Bagging and Random Forest) and Boosting presented reasonable values of AER and are presented as alternative techniques for situations where the necessary assumptions for the application of Fisher Discriminant Function and Quadratic Discriminant Function techniques are not met.
In discriminant analysis, is evaluated the diversity or classification of individuals in populations, for that a large number of methodologies are available, among which stand out the multivariate methods of discriminant analysis that have been widely used in predictive studies of genetic diversity. This methodology aims to identify the populations in which an individual should belong, previously admitting that this individual belongs to one of the evaluated populations, however this analysis assumes that the populations come from a normal multivariate distribution. Among the various discriminant analysis methodologies, stands out the Fisher's linear discriminant function, which has for its use the assumption that the covariance matrices between populations are homogeneous, and in breaking this assumption other approaches are necessary such as quadratic discriminant analysis or the aid of computational methods such as machine learning. Thus, the present work aims to evaluate the robustness of Fisher's linear discriminant function in the presence of heterogeneous covariance matrices and multivariate non-normal random vectors since in the literature it does not exemplify the criterion of choice regarding the use of such function. The data were generated by simulation with scenarios characterized by heterogeneous covariance matrices and multivariate non-normal random vectors and their results were compared with other methodologies of the same purpose, such as Quadratic Discriminant Analysis, Artificial Neural Networks, Support Vector Machine and Decision Tree. According to the results it was observed that the techniques for classification of individuals should be used following their assumptions. Specifically, for situations in which data present multivariate normality and heteroscedasticity of covariance matrices, the Quadratic discriminant function presented better results regarding the Apparent Error Rate (AER) value. For situations in which the data presented multivariate Poisson distribution and homogeneity of covariance matrices, Fisher Discriminant Function presented lower AER values. The other methodologies such as, Artificial Neural Networks, Support Vector Machine, Decision Trees and their refinements (Pruning, Bagging and Random Forest) and Boosting presented reasonable values of AER and are presented as alternative techniques for situations where the necessary assumptions for the application of Fisher Discriminant Function and Quadratic Discriminant Function techniques are not met.
Descrição
Palavras-chave
Análise discriminatória, Análise multivariada, Métodos de simulação
Citação
CARVALHO, Vitor Prado de. Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados. 2019. 47 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2019.