Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados

dc.contributorCampos, Mauro César Martins
dc.contributorSant'anna, Isabela de Castro
dc.contributor.advisorNascimento, Moysés
dc.contributor.authorCarvalho, Vitor Prado de
dc.contributor.authorLatteshttp://lattes.cnpq.br/1140674951892263pt-BR
dc.date.accessioned2020-01-08T11:33:41Z
dc.date.available2020-01-08T11:33:41Z
dc.date.issued2019-07-22
dc.degree.date2019-07-22
dc.degree.departmentDepartamento de Estatísticapt-BR
dc.degree.grantorUniversidade Federal de Viçosapt-BR
dc.degree.levelDoutoradopt-BR
dc.degree.localViçosa - MGpt-BR
dc.degree.programDoutor em Estatística Aplicada e Biometriapt-BR
dc.description.abstractNa análise discriminante, é avaliado a diversidade ou classificação dos indivíduos nas populações, para tal um grande número de metodologias está disponível, dentre as quais destacam-se os métodos multivariados de análise discriminante que têm sido utilizados em estudos preditivos da diversidade genética. Tal metodologia visa identificar as populações nas quais um indivíduo deva pertencer, admitindo previamente, que este indivíduo pertença a uma das populações avaliadas, no entanto esta análise pressupõe que as populações sejam provenientes de uma distribuição normal multivariada. Dentre as diversas metodologias de análise discriminante destaca-se a função discriminante linear de Fisher que possui para sua utilização a pressuposição de que as matrizes de covariância entre as populações sejam homogêneas, e na quebra desse pressuposto outras abordagens são necessárias como a análise discriminante quadrática ou auxilio de métodos computacionais como os de aprendizado de máquina. Desse modo o presente trabalho visa avaliar a robustez da função discriminante linear de Fisher na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados, já que na literatura não exemplifica o critério de escolha quanto ao uso de tal função. Os dados foram gerados por meio de simulação com cenários caracterizados por matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados e seus resultados foram comparados com outras metodologias de mesmo proposito, tais como a Análise Discriminante Quadrática, Redes Neurais Artificiais, Máquina de Vetor Suporte e Árvore de Classificação. De acordo com os resultados foi possível observar que as técnicas para classificação de indivíduos devem ser utilizadas seguindo suas pressuposições. Especificamente, para situações em que os dados apresentam normalidade multivariada e heterocedasticidade de matrizes de covariâncias, a função discriminante Quadrática apresentou melhores resultados quanto ao valor de Taxa de Erro Aparente (TEA). Para situações em que os dados apresentaram distribuição Poisson multivariada e homogeneidade de matrizes de covariância, a Função Discriminante de Fisher apresentou menores valores de TEA. As demais metodologias, Redes Neurais Artificiais, Máquina de Vetor Suporte, Árvores de Decisão e seus refinamentos (Poda, Bagging e Random Forest) e Boosting apresentaram valores razoáveis de TEA e se apresentam como técnicas alternativas para situações em que os pressupostos necessários para aplicação das técnicas da Função Discriminante de Fisher e da Função Discriminante Quadrática não são atendidos.pt-BR
dc.description.abstractIn discriminant analysis, is evaluated the diversity or classification of individuals in populations, for that a large number of methodologies are available, among which stand out the multivariate methods of discriminant analysis that have been widely used in predictive studies of genetic diversity. This methodology aims to identify the populations in which an individual should belong, previously admitting that this individual belongs to one of the evaluated populations, however this analysis assumes that the populations come from a normal multivariate distribution. Among the various discriminant analysis methodologies, stands out the Fisher's linear discriminant function, which has for its use the assumption that the covariance matrices between populations are homogeneous, and in breaking this assumption other approaches are necessary such as quadratic discriminant analysis or the aid of computational methods such as machine learning. Thus, the present work aims to evaluate the robustness of Fisher's linear discriminant function in the presence of heterogeneous covariance matrices and multivariate non-normal random vectors since in the literature it does not exemplify the criterion of choice regarding the use of such function. The data were generated by simulation with scenarios characterized by heterogeneous covariance matrices and multivariate non-normal random vectors and their results were compared with other methodologies of the same purpose, such as Quadratic Discriminant Analysis, Artificial Neural Networks, Support Vector Machine and Decision Tree. According to the results it was observed that the techniques for classification of individuals should be used following their assumptions. Specifically, for situations in which data present multivariate normality and heteroscedasticity of covariance matrices, the Quadratic discriminant function presented better results regarding the Apparent Error Rate (AER) value. For situations in which the data presented multivariate Poisson distribution and homogeneity of covariance matrices, Fisher Discriminant Function presented lower AER values. The other methodologies such as, Artificial Neural Networks, Support Vector Machine, Decision Trees and their refinements (Pruning, Bagging and Random Forest) and Boosting presented reasonable values of AER and are presented as alternative techniques for situations where the necessary assumptions for the application of Fisher Discriminant Function and Quadratic Discriminant Function techniques are not met.en
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt-BR
dc.identifier.citationCARVALHO, Vitor Prado de. Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados. 2019. 47 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2019.pt-BR
dc.identifier.urihttps://locus.ufv.br//handle/123456789/27513
dc.language.isoporpt-BR
dc.publisherUniversidade Federal de Viçosapt-BR
dc.rightsAcesso Abertopt-BR
dc.subjectAnálise discriminatóriapt-BR
dc.subjectAnálise multivariadapt-BR
dc.subjectMétodos de simulaçãopt-BR
dc.subject.cnpqMelhoramento Vegetalpt-BR
dc.titleAprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariadospt-BR
dc.titleMachine and statistical learning in discrimination of the population in the presence of heterogeneous covariance matrices and multivariate non-normal random vectorsen
dc.typeTesept-BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Imagem de Miniatura
Nome:
texto completo.pdf
Tamanho:
796.18 KB
Formato:
Adobe Portable Document Format
Descrição:
texto completo

Licença do pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: