Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
2 resultados
Resultados da Pesquisa
Item Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados(Universidade Federal de Viçosa, 2019-07-22) Carvalho, Vitor Prado de; Nascimento, Moysés; http://lattes.cnpq.br/1140674951892263Na análise discriminante, é avaliado a diversidade ou classificação dos indivíduos nas populações, para tal um grande número de metodologias está disponível, dentre as quais destacam-se os métodos multivariados de análise discriminante que têm sido utilizados em estudos preditivos da diversidade genética. Tal metodologia visa identificar as populações nas quais um indivíduo deva pertencer, admitindo previamente, que este indivíduo pertença a uma das populações avaliadas, no entanto esta análise pressupõe que as populações sejam provenientes de uma distribuição normal multivariada. Dentre as diversas metodologias de análise discriminante destaca-se a função discriminante linear de Fisher que possui para sua utilização a pressuposição de que as matrizes de covariância entre as populações sejam homogêneas, e na quebra desse pressuposto outras abordagens são necessárias como a análise discriminante quadrática ou auxilio de métodos computacionais como os de aprendizado de máquina. Desse modo o presente trabalho visa avaliar a robustez da função discriminante linear de Fisher na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados, já que na literatura não exemplifica o critério de escolha quanto ao uso de tal função. Os dados foram gerados por meio de simulação com cenários caracterizados por matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados e seus resultados foram comparados com outras metodologias de mesmo proposito, tais como a Análise Discriminante Quadrática, Redes Neurais Artificiais, Máquina de Vetor Suporte e Árvore de Classificação. De acordo com os resultados foi possível observar que as técnicas para classificação de indivíduos devem ser utilizadas seguindo suas pressuposições. Especificamente, para situações em que os dados apresentam normalidade multivariada e heterocedasticidade de matrizes de covariâncias, a função discriminante Quadrática apresentou melhores resultados quanto ao valor de Taxa de Erro Aparente (TEA). Para situações em que os dados apresentaram distribuição Poisson multivariada e homogeneidade de matrizes de covariância, a Função Discriminante de Fisher apresentou menores valores de TEA. As demais metodologias, Redes Neurais Artificiais, Máquina de Vetor Suporte, Árvores de Decisão e seus refinamentos (Poda, Bagging e Random Forest) e Boosting apresentaram valores razoáveis de TEA e se apresentam como técnicas alternativas para situações em que os pressupostos necessários para aplicação das técnicas da Função Discriminante de Fisher e da Função Discriminante Quadrática não são atendidos.Item Discriminação de população por meio de inteligência computacional(Universidade Federal de Viçosa, 2016-02-25) Carvalho, Vitor Prado de; Nascimento, Moysés; http://lattes.cnpq.br/1140674951892263É importante para a preservação da variabilidade genética e da biodiversidade a correta classificação dos indivíduos. As técnicas de estatística multivariada comumente utilizada nessas situações são as funções discriminantes de Fisher e de Anderson, que permitem alocar um indivíduo inicialmente desconhecido em uma das g populações prováveis ou grupos pré-definidos. Entretanto, para o caso de populações não linearmente separáveis, esses métodos tem se mostrado pouco eficientes devido ao fato de não conseguir detectar a diferença entre as populações. Em alguns casos é preciso captar o máximo de informação possível e para tal outro método é necessário quando não for possível adquirir resultados pelos métodos multivariados. Portanto uma alternativa como possível solução para tal finalidade são as redes neurais artificiais, utilizadas em diversos problemas da Estatística, como agrupamento de indivíduos similares, previsão de séries temporais e em especial, os problemas de classificação. Outra técnica computacional que também vem adquirindo credibilidade e grande atenção nos últimos anos é conhecida como Máquina de Vetor Suporte (Support Vector Machines - SVMs). As SVMs vêm sendo utilizadas em diversas tarefas de reconhecimento de padrões, obtendo resultados superiores ou similares aos alcançados por técnicas similares em várias aplicações como em detecção de faces em imagens e na categorização de textos. Diante do exposto, o objetivo deste trabalho é avaliar a utilização da máquinas de vetores suporte em problemas de discriminação de populações com estruturas genéticas conhecidas. Além disso, os resultados obtidos pela técnica foram comparados com aqueles advindos de análises discriminante de Anderson e redes neurais. Cada população foi caracterizada por um conjunto de elementos mensurados por características de natureza contínua. Foram geradas considerados 50 locos independentes, cada qual com dois alelos. As relações de parentescos e a estruturação hierárquica foram estabelecidas considerando populações genitoras geneticamente divergentes, híbrido F 1 e três gerações de retrocruzamentos em relação a cada um dos genitores, permitindo estabelecer parâmetros de eficácia das metodologias testadas. Os dados fenotípicos das populações foram utilizados para estabelecimento da função discriminante de Anderson e para o cálculo da taxa de erro aparente (TEA), que mede o número de classificações incorretas. As estimativas de TEA foram comparadas com as obtida por meio das Redes Neurais Artificiais e a Máquina de Vetor Suporte para verificação dos problemas de classificações, buscando minimizar o número de classificações incorretas em comparação aos obtidos pela função discriminante. De acordo com os resultados avaliados, a Rede Neural obteve resultados satisfatórios com TEA a 0% enquanto que o método SVM obteve TEA de 14,44% a 67,41% enquanto que a de Anderson manteve TEA entre 18,89% a 74,07%. No entanto são necessários mais estudos quanto a utilização da SVM com base em algoritmos de otimização de busca para o espaço de parâmetros para pôr fim tentar alcançar resultados mais satisfatórios.