Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 4 de 4
  • Imagem de Miniatura
    Item
    Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados
    (Universidade Federal de Viçosa, 2019-07-22) Carvalho, Vitor Prado de; Nascimento, Moysés; http://lattes.cnpq.br/1140674951892263
    Na análise discriminante, é avaliado a diversidade ou classificação dos indivíduos nas populações, para tal um grande número de metodologias está disponível, dentre as quais destacam-se os métodos multivariados de análise discriminante que têm sido utilizados em estudos preditivos da diversidade genética. Tal metodologia visa identificar as populações nas quais um indivíduo deva pertencer, admitindo previamente, que este indivíduo pertença a uma das populações avaliadas, no entanto esta análise pressupõe que as populações sejam provenientes de uma distribuição normal multivariada. Dentre as diversas metodologias de análise discriminante destaca-se a função discriminante linear de Fisher que possui para sua utilização a pressuposição de que as matrizes de covariância entre as populações sejam homogêneas, e na quebra desse pressuposto outras abordagens são necessárias como a análise discriminante quadrática ou auxilio de métodos computacionais como os de aprendizado de máquina. Desse modo o presente trabalho visa avaliar a robustez da função discriminante linear de Fisher na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados, já que na literatura não exemplifica o critério de escolha quanto ao uso de tal função. Os dados foram gerados por meio de simulação com cenários caracterizados por matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados e seus resultados foram comparados com outras metodologias de mesmo proposito, tais como a Análise Discriminante Quadrática, Redes Neurais Artificiais, Máquina de Vetor Suporte e Árvore de Classificação. De acordo com os resultados foi possível observar que as técnicas para classificação de indivíduos devem ser utilizadas seguindo suas pressuposições. Especificamente, para situações em que os dados apresentam normalidade multivariada e heterocedasticidade de matrizes de covariâncias, a função discriminante Quadrática apresentou melhores resultados quanto ao valor de Taxa de Erro Aparente (TEA). Para situações em que os dados apresentaram distribuição Poisson multivariada e homogeneidade de matrizes de covariância, a Função Discriminante de Fisher apresentou menores valores de TEA. As demais metodologias, Redes Neurais Artificiais, Máquina de Vetor Suporte, Árvores de Decisão e seus refinamentos (Poda, Bagging e Random Forest) e Boosting apresentaram valores razoáveis de TEA e se apresentam como técnicas alternativas para situações em que os pressupostos necessários para aplicação das técnicas da Função Discriminante de Fisher e da Função Discriminante Quadrática não são atendidos.
  • Imagem de Miniatura
    Item
    Regressão multivariada para determinação de sacarose na presença de cacau usando diferentes instrumentos de espectroscopia NIR
    (Universidade Federal de Viçosa, 2019-02-19) Silva, Raphael Henrique Teixeira; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3045503690859643
    O objetivo deste trabalho foi realizar um estudo comparativo entre os dois tipos de instrumentos da técnica NIR (o NIR de bancada, com maior resolução (1000nm até 2500nm), e o portátil, com menor resolução (900nm até 1700nm)) e averiguar se o NIR portátil é um substituto ao NIR de bancada. A fim de elucidar a viabilidade, ou não, da utilização do NIR portátil, foram realizados experimentos de mistura entre cacau e sacarose (Experimento 1) e cacau, sacarose e frutose (Experimento 2). Para ambos os experimentos, observou-se que a diferença dos erros relativos entre os instrumentos (NIR portátil e de bancada) não foram tão expressivas, sendo, em média, 4% de diferença entre as amostras do NIR portátil e do bancada para o Experimento 1, e 6% para o Experimento 2. É importante dizer que quando se utiliza a mesma faixa espectral coincidente em ambos os instrumentos (1000nm até 1700nm), pode-se concluir que o NIR portátil é recomendado para estudos de mistura de cacau e sacarose, e para os que envolvem frutose na mistura. Considerando os resultados para as amostras dos produtos industrializados, observou-se que os modelos dos Experimentos 1 e 2, utilizando o NIR portátil, foram capazes de predizer, de forma significativa, os percentuais de sacarose correspondente nas embalagens dos produtos de interesse. Desta forma, o instrumento portátil apresentou ser uma boa alternativa para realizar as análises para predição de sacarose, considerando o custo-benefício, podendo-se reduzir custos com aquisição de instrumento e proporcionar rapidez e maior mobilidade para análises.
  • Imagem de Miniatura
    Item
    Desempenho do método de estimação por componentes principais e da rotação varimax na análise de fatores
    (Universidade Federal de Viçosa, 2018-02-26) Dias, Camila Rafaela Gomes; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/9344133084999794
    Com o objetivo de avaliar o desempenho do método dos componentes principais utilizando a análise de fatores ortogonais, com e sem rotação varimax, a partir das estimativas dos seus parâmetros, foram estabelecidas 18 matrizes de correlações que configuraram diferentes graus de relações entre quatro variáveis aleatórias normalmente distribuídas. Inicialmente, avaliou-se a adequação das matrizes de correlações para a aplicação da análise de fatores pelo teste de esfericidade de Bartlett e pelo critério de KMO. Definiram-se como variáveis explicativas os autovalores, a matriz de cargas fatoriais, a comunalidade e a soma de quadrados da matriz de resíduos. Em seguida, foram calculados os erros relativos médios dos desvios entre os valores teóricos e estimados dessas variáveis, definidos, respectivamente, por: ∆λ, ∆λ1 , ∆λ2 , ∆Γ e ∆h². Além disso, calculou-se também a soma de quadrados da matriz de resíduos para avaliar a qualidade de ajuste de cada modelo fatorial ortogonal. Ao total, foram efetuadas 36 análises de fatores, sem e com rotação varimax. Posteriormente, para cada variável avaliada foi realizada uma análise de superfície de resposta. Concluiu-se que para os dados que seguem distribuição normal p-variada o método de estimação da análise de fatores ortogonais por componentes principais não foi adequado e a rotação varimax não melhorou os resultados quando utilizado com esse método. As análises estatísticas foram realizadas no software R.
  • Imagem de Miniatura
    Item
    Identificação de outliers multivariados - Uma aplicação em dados de saúde
    (Universidade Federal de Viçosa, 2017-02-17) Barbosa, Josino José; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/1948800098593563
    A identificação de outliers desempenha um papel importante na análise estatística, pois tais observações podem conter informações importantes em relação aos dados. Se modelos estatísticos clássicos são cegamente aplicados a dados contendo valores atípicos, os resultados podem ser enganosos e decisões equivocadas podem ser tornadas. Além disso, em situações práticas, os próprios outliers são muitas vezes os pontos especiais de interesse e sua identificação pode ser o principal objetivo da investigação. Por isso, a finalidade desse trabalho é propor uma técnica de detecção de outliers multivariados, baseada em análise agrupamento e comparar essa técnica com o método de identificação de outliers via Distância de Mahalanobis. Para geração dos dados utilizou-se simulação através do Método de Monte Carlo e a técnica de mistura de distribuições normais multivariadas. Os resultados apresentados nas simulações mostram que o método proposto foi superior ao método de Mahalanobis tanto para sensibilidade quanto para especificidade, ou seja, ele apresenta maior capacidade de diagnosticar corretamente os indivíduos outliers e os não outliers. Além disso, a metodologia proposta foi ilustrada com uma aplicação em dados reais provenientes da área de saúde.