Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
3 resultados
Resultados da Pesquisa
Item Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados(Universidade Federal de Viçosa, 2021-04-20) Barbosa, Josino José; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/1948800098593563Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM.Item Avaliação de agrupamentos em mistura de variáveis(Universidade Federal de Viçosa, 2013-02-06) Vidigal, Bruno Caetano; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5; http://lattes.cnpq.br/4686534144477456; Ferreira, Adésio; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4777896Y8A análise de agrupamento é amplamente utilizada em muitas áreas de pesquisa a fim de se reconhecer uma estrutura padrão de variabilidade entre os indivíduos ou objetos estudados, classificando-os em grupos homogêneos. No entanto, dos trabalhos publicados, a maioria deles versam apenas sobre variáveis numéricas, excluindo da análise, as informações contidas nas variáveis categóricas. Dessa forma, esse trabalho teve o objetivo de avaliar várias formas de agrupamentos em um banco de dados simulado e também de disponibilizar uma rotina em R do algoritmo kprotótipos e uma rotina para se realizar agrupamentos hierárquicos. As medidas de distâncias avaliadas foram: euclidiana, euclidiana ao quadrado, euclidiana média, mahalanobis, manhattan, medidas combinadas e a de gower. Quanto aos algoritmos de agrupamento hierárquicos utilizados foram: vizinho mais próximo, vizinho mais distante, UPGMA e ward . Os algoritmos não-hierárquicos foram: k-médias e o kprotótipos. Os resultados obtidos foram confrontados entre si e concluiu-se que os algoritmos não-hierárquicos foram superiores aos hierárquicos e que incluir variáveis categóricas na análise é viável.Item Avaliação de métodos para determinação do número ótimo de clusters em estudo de divergência genética entre acessos de pimenta(Universidade Federal de Viçosa, 2009-01-19) Faria, Priscila Neves; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; Silva, Fabyano Fonseca e; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4759955H9; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; Carneiro, Antônio Policarpo Souza; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4799449E8; Finger, Fernando Luiz; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4783681Y0Muitas vezes, a interpretação dos resultados em análise de agrupamentos é feita de forma subjetiva, isto é, através da inspeção de dendrogramas. Isto se deve ao fato de haver dificuldade em se encontrar na literatura um critério objetivo de fácil aplicação para identificar o número ideal de grupos formados. Diante deste problema, o presente trabalho teve por objetivos: 1) Avaliar a aplicabilidade de critério objetivo de se obter o ponto de corte (número ótimo de clusters) num dendrograma para a tomada de decisão; 2) trabalhar os conceitos de índices como RMSSTD (root mean square standard deviation) e RS (R-Squared), discutindo a contribuição de cada um destes na obtenção do número ótimo de clusters em acessos de Capsicum chinense; 3) aplicação do método, visando a identificar acessos divergentes de Capsicum chinense para serem utilizados em programas de melhoramento. Os índices RMSSTD e RS são calculados de acordo com as variáveis entre e dentro dos grupos formados, caracterizando uma forma objetiva para determinar o número ótimo. Para se obter o ponto de máxima curvatura da trajetória dos índices RMSSTD e RS em função do aumento do número de grupos (X), utilizou-se o Método da Máxima Curvatura Modificado. Foram analisadas, por meio da análise de agrupamentos, algumas características morfológicas de quarenta e nove acessos da espécie Capsicum chinense Jacq. do Banco de Germoplasma de Hortaliças da Universidade Federal de Viçosa. A partir das técnicas propostas agrupou-se os acessos, obtendo um número ótimo de grupos. Os resultados classificam os 49 acessos avaliados em apenas sete grupos de acordo com o gráfico do RMSSTD versus o número de grupos e o gráfico do RS versus o número de grupos.