Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
9 resultados
Resultados da Pesquisa
Item Aprendizado de máquina e estatístico na discriminação de populações na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados(Universidade Federal de Viçosa, 2019-07-22) Carvalho, Vitor Prado de; Nascimento, Moysés; http://lattes.cnpq.br/1140674951892263Na análise discriminante, é avaliado a diversidade ou classificação dos indivíduos nas populações, para tal um grande número de metodologias está disponível, dentre as quais destacam-se os métodos multivariados de análise discriminante que têm sido utilizados em estudos preditivos da diversidade genética. Tal metodologia visa identificar as populações nas quais um indivíduo deva pertencer, admitindo previamente, que este indivíduo pertença a uma das populações avaliadas, no entanto esta análise pressupõe que as populações sejam provenientes de uma distribuição normal multivariada. Dentre as diversas metodologias de análise discriminante destaca-se a função discriminante linear de Fisher que possui para sua utilização a pressuposição de que as matrizes de covariância entre as populações sejam homogêneas, e na quebra desse pressuposto outras abordagens são necessárias como a análise discriminante quadrática ou auxilio de métodos computacionais como os de aprendizado de máquina. Desse modo o presente trabalho visa avaliar a robustez da função discriminante linear de Fisher na presença de matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados, já que na literatura não exemplifica o critério de escolha quanto ao uso de tal função. Os dados foram gerados por meio de simulação com cenários caracterizados por matrizes de covariâncias heterogêneas e vetores aleatórios não normais multivariados e seus resultados foram comparados com outras metodologias de mesmo proposito, tais como a Análise Discriminante Quadrática, Redes Neurais Artificiais, Máquina de Vetor Suporte e Árvore de Classificação. De acordo com os resultados foi possível observar que as técnicas para classificação de indivíduos devem ser utilizadas seguindo suas pressuposições. Especificamente, para situações em que os dados apresentam normalidade multivariada e heterocedasticidade de matrizes de covariâncias, a função discriminante Quadrática apresentou melhores resultados quanto ao valor de Taxa de Erro Aparente (TEA). Para situações em que os dados apresentaram distribuição Poisson multivariada e homogeneidade de matrizes de covariância, a Função Discriminante de Fisher apresentou menores valores de TEA. As demais metodologias, Redes Neurais Artificiais, Máquina de Vetor Suporte, Árvores de Decisão e seus refinamentos (Poda, Bagging e Random Forest) e Boosting apresentaram valores razoáveis de TEA e se apresentam como técnicas alternativas para situações em que os pressupostos necessários para aplicação das técnicas da Função Discriminante de Fisher e da Função Discriminante Quadrática não são atendidos.Item Regressão multivariada para determinação de sacarose na presença de cacau usando diferentes instrumentos de espectroscopia NIR(Universidade Federal de Viçosa, 2019-02-19) Silva, Raphael Henrique Teixeira; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3045503690859643O objetivo deste trabalho foi realizar um estudo comparativo entre os dois tipos de instrumentos da técnica NIR (o NIR de bancada, com maior resolução (1000nm até 2500nm), e o portátil, com menor resolução (900nm até 1700nm)) e averiguar se o NIR portátil é um substituto ao NIR de bancada. A fim de elucidar a viabilidade, ou não, da utilização do NIR portátil, foram realizados experimentos de mistura entre cacau e sacarose (Experimento 1) e cacau, sacarose e frutose (Experimento 2). Para ambos os experimentos, observou-se que a diferença dos erros relativos entre os instrumentos (NIR portátil e de bancada) não foram tão expressivas, sendo, em média, 4% de diferença entre as amostras do NIR portátil e do bancada para o Experimento 1, e 6% para o Experimento 2. É importante dizer que quando se utiliza a mesma faixa espectral coincidente em ambos os instrumentos (1000nm até 1700nm), pode-se concluir que o NIR portátil é recomendado para estudos de mistura de cacau e sacarose, e para os que envolvem frutose na mistura. Considerando os resultados para as amostras dos produtos industrializados, observou-se que os modelos dos Experimentos 1 e 2, utilizando o NIR portátil, foram capazes de predizer, de forma significativa, os percentuais de sacarose correspondente nas embalagens dos produtos de interesse. Desta forma, o instrumento portátil apresentou ser uma boa alternativa para realizar as análises para predição de sacarose, considerando o custo-benefício, podendo-se reduzir custos com aquisição de instrumento e proporcionar rapidez e maior mobilidade para análises.Item Desempenho do método de estimação por componentes principais e da rotação varimax na análise de fatores(Universidade Federal de Viçosa, 2018-02-26) Dias, Camila Rafaela Gomes; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/9344133084999794Com o objetivo de avaliar o desempenho do método dos componentes principais utilizando a análise de fatores ortogonais, com e sem rotação varimax, a partir das estimativas dos seus parâmetros, foram estabelecidas 18 matrizes de correlações que configuraram diferentes graus de relações entre quatro variáveis aleatórias normalmente distribuídas. Inicialmente, avaliou-se a adequação das matrizes de correlações para a aplicação da análise de fatores pelo teste de esfericidade de Bartlett e pelo critério de KMO. Definiram-se como variáveis explicativas os autovalores, a matriz de cargas fatoriais, a comunalidade e a soma de quadrados da matriz de resíduos. Em seguida, foram calculados os erros relativos médios dos desvios entre os valores teóricos e estimados dessas variáveis, definidos, respectivamente, por: ∆λ, ∆λ1 , ∆λ2 , ∆Γ e ∆h². Além disso, calculou-se também a soma de quadrados da matriz de resíduos para avaliar a qualidade de ajuste de cada modelo fatorial ortogonal. Ao total, foram efetuadas 36 análises de fatores, sem e com rotação varimax. Posteriormente, para cada variável avaliada foi realizada uma análise de superfície de resposta. Concluiu-se que para os dados que seguem distribuição normal p-variada o método de estimação da análise de fatores ortogonais por componentes principais não foi adequado e a rotação varimax não melhorou os resultados quando utilizado com esse método. As análises estatísticas foram realizadas no software R.Item Identificação de outliers multivariados - Uma aplicação em dados de saúde(Universidade Federal de Viçosa, 2017-02-17) Barbosa, Josino José; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/1948800098593563A identificação de outliers desempenha um papel importante na análise estatística, pois tais observações podem conter informações importantes em relação aos dados. Se modelos estatísticos clássicos são cegamente aplicados a dados contendo valores atípicos, os resultados podem ser enganosos e decisões equivocadas podem ser tornadas. Além disso, em situações práticas, os próprios outliers são muitas vezes os pontos especiais de interesse e sua identificação pode ser o principal objetivo da investigação. Por isso, a finalidade desse trabalho é propor uma técnica de detecção de outliers multivariados, baseada em análise agrupamento e comparar essa técnica com o método de identificação de outliers via Distância de Mahalanobis. Para geração dos dados utilizou-se simulação através do Método de Monte Carlo e a técnica de mistura de distribuições normais multivariadas. Os resultados apresentados nas simulações mostram que o método proposto foi superior ao método de Mahalanobis tanto para sensibilidade quanto para especificidade, ou seja, ele apresenta maior capacidade de diagnosticar corretamente os indivíduos outliers e os não outliers. Além disso, a metodologia proposta foi ilustrada com uma aplicação em dados reais provenientes da área de saúde.Item Seleção de variáveis no estudo da diversidade genética via análise de procrustes(Universidade Federal de Viçosa, 2016-02-24) Pontes, Daiana Salles; Cruz, Cosme Damião; http://lattes.cnpq.br/6638973949782292Para o sucesso de um programa de melhoramento é indispensável que população de trabalho disponha de variabilidade genética de forma que a prática de seleção seja viável. Nesse sentido, a avaliação da divergência genética têm sido de grande importância por fornecerem parâmetros para a identificação de combinações híbridas cujo cruzamento proporcione maior efeito heterótico e maior probabilidade de recuperar genótipos superiores nas gerações segregantes. O estudo sobre diversidade genética elucida relações genéticas, quantifica ou prediz o nível de variabilidade total existente e sua distribuição entre indivíduos, acessos de bancos de germoplasma, linhagens e cultivares ou dentro de populações e espécies. Conhecimento que tem proporcionado, dentre outras coisas, importantes contribuições ao melhoramento genético, ao gerenciamento de bancos de germoplasma e à conservação de recursos genéticos. Assim, o interesse maior, em estudos de caracterização da diversidade genética das espécies vegetais, animais e de microrganismos consiste na identificação de grupos de genótipos similares de forma que a maior diferença entre os grupos formados seja realçada. Para isso, algumas técnicas multivariadas, como análise discriminante, componentes principais, análise de coordenadas e de agrupamento podem ser utilizadas nesse tipo de estudo. Contudo, de modo geral, tais técnicas ainda exigem a utilização de todas as variáveis para a avaliação dos indivíduos/acessos, o que nem sempre é possível devido ao alto custo ou mesmo o grau de dificuldade envolvido na obtenção de determinadas variáveis. É necessária, portanto, a aplicação de algum método de seleção de variáveis ou de um critério de seleção baseado em alguma técnica analítica, como é o caso do critério apresentado por Jolliffe (1972). Baseado na técnica de componentes principais, esse critério é usualmente utilizado na determinação da importância relativa de caracteres no estudo da diversidade de modo que caracteres de menor importância serão desconsiderados do estudo. Há também outra metodologia baseada em Análise de Procrustes ainda pouco utilizada em estudos de diversidade genética, sobretudo para este fim, por meio da qual é possível selecionar variáveis com base no padrão de dissimilaridade ou similaridade entre acessos. Desta forma, este trabalho tem por objetivo propor um critério baseado em Análise de Procrustes como nova possibilidade para a seleção de variáveis no estudo da diversidade genética. Em seguida, comparar o critério apresentado com o critério proposto por Jolliffe (1972) - ambos os critérios estabelecidos por meio do uso de componentes principais. Para elucidar a teoria apresentada, foram consideradas informações de 40 acessos de café Conilon avaliados em Sooretama/ES no ano 2000 segundo 16 caracteres agronômicos. As técnicas apresentadas neste trabalho demonstram ser vantajosas na seleção (ou descarte) de variáveis proporcionando relevante contribuição para os estudos sobre diversidade genética. A técnica apresentada, baseada em análise de Procrustes, torna-se uma alternativa mais eficaz do que o uso do critério de Jolliffe (1972) para fins de estudo da diversidade genética.Item Análise biométrica de acessos de Capsicum chinense Jacq. com ênfase na diversidade genética(Universidade Federal de Viçosa, 2016-02-23) Oliveira, Ana Carolina Ribeiro de; Cecon, Paulo Roberto; http://lattes.cnpq.br/0231423029429573Os estudos de divergência genética são fundamentais para subsidiar ações de conservação, de utilização dos recursos genéticos e posterior aplicação em programas de melhoramento, visando à obtenção de genótipos superiores. Sendo assim, este trabalho teve por objetivo avaliar a diversidade genética de acessos de pimenta, Capsicum chinense Jacq., por meio de técnicas multivariadas de agrupamentos utilizando os métodos hierárquicos (UPGMA e Ward) e de otimização (Tocher e Tocher modificado). O experimento foi conduzido na área experimental do setor de olericultura do Departamento de Fitotecnia da Universidade Federal de Viçosa (UFV), sob delineamento inteiramente casualizado, com quatro repetições e uma planta por parcela. Foram avaliados 11 acessos de C. chinense registrados no Banco de Germoplasma de Hortaliças (BGH/UFV), com base em 11 caracteres. Os resultados indicaram pelos métodos hierárquicos a formação de dois grupos, sendo que 72,73% dos acessos pertenciam ao grupo I e 27,27% ao grupo II; e ambas as estruturas de agrupamento foram validadas pelo coeficiente de correlação cofenética (r). Os métodos de otimização, Tocher e Tocher modificado, reuniram os acessos em seis e quatro grupos, respectivamente, revelando maior diversidade dos acessos em relação aos métodos anteriores. Assim, independente do método utilizado foi possível identificar os acessos mais divergentes e, consequentemente, contribuir para futuras pesquisas de cruzamento buscando híbridos com maior efeito heterótico.Item Predição fenotípica em cana-de-açúcar via modelos multivariados com dados de espectroscopia no infravermelho próximo(Universidade Federal de Viçosa, 2016-02-24) Fernandes, Jaqueline Gonçalves; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3794489635901020A produção da cana-de-açúcar desempenha papel fundamental na economia do país. Para o desenvolvimento de variedades que atendam as necessidades atuais e também as necessidades futuras é essencial buscar métodos de fenotipagem que proporcionem maior facilidade de utilização, além de rapidez, exatidão e consistência. Visando contribuir para o desenvolvimento de novas estratégias de fenotipagem, esse trabalho teve como objetivo principal construir modelos de predição fenotípica utilizando calibração multivariada. Foram construídos modelos empregando regressão por quadrados mínimos parciais (PLS), regressão por componentes principais (PCR), Ridge Regression (RR- BLUP) e Lasso bayesiano (BLASSO) a partir de dados obtidos com espectroscopia na região infravermelho próximo (NIR) em diferentes tipos de amostras de cana-de-açúcar. Esses modelos foram construídos com o objetivo de predizer o teor de fibra (FIB), o teor de sacarose aparente (PC) e o teor de lignina (LIG). O conjunto de calibração foi composto por 166 clones e o de previsão por 20 clones. Os valores de FIB, PC e LIG variaram respectivamente de 8,36% a 22,53%, 1,78% a 16,89% e 13,79% a 21,08%. Os modelos RR- BLUP e BLASSO apresentaram coeficientes de correlação entre 0,70 e 0,91, valores superiores ou iguais aos dos modelos PLS, que por sua vez foram superiores aos dos modelos obtidos por PCR. Para predição de PC e FIB é aconselhável utilizar amostras de colmo devido ao maior poder preditivo além de ser mais viável devido à maior praticidade quando comparado com as amostras de bagaço. Foi possível construir um modelo eficiente para predizer LIG utilizando amostras de bagaço seco. Todos os modelos escolhidos apresentaram bom desempenho para ranquear os melhores clones de acordo com os caracteres em estudo, apresentando medidas elevadas de acurácia, medidas pequenas da taxa de falso positivo e boa precisão.Item Uma proposta para a construção de gráficos de controle por meio de componentes principais(Universidade Federal de Viçosa, 2015-02-24) Manuli, Rômulo César; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/1315697041807130Idealizados inicialmente por Shewhart, os gráficos de controle são ferramentas utilizadas para o monitoramento de processos. Quando o objetivo é controlar várias características de um mesmo processo, é recomendável a aplicação dos gráficos de controle multivariados, ou seja, gráficos que monitorem todas essas características simultaneamente. O objetivo deste trabalho foi elaborar uma proposta de um gráfico de controle multivariado construído por meio de componentes principais, sendo esta uma técnica de análise multivariada que reduz a dimensionalidade dos dados. Os componentes principais são indicados para o controle estatístico de processos multivariados que envolvam um conjunto de dados com grande número de variáveis correlacionadas. Para tanto, foram analisados 20 cenários compostos, cada um, por mil pares de valores simulados para as duas variáveis-resposta correlacionadas com as seguintes correlações: 0,1; 0,3; 0,5; 0,7 e 0,9. Em cinco dos vinte cenários avaliados, o processo encontrava-se sob controle estatístico. Nos demais quinze cenários, o processo se encontrava fora de controle estatístico, dos quais, cinco apresentavam deslocamento na média de controle, em outros cinco os processos apresentaram aumento no desvio-padrão de controle e, por fim, os cinco restantes cenários apresentaram alterações na média de controle e no desvio-padrão de controle, simultaneamente. Para o total dos vinte cenários, foram construídos gráficos de controle empregando a matriz de variâncias e covariâncias (sΣ), onde os 2 elementos são as variâncias de controle ( σ 01 e σ 02 ) e as covariâncias estipuladas para o estudo, a matriz de correlações (ρ), onde os elementos são obtidos a partir da matriz de variâncias e covariâncias (Σ) e, por último, a matriz de coeficientes de variação (Σ*), realizando a transformação dos dados. Nesta transformação, os dados, após serem padronizados com média zero e variância um, têm suas variâncias ponderadas pelos respectivos coeficientes de variação (CVs). Em todas as três propostas, as probabilidades dos alarmes falsos obtidas foram constantes e iguais ao valor teórico esperado de 0,0027. As probabilidades dos alarmes verdadeiros foram baixas em todos os casos. A matriz Σ mostrou-se superior às demais nos cenários onde ocorreu o deslocamento da média e no cenário onde ocorreu o deslocamento da média e o aumento da variabilidade, simultaneamente. Já no cenário onde ocorreu somente o aumento da variabilidade, as matrizes Σ e Σ* mostraram-se exatamente iguais. As correlações existentes entre as variáveis-resposta não influenciaram nas probabilidades dos alarmes falsos e verdadeiros. Assim, quando o objetivo do controle for apontar pequenos desvios na média de controle ou pequenos aumentos na variabilidade, nenhuma das três propostas são indicadas, pois não são poderosas para apontar pequenas oscilações do processo. Uma alternativa para aumentar o poder no apontamento destas pequenas oscilações é plotar esta nova variável criada em outros gráficos de controle, como EWMA e CUSUM, por exemplo. Esta nova variável é uma combinação das variáveis-resposta e pode ser plotada em outros gráficos univariados.Item Análise de trilha em dados de produção e tecnológicos da cana-de-açúcar(Universidade Federal de Viçosa, 2010-02-04) Espósito, Deiciana Pagano; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; Barbosa, Marcio Henrique Pereira; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782585E6; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://lattes.cnpq.br/7018279585926960; Carneiro, Antônio Policarpo Souza; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4799449E8; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5Com o objetivo de quantificar os efeitos diretos e indiretos, por meio da análise de trilha, utilizando valores fenotípicos e genotípicos dos componentes de produção - número de colmos por parcela, diâmetro médio de colmos e comprimento médio de colmos - sobre produtividade de colmos por hectare em cana-de-açúcar, foram obtidos dados de dois experimentos nas fases de cana-planta e cana-soca, em etapa inicial de seleção do programa de melhoramento da cana-de-açúcar no estado de Minas Gerais. Foram avaliados, ao nível de parcela, os caracteres tonelada de colmos por hectare (TCH), como variável principal, e seus componentes de produção, número de colmos (NC), diâmetro médio de colmos (DC) e comprimento médio de colmos (CC), como variáveis explicativas. Os coeficientes de determinação foram elevados em todas as análises de trilha, indicando que os componentes avaliados explicam grande parte da variação existente na produção de colmos. Pela análise dos efeitos diretos fenotípicos e genotípicos, NC foi a variável que melhor se correlacionou com TCH, em ambos os experimentos e estágios, demonstrando a possibilidade de obtenção de ganhos significativos por meio da seleção indireta para TCH via NC. A avaliação das relações de causa e efeito entre os componentes de produção em cana-de-açúcar possibilitou verificar que houve variação entre os experimentos, o que provavelmente se deve à origem diferenciada das famílias avaliadas. Como na técnica de análise de trilha os parâmetros são estimados a partir de matrizes de correlações que podem ser mal condicionadas por efeito de multicolinearidade entre as variáveis envolvidas, foram avaliados dados em cana-soca, obtidos do programa de melhoramento da cana-de-açúcar da Universidade Federal de Viçosa, para comparar o método baseado na regressão em crista e a exclusão de variáveis por componentes principais para a estimação dos coeficientes de trilha em presença de multicolinearidade. Foram amostradas dez plantas por parcela para realização das análises das variáveis explicativas Brix (teor de sólidos solúveis), Pol (teor de sacarose aparente), pH (indica o grau de acidez), AR (açúcares redutores), ART (açúcares totais recuperáveis), Cu (cobre), Al (alumínio), Mg (magnésio), Ca (cálcio), K (potássio), Ácido aconítico, Compostos fenólicos, e da variável principal Cor ICUMSA. A matriz de correlação obtida dos dados foi submetida a diferentes métodos para diagnóstico de multicolinearidade. Sob multicolinearidade severa, os métodos baseados na regressão em crista e em componentes principais apresentaram resultados semelhantes na estimação dos coeficientes de trilha, proporcionando sensível redução na magnitude dos fatores de inflação da variância associados aos efeitos diretos e indiretos da análise de trilha. Assim, foi possível identificar neste estudo, os caracteres alumínio (Al), potássio (K) e Compostos fenólicos como aqueles que melhor explicam a Cor do caldo. Contudo, os demais caracteres devem ser levados em consideração devido a elevada correlação existente e a baixa magnitude do efeito direto, evidenciando a necessidade de seleção simultânea de caracteres, com ênfase também nos caracteres cujos efeitos indiretos são significativos. Para fins de melhoramento, a seleção indireta para Cor do caldo, por meio de índice de seleção envolvendo as variáveis Brix, Pol, AR, ATR, pH, Cu, Al, Mg, Ca, K, Compostos fenólicos e Ácido aconítico é recomendável.