Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
Item Categorização de dados quantitativos para estudos de diversidade genética(Universidade Federal de Viçosa, 2010-12-15) Barroso, Natália Caixeta; Silva, Fabyano Fonseca e; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; http://lattes.cnpq.br/3693450916625203; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; Carneiro, Pedro Crescêncio Souza; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4728227T6; Bhering, Leonardo Lopes; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4764363E6O estudo da divergência genética é uma ferramenta importante na identificação de indivíduos geneticamente divergentes que, ao serem combinados, possam aumentar o efeito heterótico na progênie. Uma técnica estatística muito aplicada nesse tipo de estudo é a análise de agrupamento. Entretanto, antes dessa técnica ser empregada, deve ser obtida uma matriz de similaridade (ou distância) entre os genótipos. Essas distâncias podem ser calculadas de diversas maneiras, sendo que diferentes propostas são encontradas na literatura para as variáveis quantitativas, binárias e multicategóricas. A transformação de variáveis quantitativas em multicategóricas pode ser utilizada para facilitar sua caracterização com informações preliminares de grande utilidade. Existem vários métodos para se fazer essa transformação, porém estes precisam ser melhor entendidos para que a perda de informações ocorrida na transformação não prejudique significativamente os resultados da análise. Portanto, este trabalho teve como objetivos: verificar quais desses métodos de categorização de variáveis são eficientes; pesquisar a influência da escolha de diferentes coeficientes de dissimilaridades na análise de agrupamentos, feita a partir de dados simulados utilizando variáveis quantitativas e multicategóricas; e averiguar se alguns métodos hierárquicos agrupam com eficiência os dados simulados. Para isto, foram feitas 50 simulações de dez variáveis quantitativas para vinte genótipos de uma espécie de referência como o milho, cada um com quatro repetições. Estes dados foram transformados em multicategóricos através dos métodos: divisão equitativa da amplitude, percentual equitativo, regra do Quadrado, regra de Sturges e distribuição normal. O número de classes tinha que ser estabelecido para os dois primeiros, no caso, foi utilizado quatro e cinco classes para ambos. Foram utilizadas para construir as matrizes de distâncias, nos dados originais e multicategóricos, as medidas de dissimilaridade: distância euclidiana, euclidiana média, quadrado da distância euclidiana, distância de Mahalanobis e distância ponderada. Posteriormente, o agrupamento foi feito pelo método do vizinho mais próximo e pela ligação média entre grupos (UPGMA). A eficiência destes foi verificada através das estatísticas de eficiência coeficiente de correlação cofenética, estresse e grau de distorção entre as matrizes fenéticas e cofenéticas. Os resultados mostraram que o método de agrupamento UPGMA foi superior ao método do vizinho mais próximo para todas as medidas de distância utilizadas. As distâncias euclidiana e euclidiana média apresentaram a mesma performance em todas as análises de agrupamento feitas. Além disso, essas duas medidas obtiveram os melhores desempenhos em todos os agrupamentos realizados. Todos os métodos de categorização de dados conseguiram um desempenho satisfatório quando agrupados por UPGMA, exceto o método do percentual equitativo com quatro e cinco classes. Contudo, os dados que possuem suas classes estimadas pela regra do Quadrado apresentaram o dendrograma mais semelhante com o obtido pormeio dos dados originais, sendo este, então, o método mais recomendado para se fazer a categorização de dados.Item Discriminação de populações com diferentes graus de similaridade por redes neurais artificiais(Universidade Federal de Viçosa, 2009-12-15) Pereira, Tiago Martins; Regazzi, Adair José; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4783586A7; Ribeiro Junior, José Ivo; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282Y6; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; http://lattes.cnpq.br/1234901953219216; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; Carneiro, Pedro Crescêncio Souza; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4728227T6A correta classificação de indivíduos em grupos pré-estabelecidos tem se tornado de grande importância no melhoramento genético. As técnicas de estatística multivariada usualmente utilizadas nesse tipo de problema são as funções discriminantes de Fisher e as funções discriminantes de Anderson, que são usadas para alocar um indivíduo inicialmente desconhecido em uma das g populações ou grupos pré-definidos. Nas últimas décadas vêm surgindo um novo paradigma de computação, as redes neurais artificiais, que podem ser utilizadas para resolver diversos problemas da Estatística, como agrupamento de indivíduos similares, previsão de séries temporais e em especial, os problemas de classificação. O objetivo dessa pesquisa foi realizar um estudo comparativo entre as funções discriminantes de Fisher e de Anderson e as redes neurais artificiais quanto ao número de classificações erradas de indivíduos sabidamente pertencentes a diferentes populações, com distintos níveis de dissimilaridade. Essa dissimilaridade, medida pela distância de Mahalanobis, foi um conceito de fundamental importância na utilização das técnicas de discriminação, pois quantificou o quanto as populações eram divergentes. Quanto maior o valor observado para essa medida, menos similares foram as populações em análise. A obtenção dos dados foi feita através de simulação utilizando o programa computacional Genes (CRUZ, 2006). As redes neurais artificiais apresentaram uma taxa de indivíduos rejeitados por serem considerados ambíguos quanto às suas características discriminatórias. No entanto, mostraram-se uma técnica promissora no que diz respeito a problemas de classificação, uma vez que apresentaram um número de classificações erradas de indivíduos menor que aqueles dados pelas funções discriminantes.Item Imputação de médias para análise de estabilidade e adaptabilidade em experimentos conjuntos incompletos: uma aplicação em café conilon(Universidade Federal de Viçosa, 2012-02-15) Oliveira, Rafael Lédo Rocha de; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; http://lattes.cnpq.br/4786449688833028; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Ferrão, Romário Gava; http://lattes.cnpq.br/2340689518921145; Ribeiro Junior, José Ivo; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282Y6Este estudo teve por objetivo desenvolver, avaliar e verificar a influência de seis métodos de imputação de médias faltantes na recomendação de genótipos proveniente de metodologias de estabilidade e adaptabilidade em experimentos conjuntos incompletos de café conilon, de modo que seja possível constatar se é conveniente ou não a realização da imputação das médias faltantes. O primeiro método imputa uma média faltante por meio de um modelo que é função da média geral acrescida do efeito do genótipo; já o segundo, adiciona a esse modelo o efeito de ambiente. O terceiro, quarto e quinto métodos elaborados imputam uma média faltante por meio de uma regressão linear simples, cujas variáveis independentes são os índices ambientais, que são estimados utilizando todos os dados disponíveis no experimento conjunto (método 3), ou apenas as médias dos genótipos que foram avaliados em todos os ambientes (método 4). A variável independente do quinto método são as respostas médias do genótipo de maior correlação com aquele que se deseja estimar um valor faltante. A variável dependente destas regressões são as respostas médias do genótipo que se deseja estimar o valor faltante. O sexto método mantém a soma de quadrados da interação genótipo x ambiente. Para que a avaliação e verificação da influência dos métodos de imputação propostos fossem possíveis, foi obtido um conjunto de dados cedido pela INCAPER (Instituto Capixaba de Pesquisa, Assistência Técnica e Extensão Rural) oriundo de um experimento conjunto completo em que 38 genótipos (clones) de café conilon foram avaliados em 18 ambientes segundo suas produtividades (sacas/hectare). Este experimento foi submetido às análises de estabilidade e adaptabilidade de Lin & Binns (1998) e Eberhart-Russel (1966), gerando, dessa forma, recomendações padrão. Feito isto, médias foram retiradas aleatoriamente simulando experimentos com 1%, 5% e 10% de médias faltantes. Daí, por meio dos métodos de imputação elaborados, novos valores de médias foram gerados. A avaliação dessas metodologias e a verificação da influência da imputação na recomendação dos genótipos foram realizadas por meio do cálculo do Erro Quadrático Médio, da Correlação de Spearman entre a recomendação de Lin & Binns antes e após a imputação das médias, e da porcentagem de mudanças na recomendação dos genótipos em relação à recomendação padrão de Eberhart-Russel. Conforme os resultados obtidos neste estudo, a realização da imputação das médias mediante as metodologias desenvolvidas com melhor desempenho (2, 3, 4 e 6) em experimentos conjuntos incompletos é aconselhável, uma vez que a alteração nas recomendações dos genótipos avaliados foi pequena se comparado com o número de médias faltantes nos ensaios avaliados.Item Redes neurais artificiais: novo paradigma para a predição de valores genéticos(Universidade Federal de Viçosa, 2014-02-27) Silva, Gabi Nunes; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Bhering, Leonardo Lopes; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4764363E6; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; http://lattes.cnpq.br/6670284847005434; Tomaz, Rafael Simões; http://lattes.cnpq.br/7689901086405263Até então, as formas de aumentar o ganho por seleção tem sido apontadas pelas diferentes estratégias preconizadas nos métodos de melhoramento, ou pela utilização dos princípios básicos da experimentação, ou ainda recorrer a modelos biométricos que buscam parametrizar as influências tanto genotípicas quanto ambientais. Assim, no que se refere aos métodos de genética e estatística utilizados para seleção de genótipos superiores, destacam-se os métodos derivados da teoria de seleção direta, seleção indireta e por índice de seleção, o método de seleção combinada e o método REML-BLUP, dentre outros. Apesar das diversas metodologias disponíveis para a seleção de genótipos superiores, ainda é comum e necessário praticar seleção de indivíduos em relação a características com baixa confiabilidade de predição do valor genotípico a partir de um valor fenotípico dado pela média fenotípica corrigida ou ajustada em função da agregação de informações de parentes, de caracteres correlacionados ou de práticas de redução do efeito ambiental. No final, considera-se esta média fenotípica ajustada como a medida mais apropriada para indicar a superioridade genética e predizer o ganho genético. No entanto, tais modelos ou procedimentos não contemplam uma infinidade de outras informações estatísticas de grande relevância, diferentes da média fenotípica que é usualmente adotada, mas que agregam informações importantes acerca do genótipo avaliado e que têm sido deixadas à margem dos estudos envolvendo melhoramento genético e critérios de seleção. Neste contexto, as redes neurais artificiais constituem novo paradigma que tem sido empregado, ainda que de forma tênue, nos programas de melhoramento genético animal e vegetal. Essa abordagem, diferentemente das modelagens estocásticas utilizadas até então, é baseada nos princípios de aprendizado e de inteligência computacional de um conjunto amplo de informação do desempenho do genótipo envolvendo médias, máximos, mínimos, variância e toda ordem de informação possível de ser direta ou indiretamente mensurada. Assim, ao contrário dos métodos estatísticos que resumem as informações ou realizam a simplificação estrutural dos dados, as redes neurais, à semelhança do cérebro humano, captam toda informação disponível para gerar um critério de tomada de decisão. Assim, este trabalho foi realizado com o intuito de utilizar as redes neurais para melhorar a acurácia na predição de valores e ganhos genéticos, através de uma discussão de seus fundamentos teóricos e utilização de dados simulados, com mesma caracterização em termos de média, herdabilidade e coeficiente de variação dos dados reais, fornecendo um método alternativo para identificação de genótipos superiores.Item Redes neurais, identidade de modelos e resposta da cebola à adubação nitrogenada(Universidade Federal de Viçosa, 2013-03-21) Rodrigues, Dirceu Zeferino; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; http://lattes.cnpq.br/4541310431856092; Vidigal, Sanzio Mollica; http://lattes.cnpq.br/5365238542399439O estudo das curvas de produtividade comparadas com a quantidade de nitrogênio absorvido pela cultura da cebola é de fundamental importância para a formulação de um plano de adubação que seja mais eficiente tanto em termos técnicos quanto econômicos. Diversas técnicas estatísticas têm sido propostas, testadas e aprimoradas com o intuito de contribuir para alavancar pesquisas nesta direção. A justificativa para este trabalho de pesquisa está na necessidade de avaliar e aprimorar novas técnicas estatísticas que ajudem na obtenção de informações precisas com a finalidade de auxiliar na tomada de decisão visando melhorar a produtividade. Para isso, este estudo teve como objetivo empregar e avaliar duas metodologias de auxílio à estatística, mas com objetivos específicos distintos com respeito à avaliação da aplicação de nitrogênio na produção dos cultivares da cebola. Na primeira avaliação, objetivou-se utilizar técnicas estatísticas baseadas em modelos de regressão e ajustar curvas para alguns níveis de doses de nitrogênio, relacionadas à produtividade, para uma pesquisa realizada com quatro cultivares em locais distintos de cebola e, em seguida, avaliar a possibilidade de agrupamento desses modelos estatísticos obtidos, utilizando o teste de identidade de modelos. Nesta etapa, procurou-se estimar uma curva que representasse, em conjunto, o padrão de resposta à adubação em todos os quatro locais avaliados. No segundo estudo, a meta era verificar a eficiência de técnicas baseadas em redes neurais. Assim, a proposta foi constatar se já é possível utilizar, com segurança, esse novo conceito baseado em redes neurais artificiais em pesquisas relacionadas à resposta de cultivares de cebola à adubação nitrogenada. De uma maneira geral, o trabalho descreve o êxito da utilização de novas técnicas estatísticas com ênfase em redes neurais que ajudem melhorar a produtividade da cebola para, a partir daí, permitir aplicar e difundir técnicas baseadas em inteligência computacional para fins de estudos de predição e modelagem.Item O uso de simulação de Monte Carlo via cadeias de Markov no melhoramento genético(Universidade Federal de Viçosa, 2009-02-20) Nascimento, Moysés; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; http://lattes.cnpq.br/6544887498494945; Ferreira, Adésio; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4777896Y8; Viana, José Marcelo Soriano; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4786170D5Este trabalho teve por objetivo fornecer um referencial teórico e aplicado sobre os principais métodos de simulação de Monte Carlo via cadeias de Markov (MCMC), buscando dar ênfase em aplicações no melhoramento genético. Assim, apresentaram-se os algoritmos de Metropolis-Hastings, simulated annealing e amostrador de Gibbs. Os aspectos teóricos dos métodos foram abordados através de uma discussão detalhada de seus fundamentos com base na teoria de cadeias de Markov. Além da discussão teórica, aplicações concretas foram desenvolvidas. O algoritmo de Metropolis- Hastings foi utilizado para obter estimativas das freqüências de recombinação entre pares de marcadores de uma população F2, de natureza codominante, constituída de 200 indivíduos. O simulated annealing foi aplicado no estabelecimento da melhor ordem de ligação na construção de mapas genéticos de três populações F2 simuladas, com marcadores de natureza codominantes, de tamanhos 50, 100 e 200 indivíduos respectivamente. Para cada população foi estabelecido um genoma com quatro grupos de ligação, com 100 cM de tamanho cada. Os grupos de ligação possuem 51, 21, 11 e 6 marcadores, com uma distância de 2, 5, 10 e 20 cM entre marcas adjacentes respectivamente, ocasionando diferentes graus de saturação. Já o amostrador de Gibbs foi utilizado na obtenção das estimativas dos parâmetros de adaptabilidade e estabilidade, do modelo proposto por Finlay e Wilkinson (1963), através da inferência bayesiana. Foram utilizados os dados de médias de rendimento de cinco genótipos avaliados em nove ambientes, provenientes de ensaios em blocos ao acaso com quatro repetições. Em todas as aplicações os algoritmos se mostraram computacionalmente viáveis e obtiveram resultados satisfatórios.