Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
Item Análise de agrupamento para a avaliação de identidade de modelos não-lineares em análise de sobrevivência(Universidade Federal de Viçosa, 2009-02-19) Tomaz, Flávia Sílvia Corrêa; Martins Filho, Sebastião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282T5; Silva, Fabyano Fonseca e; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4248223A9; Carneiro, Antônio Policarpo Souza; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4799449E8; Silva, Gilson Fernandes da; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4768528D0; Faria, Mercio Botelho; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4183550E7O objetivo desse trabalho foi comparar modelos não-lineares ajustados aos dados de sobrevivência de formigas submetidas a diferentes tratamentos através de metodologia alternativa. Essa metodologia consistiu no uso da técnica de análise de agrupamento, método de Ward, para a identidade de modelos usados em análise de sobrevivência. Os dados utilizados neste trabalho são referentes a um experimento realizado no laboratório de entomologia da Universidade Federal de Viçosa. Foi também utilizado um conjunto de dados simulado com base na distribuição de Weibull. Inicialmente aplicou-se técnica não paramétrica, estimador Kaplan-Meier, a fim de estimar as curvas de sobrevivência de cada tratamento e, em seguida, o teste logrank para a comparação dessas curvas. Para os dados reais foi ajustado o modelo logístico aos tempos de sobrevivência, enquanto que, para os dados simulados foi ajustado o modelo de Weibull. Para cada caso agrupou-se os parâmetros estimados de cada modelo utilizando-se as técnicas de análise de agrupamento. Os resultados encontrados pelo agrupamento foram equivalentes aos do teste logrank. Concluiu-se que a metodologia proposta mostrou ser eficiente e menos trabalhosa, quando várias curvas de sobrevivência precisam ser comparadas.Item Análise de trilha em dados de produção e tecnológicos da cana-de-açúcar(Universidade Federal de Viçosa, 2010-02-04) Espósito, Deiciana Pagano; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; Barbosa, Marcio Henrique Pereira; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782585E6; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://lattes.cnpq.br/7018279585926960; Carneiro, Antônio Policarpo Souza; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4799449E8; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5Com o objetivo de quantificar os efeitos diretos e indiretos, por meio da análise de trilha, utilizando valores fenotípicos e genotípicos dos componentes de produção - número de colmos por parcela, diâmetro médio de colmos e comprimento médio de colmos - sobre produtividade de colmos por hectare em cana-de-açúcar, foram obtidos dados de dois experimentos nas fases de cana-planta e cana-soca, em etapa inicial de seleção do programa de melhoramento da cana-de-açúcar no estado de Minas Gerais. Foram avaliados, ao nível de parcela, os caracteres tonelada de colmos por hectare (TCH), como variável principal, e seus componentes de produção, número de colmos (NC), diâmetro médio de colmos (DC) e comprimento médio de colmos (CC), como variáveis explicativas. Os coeficientes de determinação foram elevados em todas as análises de trilha, indicando que os componentes avaliados explicam grande parte da variação existente na produção de colmos. Pela análise dos efeitos diretos fenotípicos e genotípicos, NC foi a variável que melhor se correlacionou com TCH, em ambos os experimentos e estágios, demonstrando a possibilidade de obtenção de ganhos significativos por meio da seleção indireta para TCH via NC. A avaliação das relações de causa e efeito entre os componentes de produção em cana-de-açúcar possibilitou verificar que houve variação entre os experimentos, o que provavelmente se deve à origem diferenciada das famílias avaliadas. Como na técnica de análise de trilha os parâmetros são estimados a partir de matrizes de correlações que podem ser mal condicionadas por efeito de multicolinearidade entre as variáveis envolvidas, foram avaliados dados em cana-soca, obtidos do programa de melhoramento da cana-de-açúcar da Universidade Federal de Viçosa, para comparar o método baseado na regressão em crista e a exclusão de variáveis por componentes principais para a estimação dos coeficientes de trilha em presença de multicolinearidade. Foram amostradas dez plantas por parcela para realização das análises das variáveis explicativas Brix (teor de sólidos solúveis), Pol (teor de sacarose aparente), pH (indica o grau de acidez), AR (açúcares redutores), ART (açúcares totais recuperáveis), Cu (cobre), Al (alumínio), Mg (magnésio), Ca (cálcio), K (potássio), Ácido aconítico, Compostos fenólicos, e da variável principal Cor ICUMSA. A matriz de correlação obtida dos dados foi submetida a diferentes métodos para diagnóstico de multicolinearidade. Sob multicolinearidade severa, os métodos baseados na regressão em crista e em componentes principais apresentaram resultados semelhantes na estimação dos coeficientes de trilha, proporcionando sensível redução na magnitude dos fatores de inflação da variância associados aos efeitos diretos e indiretos da análise de trilha. Assim, foi possível identificar neste estudo, os caracteres alumínio (Al), potássio (K) e Compostos fenólicos como aqueles que melhor explicam a Cor do caldo. Contudo, os demais caracteres devem ser levados em consideração devido a elevada correlação existente e a baixa magnitude do efeito direto, evidenciando a necessidade de seleção simultânea de caracteres, com ênfase também nos caracteres cujos efeitos indiretos são significativos. Para fins de melhoramento, a seleção indireta para Cor do caldo, por meio de índice de seleção envolvendo as variáveis Brix, Pol, AR, ATR, pH, Cu, Al, Mg, Ca, K, Compostos fenólicos e Ácido aconítico é recomendável.Item Classificação da qualidade dos experimentos com cana de açúcar(Universidade Federal de Viçosa, 2010-02-04) Couto, Maurício Farias; Barbosa, Marcio Henrique Pereira; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782585E6; Cecon, Paulo Roberto; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4216691T9; Carneiro, Antônio Policarpo Souza; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4799449E8; Martins Filho, Sebastião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282T5O coeficiente de variação como medida de precisão experimental tem sido utilizado para diversas culturas. O presente trabalho teve como objetivo geral avaliar o coeficiente de variação e acurácia seletiva como estatísticas candidatas a precisão experimental em ensaios com cana de açúcar. Objetivos específicos: (i) Propor faixas de classificação do coeficiente de variação em experimentos com cana de açúcar para diversas variáveis utilizadas por pesquisadores da cultura; (ii) estabelecer limites adequados para o coeficiente de variação, com aplicabilidade em experimentos com cana de açúcar, considerando as variáveis mais utilizadas nos ensaios, através do critério de classificação proposto por Costa (2002), levando em consideração as diferenças de produtividade ao longo dos cortes; (iii) Avaliar o coeficiente de variação e a acurácia seletiva como medidas de precisão experimental em experimentos com cana de açúcar. Para esse estudo foram consideradas algumas das variáveis mais utilizadas por pesquisadores desta cultura. Os dados foram obtidos de extensa revisão bibliográfica em revistas científicas, banco de dados do programa de melhoramento de cana de açúcar da Universidade Federal de Viçosa, dissertações de mestrado, teses de doutorado e relatórios técnicos. Foram propostas faixas de classificação segundo o método de Costa (2002), o qual se baseia no uso da mediana e do pseudo-sigma. As variáveis altura e brix apresentaram as menores faixas de classificação de CV, seguidas pelo número de colmos, Pol % da cana e tonelada de brix por hectare. As variáveis tonelada de colmo por hectare, tonelada de pol por hectare e peso da parcela apresentaram as maiores faixas de classificação do coeficiente de variação. Todas as variáveis apresentaram faixas de classificação específica, evidenciando a necessidade de se considerar, na classificação dos CV, a natureza da variável estudada. Para os limites de classificação por cortes os dados utilizados foram obtidos do banco de dados do programa de melhoramento de cana de açúcar da Universidade Federal de Viçosa separados por cortes 1º, 2º e 3º. Foram propostos faixas de classificação dentro de cada corte. Para isso utilizou-se o método proposto por Costa et al. (2002). Houve discordância quanto às faixas de classificação por corte para cada variável, acarretando em faixas de classificação especifica. Este resultado evidencia a necessidade de se considerar, na classificação dos CV, a natureza da variável estudada e os cortes. A variável TPH e TCH apresentaram maiores limites nas faixas de classificação por cortes. Com o objetivo de propor uma avaliação da acurácia seletiva como candidata a precisão experimental em ensaios do programa de melhoramento genético da cana de açúcar da Universidade Federal de Viçosa. Foram realizadas análises de variância para os dados de produtividade de cana de açúcar de 111 ensaios, e coletados os valores das estatísticas: quadrado médio do genótipo, quadrado médio do erro, média geral do ensaio, valor do teste F para genótipo e coeficiente de variação experimental. A seguir, foram estimadas as estatísticas, coeficiente de variação genotípica (CVg), coeficiente de variação experimental (CVe), herdabilidade (h2), acurácia seletiva (AS). Valores de F para as cultivares de cana de açúcar devem ser iguais ou superiores a 5,05 pra se obter uma acurácia tida como ideal (≥ 0,90). Experimentos com valores do F abaixo de 1,17 devem ser descartados, pois não atendem a uma acurácia mínima. Concluiu-se que o coeficiente de variação é uma estatística recomendada para avaliar a precisão experimental em experimentos com cana de açúcar com médias semelhantes ou de mesmo corte, pois para cada corte existe limites de classificação diferenciado. A acurácia seletiva apresentou-se como uma candidata viável para classificar experimentos advindos do programas de melhoramento genético da cana de açúcar por levar em consideração os atributos número de repetições e as variações ambiental e genética como ficou demonstrado neste trabalho.Item Comparação de métodos para definição do número ótimo de grupos em análise de agrupamento(Universidade Federal de Viçosa, 2012-02-02) Alves, Suelem Cristina; Martins Filho, Sebastião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282T5; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://lattes.cnpq.br/4007546105759852; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Espeschit, Claudio José BorelaEstudos envolvendo análise de agrupamento hierárquico encontram um problema na hora de determinar o número ótimo de grupos, devido à falta de critérios objetivos. Pesquisas que envolvem o ajuste de modelos não-lineares a dados de crescimento ou de sobrevivência, cujo interesse principal é saber quantas curvas são necessárias para descrever o comportamento dos indivíduos analisados, utilizam dessa técnica. Como forma de auxiliar essa decisão, alguns pesquisadores recorrem aos índices BSS (Between-group Sum of Squares), SPRSQ (Semi-partial R-Squared), RMSSTD (Root Mean Square Standard Deviation), RS (R-Squared) e ao método de Mojena. Entretanto, não se sabe qual deles é a melhor escolha para determinação desse valor. A comparação dessas estatísticas foi o objetivo desse trabalho. Toda a metodologia utilizou o método de Ward para fazer o agrupamento das observações, o modelo de von Bertalanffy para o ajuste das curvas, e uma função própria, baseada na lei dos cossenos e na ideia do Método da Máxima Curvatura Modificado, para calcular o número de grupos indicado pelos índices. No capítulo 1 foi feito o estudo de caso real. O conjunto de dados possuía sete curvas de crescimento animal, que formavam três grupos. Após o agrupamento das estimativas dos parâmetros e o cálculo das estatísticas, foi constatado que apenas o índice SPRSQ apontou o número de grupos correto. Usando uma função que re-escalona o eixo dos índices de acordo com o eixo do número de grupos, para melhorar os resultados obtidos, apenas o RMSSTD não indicou o valor esperado. O capítulo 2 descreve o uso da simulação para descobrir qual das estatísticas citadas possuía maior porcentagem de acerto quanto à determinação do número ótimo de grupos em dois cenários. No primeiro, as observações provinham de uma única curva geradora e no outro, os indivíduos pertenciam a três populações diferentes. Para o caso de uma única curva, o índice RS foi o que apontou o número ótimo de grupos na maioria dos casos. Para o cenário onde se possuía três populações diferentes, o método de Mojena foi o que acertou o número de grupos mais vezes. Nesses cenários, o uso da função que re-escalona os eixos não mostrou eficiência para melhorar a porcentagem de acertos dos índices. De modo geral, os índices RS e SPRSQ mostraram-se os mais indicados para auxiliar na determinação do número ótimo de grupos.Item Influência do número de repetições na identificação de genes diferencialmente expressos em experimentos de RNA-Seq(Universidade Federal de Viçosa, 2013-01-16) Gonçalves, Jaciane Coelho; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Bressan, Gustavo Costa; http://lattes.cnpq.br/1153853218347720; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://lattes.cnpq.br/1015689997791505; Silva, Fernanda Miquelitto Figueira da; http://lattes.cnpq.br/5824362921133395Um dos objetivos atuais da biologia molecular é medir e avaliar os perfis de expressão gênica em diferentes tipos de tecidos biológicos, para entender os mecanismos de transformação molecular sob determinadas condições. Tecnologias de sequenciamento de Nova Geração (NGS) promovem o sequenciamento de DNA em plataformas capazes de gerar informações sobre milhões de pares de bases em uma única etapa. Porém essas tecnologias ainda apresentam custo elevado, dificultando a obtenção de elevado número de repetições de dados amostrais. Assim, torna-se necessária a descoberta e o aprimoramento de metodologias estatísticas eficientes para a otimização das análises de dados gerados em plataformas de sequenciamento de genomas. O objetivo geral desse trabalho consistiu em avaliar o efeito do número de repetições na identificação de genes diferencialmente expressos, em experimentos de RNA-Seq, contribuindo para o esclarecimento de pesquisadores que venham a auxiliar nas análises de dados em experimentos de RNA-Seq. De forma específica, avaliamos empiricamente o efeito do número de repetições na análise estatística da expressão gênica em experimentos de RNA-Seq. Para a realização das análises foi utilizado um conjunto de dados definido em Li et al. (2008), o qual comparou células cancerígenas tratadas e não tratadas. Naquele estudo havia quatro repetições biológicas para o grupo controle (células não tratadas) e três repetições biológicas para grupo de tratamento (células que receberam o tratamento). Os dados foram analisados utilizando o pacote DESeq do Programa computacional R. Um total de 2566 genes foram considerados diferencialmente expressos (DE) quando avaliamos o conjunto de dados original completo. Quando analisamos três repetições do controle e do tratamento, nós encontramos, em média, 2153 genes DE. A partir do momento em que apenas duas repetições para ambos os tratamentos foram utilizadas, foram identificadas, em média, 1241 genes DE. A grande alteração no número de genes DE foi observada quando repetições não foram utilizadas. Nesse caso identificamos em torno de 44 genes diferencialmente expressos. De acordo com os resultados gerados nas análises, foi possível verificar que o número de repetições é um fator essencial para se obter um número significativo de genes diferencialmente expressos.Item Modelos mistos na seleção entre e dentro de famílias de cana de açúcar sob o enfoque bayesiano(Universidade Federal de Viçosa, 2012-02-16) Silva, Mariane Alves Gomes da; Silva, Fabyano Fonseca e; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2; Barbosa, Marcio Henrique Pereira; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782585E6; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://lattes.cnpq.br/1509561362434207; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Silva, Felipe Lopes da; http://lattes.cnpq.br/4564712877039359; Martins Filho, Sebastião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723282T5A base do agronegócio de cana-de-açúcar é o melhoramento genético. Pode ser mostrado que a estratégia ótima de seleção da planta seria através da predição de valores genotípicos usando o BLUP (Best Linear Unbiased Predictor) individual (BLUPI). Este procedimento usaria, simultaneamente, a informação de família e de indivíduos para a seleção. No entanto esse método dificilmente é usado nos programas de melhoramento devido a problemas operacionais relacionados à obtenção dos dados ao nível de planta. Recentemente uma alternativa operacionalmente mais prática foi proposta, e é denominada BLUPIS (BLUP individual simulado). Nesse caso os dados são coletados ao nível de parcela. Com isso é possível selecionar as melhores famílias e, posteriormente, simular o número de indivíduos a serem selecionados dentro das melhores famílias. Este trabalho teve como objetivo desenvolver um algoritmo para análise do BLUPIS sob o enfoque bayesiano, com diferentes definições de distribuições a prioris na sua modelagem, no software estatístico R, para possível disponibilização ao usuário e compará-la com o método clássico REML/BLUP. Os resultados mostraram que o método BLUPIS com enfoque bayesiano realizado através do algoritmo construído junto ao programa R foi eficiente. O algoritmo levou em consideração a incerteza existente sobre todos os parâmetros do modelo, como também possibilitou o uso de priori informativa. O método bayesiano se mostrou mais eficiente, isto é, com efeitos genotípicos maiores e variâncias e herdabilidade menores, quando se consideraram no modelo a informação de parentesco e a distribuição da priori informativa.Item Redes neurais artificiais e análise discriminante linear como alternativas para seleção entre famílias de cana-de-açúcar(Universidade Federal de Viçosa, 2014-02-25) Moreira, édimo Fernando Alves; Barbosa, Marcio Henrique Pereira; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782585E6; Cruz, Cosme Damião; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788274A6; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://lattes.cnpq.br/0290811195300476; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Silva, Felipe Lopes da; http://lattes.cnpq.br/4564712877039359Esse desafio advém da grande quantidade de genótipos avaliados e da dificuldade operacional da pesagem das parcelas do experimento, necessária nos principais métodos de seleção. O objetivo deste trabalho é comparar a modelagem por redes neurais, a análise discriminante linear de Fisher e a seleção de famílias usando a variável tonelada de cana por hectare estimada (TCHe) como alternativas para seleção de famílias promissoras em cana-de- açúcar com base nos caracteres indiretos número de colmos (NC), diâmetro de colmos (DC) e altura de colmos (AC). Incialmente foi feita a modelagem via redes neurais em 4 diferentes cenários: com simulação e com padronização das variáveis; com simulação e sem padronização das variáveis ; sem simulação e com padronização das variáveis; e sem simulação e sem padronização das variáveis. Os piores resultados ocorreram no cenário 4, sem padronização e sem simulação e os melhores ocorreram no cenário 1, onde as variáveis foram padronizadas e foram simulados valores de DC, NC, AC e TCHR para 1000 famílias. Posteriormente, foi feita a modelagem via análise discriminante no melhor cenário, ou seja, naquele onde houve simulação e padronização das variáveis de entrada. Para avaliação dos métodos redes neurais, análise discriminante e seleção via TCHe - foi utilizada a taxa de erro aparente (TEA) e a taxa de erro 1 (TE1) obtidas a partir da matriz de confusão. A simulação e a padronização melhoram o desempenho das redes neurais. A modelagem via redes neurais artificiais e a análise discriminante linear de Fisher fornecem melhores resultados quando comparadas a estratégia usualmente utilizada, que é baseada na estimação da variável tonelada de cana por hectare. Comparando os modelos de redes neurais com a análise discriminante, a rede neural fornece melhores resultados.Item Seleção de famílias de cana-de-açúcar via árvores de decisão(Universidade Federal de Viçosa, 2013-03-15) Bernardes, Diego Paiva; Barbosa, Marcio Henrique Pereira; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782585E6; Nascimento, Moysés; http://lattes.cnpq.br/6544887498494945; Peternelli, Luiz Alexandre; http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723301Z7; http://lattes.cnpq.br/8989832077068553; Kist, Volmir; http://lattes.cnpq.br/6259569656758124O processo de seleção de clones de cana-de-açúcar é carente de métodos fitotécnicos e estatísticos que elevem os ganhos genéticos nos programas de melhoramento da cultura da cana-de-açúcar. De cinco fases de seleção do programa de melhoramento da RIDESA, a primeira é dotada de grande importância porque dela se desenvolvem as demais fases do programa e porque o volume de informações a ser analisados é enorme. Assim, caso os dados não forem corretamente analisados, pode-se descartar bons materiais logo nas primeiras fases, diminuindo a excelência do programa. As estratégias usuais de seleção, BLUP e BLUPIS, têm a desvantagem de exigir a de pesagem de toda a parcela. Uma maneira de se contornar isso é categorizar os componentes de produção; altura de colmos, diâmetro de colmos e número de colmos, via árvores de decisão. Através dessas árvores, é possível gerar as combinações desses componentes de produção e os respectivos valores de produção. Utilizando dados de testemunhas para gerar as árvores, não seria necessária a pesagem de toda a parcela, economizando tempo e recursos financeiros. O objetivo desse trabalho foi avaliar a categorização dos componentes de produção como estratégia de seleção entre e dentro de famílias através da comparação de seu desempenho com os métodos usuais, BLUP e BLUPIS. O algoritmo de árvore utilizado foi o CART. De natureza não paramétrica, esse é capaz de produzir divisões binárias combinando as variáveis explicativas e associando-as com distintos valores de resposta. Os dados foram coletados de 5 experimentos, instalados em maio de 2007, no delineamento em blocos casualizados, sendo cada experimento constituído de 5 blocos, 22 famílias e 2 testemunhas. O algoritmo CART foi eficiente em definir as classes dos componentes de produção seguido da seleção das melhores famílias no campo com acurácia média próxima de 73% quando comparado com o BLUPIS e BLUP.