Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
6 resultados
Resultados da Pesquisa
Agora exibindo 1 - 6 de 6
Item Seleção de variáveis no estudo da diversidade genética via análise de procrustes(Universidade Federal de Viçosa, 2016-02-24) Pontes, Daiana Salles; Cruz, Cosme Damião; http://lattes.cnpq.br/6638973949782292Para o sucesso de um programa de melhoramento é indispensável que população de trabalho disponha de variabilidade genética de forma que a prática de seleção seja viável. Nesse sentido, a avaliação da divergência genética têm sido de grande importância por fornecerem parâmetros para a identificação de combinações híbridas cujo cruzamento proporcione maior efeito heterótico e maior probabilidade de recuperar genótipos superiores nas gerações segregantes. O estudo sobre diversidade genética elucida relações genéticas, quantifica ou prediz o nível de variabilidade total existente e sua distribuição entre indivíduos, acessos de bancos de germoplasma, linhagens e cultivares ou dentro de populações e espécies. Conhecimento que tem proporcionado, dentre outras coisas, importantes contribuições ao melhoramento genético, ao gerenciamento de bancos de germoplasma e à conservação de recursos genéticos. Assim, o interesse maior, em estudos de caracterização da diversidade genética das espécies vegetais, animais e de microrganismos consiste na identificação de grupos de genótipos similares de forma que a maior diferença entre os grupos formados seja realçada. Para isso, algumas técnicas multivariadas, como análise discriminante, componentes principais, análise de coordenadas e de agrupamento podem ser utilizadas nesse tipo de estudo. Contudo, de modo geral, tais técnicas ainda exigem a utilização de todas as variáveis para a avaliação dos indivíduos/acessos, o que nem sempre é possível devido ao alto custo ou mesmo o grau de dificuldade envolvido na obtenção de determinadas variáveis. É necessária, portanto, a aplicação de algum método de seleção de variáveis ou de um critério de seleção baseado em alguma técnica analítica, como é o caso do critério apresentado por Jolliffe (1972). Baseado na técnica de componentes principais, esse critério é usualmente utilizado na determinação da importância relativa de caracteres no estudo da diversidade de modo que caracteres de menor importância serão desconsiderados do estudo. Há também outra metodologia baseada em Análise de Procrustes ainda pouco utilizada em estudos de diversidade genética, sobretudo para este fim, por meio da qual é possível selecionar variáveis com base no padrão de dissimilaridade ou similaridade entre acessos. Desta forma, este trabalho tem por objetivo propor um critério baseado em Análise de Procrustes como nova possibilidade para a seleção de variáveis no estudo da diversidade genética. Em seguida, comparar o critério apresentado com o critério proposto por Jolliffe (1972) - ambos os critérios estabelecidos por meio do uso de componentes principais. Para elucidar a teoria apresentada, foram consideradas informações de 40 acessos de café Conilon avaliados em Sooretama/ES no ano 2000 segundo 16 caracteres agronômicos. As técnicas apresentadas neste trabalho demonstram ser vantajosas na seleção (ou descarte) de variáveis proporcionando relevante contribuição para os estudos sobre diversidade genética. A técnica apresentada, baseada em análise de Procrustes, torna-se uma alternativa mais eficaz do que o uso do critério de Jolliffe (1972) para fins de estudo da diversidade genética.Item Distribuição de probabilidades do valor extremo e tamanho amostral para o melhoramento genético do quantil máximo em plantas(Universidade Federal de Viçosa, 2016-02-29) Escobar, José Alfredo Diaz; Resende, Marcos Deon Vilela de; http://lattes.cnpq.br/2176978669954605Dentre os objetivos dos programas de melhoramento genético de plantas de propagação assexuada (como a cana-de-açúcar e o eucalipto) e autógamas encontra-se o de selecionar indivíduos extremos ou segregantes transgressivos. Assim, é conveniente encontrar progênies com distribuições de caudas longas ou mesmo assimétricas, já que elas têm uma maior tendência de gerar indivíduos excepcionais. Os métodos de seleção comumente utilizados no melhoramento dessas espécies enquadram-se na classe BLUP sob os conceitos de média aritmética e média harmônica, os quais não levam em consideração a ocorrência de valores extremos dentro das famílias. Diante do exposto, este trabalho teve como objetivo propor e avaliar uma metodologia estatística para o melhoramento do máximo ou valor extremo das distribuições, e não necessariamente das médias das distribuições. Essa abordagem baseia-se nos quantis superiores da GEV (Distribuição de Valores Extremos Generalizada) dos BLUP ́s genotípicos individuais entre e dentro de famílias, como forma de prever o aumento da ocorrência de valores extremos em função do aumento do tamanho da família (seleção de indivíduos extremos dentro de família) e também do número de famílias utilizado para representar uma população (seleção de indivíduos extremos em toda a população). A metodologia consistiu em usar dados simulados e reais, típicos das variáveis consideradas no melhoramento genético (por exemplo, distribuição normal com ampla variabilidade e presença de valores extremos). A partir dessa base de dados, distribuições de valores extremos generalizadas são ajustadas aos máximos de cada família, visando verificar qual a distribuição mais adequada (Gumbel, Fréchet, ou Weibull). Os resultados revelaram que a distribuição Weibull se ajusta melhor à bases de dados com 100 ou mais famílias e mais de 20 indivíduos por família e a distribuição Gumbel se ajusta melhor à bases de dados menores. Uma base de dados experimentais referentes à avaliação de famílias, mediante o uso de uma distribuição de valor extremo para predição do máximo das distribuições dos indivíduos, permite a previsão do comportamento da eficiência seletiva para os máximos associados a vários tamanhos de famílias e de populações experimentais. Isso possibilita ao melhorista a otimização da experimentação no melhoramento visando a seleção de indivíduos extremos. Para essas previsões, emprega-se o período de retorno associado à ocorrência de um evento raro (nível de retorno) típico da distribuição ajustada. No caso, o período de retorno é interpretado como o tamanho amostral necessário para a ocorrência do nível de retorno do evento raro, interpretado como a magnitude do valor extremo. Simulações estocásticas e reamostragens de dados experimentais indicaram consistentemente que a avaliação de 200 famílias em cada ciclo seletivo maximiza a eficiência do melhoramento visando a seleção de indivíduos extremos. Uma boa opção prática seria a avaliação de 200 famílias com 100 indivíduos, perfazendo um total de 20000 indivíduos. Segundo a distribuição Weibull, o aumento da eficiência seletiva com o aumento do tamanho de família é em torno de 1,10 quando se passa de 20 para 100 indivíduos por família e de 1,12 quando se passa de 100 para 200 indivíduos e esses números são aproximadamente constantes independentemente do número de famílias avaliadas. Os modelos Gumbel e Weibull mostraram-se adequados para analisar as variáveis massa média de colmos (MMC em kg) e teor de Brix (B em %), sendo que a Gumbel mostrou-se adequada apenas nos casos de números de famílias muito pequenos. Assim, recomenda-se a Weibull para inferências práticas. A metodologia é adequada também para classificar as famílias ou progênies pela capacidade de geração de indivíduos superiores ou excepcionais e informar os tamanhos amostrais a serem praticados em cada família para capturar esses indivíduos.Item Número de repetições na identificação de genes diferencialmente expressos em experimentos de RNA-Seq(Universidade Federal de Viçosa, 2015-02-27) Amaral, Regiane Teodoro do; Nascimento, Moysés; http://lattes.cnpq.br/4354428554998516Um dos principais desafios da biologia molecular é medir e avaliar os perfis de expressão gênica em diferentes tecidos biológicos com o objetivo de entender os mecanismos de transformação molecular. O método RNA-Seq usa transcriptoma a partir de tecnologias de sequenciamentos de nova geração (SNG), utilizados para sequenciar cDNA que é derivado de uma amostra de RNA, e, assim, produzir milhões de sequenciamentos de leitura. Porém, apesar do custo dessas tecnologias vir diminuindo, é comum realizar experimentos com pouca ou nenhuma repetição. Assim, torna-se necessária a descoberta e o aprimoramento de metodologias estatísticas eficientes para a otimização das análises de dados gerados em plataformas de sequenciamento de genomas. O objetivo geral desse trabalho consistiu na comparação de metodologias estatísticas a fim de estudar o padrão de expressão gênica relacionado à quantificação desses genes conforme determinadas condições/tratamentos, em experimentos de RNA-Seq. Para a realização das análises utilizou-se um conjunto de dados simulados através do pacote TCC do R, com diferentes cenários, para comparar os métodos estatísticos DESeq e baySeq. Foram exploradas tecnologias de RNA-Seq do perfil de expressão gênica de um banco de dados contendo 1000 genes em duas condições, nos cenários com cinco repetições, três repetições, 2 repetições e sem repetição. Em um primeiro momento, tais dados foram analisados pelos dois métodos separadamente, comparando-se o efeito do número de repetições dentro de cada um. Em seguida, foi realizada a comparação entre os métodos, levando em conta também o número de repetições em cada cenário. De acordo com os resultados gerados nas análises não podemos afirmar que um método, entre os avaliados, é ótimo em todas as circunstâncias, pois o método de escolha para uma situação em particular depende das condições experimentais. No entanto, sob as condições utilizadas no desenvolver do experimento, o método abordado pelo baySeq foi o que apresentou um bom desempenho, nas combinações ocorridas entre os métodos e os tipos de genes analisados, ou seja, esse foi o método que obteve uma maior capacidade de identificação dos genes diferencialmente expressos.Item Abordagem matemática na análise de dados de área aplicada à variável malária em Moçambique(Universidade Federal de Viçosa, 2015-10-07) Chipenete, Cláudio Francisco; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/2557621925960438Ao se analisar os dados de área, um dos principais interesses é entender sua estrutura ou distribuição no espaço e, se existe alguma dependência ou estrutura bem definida entre as diversas áreas na região em estudo. Para mensurar essa dependência fez-se uma análise de padrões utilizando a autocorrelação espacial. O principal objetivo do trabalho foi abordar no enfoque matemático, as técnicas e procedimentos estatísticos na análise espacial de dados de área utilizando o método tradicional para o cálculo do índice de Moran e o método de três passos. Buscou-se também verificar e analisar a existência de algum padrão espacial definido em Moçambique associado a variável malária. A malária tem sido uma das principais causas de internamento nos hospitais e centros de saúde nos últimos anos, igualmente, das mortes da população. Analisar sua distribuição e relacionamento entre diferentes distritos do país poderá contribuir para minimizar os efeitos dessa doença. Os dados foram obtidos do Inquérito Demográfico e de Saúde de Moçambique (IDS) realizado em 2011. Na análise estatística foi possível identificar regiões cujos distritos se assemelhavam por possuírem taxas médias baixas de malária, formando agrupamentos, a saber, nas regiões sul, extremo sul, e norte de Moçambique. Para os demais distritos, verificou-se uma distribuição aleatória de casos da malária. No entanto, foi possível identificar distritos representados pelas cidades de Maputo, Matola e Beira com maior taxa de malária em relação aos demais.Item Análise de dados de RNA-Seq com diferentes números de fatores e repetições(Universidade Federal de Viçosa, 2015-07-22) Souza, Vladimir Barbosa Carlos de; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/7804746265517309A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso.Item Comparação de metodologias para identificação de genes diferencialmente expressos em experimentos de RNA-Seq de suínos(Universidade Federal de Viçosa, 2015-04-08) Souza, Pâmela Tamiris Caldas Serra de; Nascimento, Moysés; http://lattes.cnpq.br/8150310836761182Um dos principais desafios da biologia molecular é medir e avaliar os perfis de expressão gênica em diferentes condições com o objetivo de entender os mecanismos de transformação molecular. Para tanto, o método RNA-Seq usa o transcriptoma obtido a partir de tecnologias de sequenciamentos de nova geração (NGS), as quais são utilizadas para converter RNA em uma biblioteca de fragmentos de cDNA, e, assim, produzir milhões reads. Após a mensuração dos níveis de expressão dos genes, por meio de técnicas de mapeamento, surge a necessidade de verificar hipóteses a respeito da existência de expressão diferencial (ED) entre as condições avaliadas. Assim, faz-se necessária à descoberta e o aprimoramento de metodologias estatísticas para aperfeiçoar as análises de dados gerados em plataformas de sequenciamento de genomas. O objetivo geral desse estudo consistiu em avaliar o comportamento de três metodologias (DEGSeq, bayseq e DESeq) para verificação da expressão diferencial em longissimus dorsi (LD) do músculo de suínos da raça Piau e Comercial, em 21e 90 dias depois do coito, por meio de dados provenientes de RNA-Seq, em cenários sem repetição . De acordo com os resultados gerados nas análises e sob as condições utilizadas no desenvolver do experimento concluiu-se que, na comparação dos métodos bayseq com DEGSeq e baySeq com DESeq, respectivamente, observou-se, a partir da relação do nível de expressão (fold-change) entre as duas raças suínas (comercial e piau), que os métodos apresentaram desempenho diferentes entre si, pois apresentaram um nível de expressão desigual em ambos os métodos. No entanto, na comparação entre os métodos DESeq e DEGSeq, houve um desempenho comparável, deste modo, houve concordância entre os métodos. Como um todo, a maioria dos genes DE identificados, se deu na fase pós- natal tardia, ou seja, 90 dpc. Além disso, a maioria deles foram down na fase pré-natal inicial (21 dpc) e foram up na fase pré-natal tardia (90 dpc) relacionando as raças, comercial e piau e comparando os métodos.