Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 10 de 10
  • Imagem de Miniatura
    Item
    Síndrome da fadiga crônica e absenteísmo: estudo de trabalhadores em turnos comparando stepwise e elastic-net
    (Universidade Federal de Viçosa, 2020-02-28) Neisse, Anderson Cristiano; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/5364139874668396
    Caracterizada por fadiga persistente, dor muscular, dificuldades cognitivas e de sono, a Sídrome da Fadiga Crônica (CFS) tem se tornado comum nas práticas clínicas nas últimas décadas desde sua recente definição, em 1988. Estudos resultantes da contínua busca por fatores relacionados à CFS citam, dentre outros: sono irregular/insatisfatório, estresse psicológico, disfunção hormonal, deficiência de nutrientes, disfunção imunológica e infecções. Em condições de trabalho de risco o desenvolvimento da CFS pode aumentar a chance de acidentes fatais, tal como o trabalho em turnos na área de mineração que naturalmente já possui fatores evidentemente relacionados à CFS. Estudos indicam que indivíduos com má qualidade de sono e ciclos circadianos irregulares têm risco elevado de CFS, neuroticismo e absenteísmo. Uma vez que modelagem preditiva pode se mostrar efetiva tanto na pre- venção da fadiga quanto na detecção de fatores, este estudo tem o objetivo de utilizar de regressão logística ajustada por meio de dois métodos de seleção/regularização (Stepwise e Elastic-Net) para procurar modelo que descreva a relação entre variáveis bioquímicas e antropométricas com o absenteísmo. Desta forma, por meio do absenteísmo e utilizando de efeitos encontrados na bibliografia, o objetivo é procurar evidência de relação entre a CFS e absenteísmo. Os resultados obtidos mostram indícios de relação do colesterol total, HDL, LDL e Triglicerídeos com o risco de absenteísmo, relação também presente para as variáveis de sódio e potássio. Com exceção ao potássio, todas as variáveis também possuem relação similar com a CFS, de acordo com a literatura. PALAVRAS-CHAVE: Síndrome da Fadiga Crônica. Biometria. Regressão Logística. Elastic-Net.
  • Imagem de Miniatura
    Item
    Golias: software para análises estatística e biométrica de grande conjunto de dados utilizando as linguagens Júlia e R
    (Universidade Federal de Viçosa, 2018-02-21) Oliveira, Cristiano Ferreira de; Cruz, Cosme Damião; http://lattes.cnpq.br/0880202677543608
    A utilização de informações de marcadores moleculares para identificação de indivíduos geneticamente superiores para características de interesse é uma as principais contribuições da genética molecular no melhoramento genético. Assim, em programas de melhoramento genético, é crescente o uso de marcadores moleculares dispostos em matrizes de alta densidade, que necessitam de controle de qualidade e uso de metodologias adequadas para realizar a predição dos valores genéticos. Diante do exposto este trabalho tem como objetivo apresentar o software Golias, que é um software livre destinado ao processamento de dados de marcadores SNPs de alta dimensão. O Golias é integrado com os ambientes de programação R e Julia, utilizando o poder de processamento da linguagem Júlia e de pacotes do R otimizados em código C. Todas as análises são realizadas sem fazer necessário que o usuário tenha qualquer conhecimento em programação. O software proposto dispõe de procedimentos para o controle de qualidade de SNPs como call rate, MAF, teste de equilíbrio de Hardy-Weinberg, descarte de variáveis via componentes principais, um procedimento para imputação de informações genotípicas perdidas e algumas técnicas de predição utilizando métodos bayesianos. O Golias está disponível em português; pode ser baixado da Internet (https://www.dropbox.com/sh/ql92mzjed8735wq/AADfVadXY3oYM_3qe84Vb N-Ea?dl=0) e é compatível com sistema operacional Windows.
  • Imagem de Miniatura
    Item
    Regressão quantílica: aplicações em seleção genômica ampla
    (Universidade Federal de Viçosa, 2018-02-02) Barroso, Laís Mayara Azevedo; Nascimento, Moysés; http://lattes.cnpq.br/8587813175766141
    A principal contribuição da genética molecular no melhoramento é a utilização direta das informações de DNA no processo de identificação de indivíduos geneticamente superiores. Sob esse enfoque, idealizou-se a seleção genômica ampla (Genome Wide Selection – GWS), a qual consiste no uso de um grande número de marcadores SNPs (Single Nucleotide Polymorphisms) amplamente distribuídos no genoma para predizer o mérito genético de indivíduos. Diversas abordagens estatísticas foram propostas para a predição de valores genéticos permitindo estimar os efeitos dos marcadores com base apenas na média condicional da variável dependente. Uma metodologia ainda pouco explorada em GWS é a regressão quantilica (RQ). Diferentemente das outras metodologias, a RQ permite avaliar os fenótipos de interesse em diferentes níveis da distribuição. Desta forma, este trabalho tem como objetivo apresentar duas aplicações de GWS utilizando a RQ. Na primeira aplicação foi proposto e avaliado o uso da Regressão Quantílica Regularizada (RQR) para estimar os efeitos marcadores SNPs para curvas de crescimento em suínos. O modelo proposto permitiu a descoberta, em diferentes níveis de interesse (quantils), de marcadores relevantes para cada característica e suas respectivas posições cromossômicas. Além disso, RQR permitiu a construção de curvas de crescimento genômico, que identificaram indivíduos geneticamente superiores em relação à eficiência de crescimento. Na segunda aplicação utilizou-se a RQR para predizer valores genéticos de conjuntos de dados simulados com diferentes proporções de epistasia na variância genética e valores fenótipos com distribuições simétrica e assimétrica a direita. Neste trabalho verificou-se que a RQR teve, em geral, maiores acurácias do que as outras metodologias avaliadas quando a característica é de baixa herdabilidade. Além disso, quando tem-se 100% da variância genética como sendo epistática, a RQR foi, na maioria dos casos, melhor do que os métodos tradicionais. Desta forma, avaliando as duas aplicações apresentadas, tem-se que a RQR é uma alternativa interessante em estudos de GWS, uma vez que possibilita a descoberta do modelo que melhor representa a relação entre as variáveis dependentes (fenótipos) e independentes (efeitos dos marcadores) aumentando o desempenho preditivo do modelo.
  • Imagem de Miniatura
    Item
    Predição de valores genéticos por abordagens de seleção genômica ampla e de inteligência computacional
    (Universidade Federal de Viçosa, 2018-02-01) Silva, Gabi Nunes; Cruz, Cosme Damião; http://lattes.cnpq.br/6670284847005434
    Os programas de melhoramento genético existem com dois objetivos principais: identificação de genótipos superiores e a obtenção de combinações melhoradas por meio de cruzamento entre esses indivíduos elite. Os mais diversos ramos da genética, estatística e biometria contribuíram para o estabelecimento de diferentes estratégias de melhoramento para seleção de genótipos superiores. Em particular, metodologias baseadas em seleção genômica ampla tem apresentado grande destaque dentre os estudos mais recentes de seleção. A seleção genômica ampla (Genome Wide Selection), envolve estudos biométricos e une genética de populações, genética molecular e a genética quantitativa. A maior motivação para tais estudos consiste na possibilidade de utilizar genotipagem em grande escala e incorporar informações genômicas no processo de predição, de modo a aumentar a eficiência seletiva, obter ganhos genéticos de forma mais ágil e diminuir os custos. Nos modelos de genética, as variações fenotípicas dos indivíduos consistem na variância genotípica dos mesmos agregando variâncias devido a dominância, variância ambiental e também epistasia. No entanto, os modelos de GWS, de modo geral, negligenciam a influência de dominância e epistasia, levando em consideração apenas os efeitos aditivos das características. Além disso, a alta densidade de marcadores moleculares pode levar a problemas de dimensionalidade e multicolinearidade. Neste contexto, o uso de estratégias de redução de dimensionalidade e de metodologias baseadas em inteligência computacional que abordem mais adequadamente a inclusão de tais efeitos em estudos de seleção e predição constituem a proposta neste trabalho. O trabalho visa abordar três tópicos principais: o capitulo propõe avaliar a eficiência do RR-BLUP para predição de valores genéticos de uma população simulada com 12 características complexas que contemplavam efeitos de dominância, epistasia e efeitos ambientais. No capítulo 2 propõe-se a aplicação dos Métodos de Regressão Stepwise e da Sonda para redução de dimensionalidade a fim de aumentar a eficiência preditiva do método RR-BLUP aplicado na mesma população considerada no capitulo 1. Finalmente, o capítulo 3 visa avaliar a eficiência das metodologias de inteligência computacional baseadas em Redes Neurais Artificiais de Redes Perceptron Multicamadas e as Redes de Função de Base Radial para predição dos valores genéticos da população simulada abordada nos capítulos anteriores. Os resultados indicaram que o uso de metodologias de redução de dimensionalidade contribui para o aumento da eficiência do método RR-BLUP. No entanto, também evidenciaram a deficiência desse método para predizer valores genéticos de populações que incluam efeitos de dominância e epistasia no controle gênico das características de interesse. As metodologias de Redes Neurais Multicamadas e as Redes de função de Base Radial propostas apresentaram acurácia preditiva, expressa pelo erro quadrático médio, superior à apresentada pelo RR-BLUP, demonstrando que as metodologias de inteligência computacional foram mais eficientes que a Seleção Genômica Ampla para o estudo de características complexas com controle gênico envolvendo efeitos aditivos, dominantes e epistáticos.
  • Imagem de Miniatura
    Item
    Seleção de variáveis no estudo da diversidade genética via análise de procrustes
    (Universidade Federal de Viçosa, 2016-02-24) Pontes, Daiana Salles; Cruz, Cosme Damião; http://lattes.cnpq.br/6638973949782292
    Para o sucesso de um programa de melhoramento é indispensável que população de trabalho disponha de variabilidade genética de forma que a prática de seleção seja viável. Nesse sentido, a avaliação da divergência genética têm sido de grande importância por fornecerem parâmetros para a identificação de combinações híbridas cujo cruzamento proporcione maior efeito heterótico e maior probabilidade de recuperar genótipos superiores nas gerações segregantes. O estudo sobre diversidade genética elucida relações genéticas, quantifica ou prediz o nível de variabilidade total existente e sua distribuição entre indivíduos, acessos de bancos de germoplasma, linhagens e cultivares ou dentro de populações e espécies. Conhecimento que tem proporcionado, dentre outras coisas, importantes contribuições ao melhoramento genético, ao gerenciamento de bancos de germoplasma e à conservação de recursos genéticos. Assim, o interesse maior, em estudos de caracterização da diversidade genética das espécies vegetais, animais e de microrganismos consiste na identificação de grupos de genótipos similares de forma que a maior diferença entre os grupos formados seja realçada. Para isso, algumas técnicas multivariadas, como análise discriminante, componentes principais, análise de coordenadas e de agrupamento podem ser utilizadas nesse tipo de estudo. Contudo, de modo geral, tais técnicas ainda exigem a utilização de todas as variáveis para a avaliação dos indivíduos/acessos, o que nem sempre é possível devido ao alto custo ou mesmo o grau de dificuldade envolvido na obtenção de determinadas variáveis. É necessária, portanto, a aplicação de algum método de seleção de variáveis ou de um critério de seleção baseado em alguma técnica analítica, como é o caso do critério apresentado por Jolliffe (1972). Baseado na técnica de componentes principais, esse critério é usualmente utilizado na determinação da importância relativa de caracteres no estudo da diversidade de modo que caracteres de menor importância serão desconsiderados do estudo. Há também outra metodologia baseada em Análise de Procrustes ainda pouco utilizada em estudos de diversidade genética, sobretudo para este fim, por meio da qual é possível selecionar variáveis com base no padrão de dissimilaridade ou similaridade entre acessos. Desta forma, este trabalho tem por objetivo propor um critério baseado em Análise de Procrustes como nova possibilidade para a seleção de variáveis no estudo da diversidade genética. Em seguida, comparar o critério apresentado com o critério proposto por Jolliffe (1972) - ambos os critérios estabelecidos por meio do uso de componentes principais. Para elucidar a teoria apresentada, foram consideradas informações de 40 acessos de café Conilon avaliados em Sooretama/ES no ano 2000 segundo 16 caracteres agronômicos. As técnicas apresentadas neste trabalho demonstram ser vantajosas na seleção (ou descarte) de variáveis proporcionando relevante contribuição para os estudos sobre diversidade genética. A técnica apresentada, baseada em análise de Procrustes, torna-se uma alternativa mais eficaz do que o uso do critério de Jolliffe (1972) para fins de estudo da diversidade genética.
  • Imagem de Miniatura
    Item
    Distribuição de probabilidades do valor extremo e tamanho amostral para o melhoramento genético do quantil máximo em plantas
    (Universidade Federal de Viçosa, 2016-02-29) Escobar, José Alfredo Diaz; Resende, Marcos Deon Vilela de; http://lattes.cnpq.br/2176978669954605
    Dentre os objetivos dos programas de melhoramento genético de plantas de propagação assexuada (como a cana-de-açúcar e o eucalipto) e autógamas encontra-se o de selecionar indivíduos extremos ou segregantes transgressivos. Assim, é conveniente encontrar progênies com distribuições de caudas longas ou mesmo assimétricas, já que elas têm uma maior tendência de gerar indivíduos excepcionais. Os métodos de seleção comumente utilizados no melhoramento dessas espécies enquadram-se na classe BLUP sob os conceitos de média aritmética e média harmônica, os quais não levam em consideração a ocorrência de valores extremos dentro das famílias. Diante do exposto, este trabalho teve como objetivo propor e avaliar uma metodologia estatística para o melhoramento do máximo ou valor extremo das distribuições, e não necessariamente das médias das distribuições. Essa abordagem baseia-se nos quantis superiores da GEV (Distribuição de Valores Extremos Generalizada) dos BLUP ́s genotípicos individuais entre e dentro de famílias, como forma de prever o aumento da ocorrência de valores extremos em função do aumento do tamanho da família (seleção de indivíduos extremos dentro de família) e também do número de famílias utilizado para representar uma população (seleção de indivíduos extremos em toda a população). A metodologia consistiu em usar dados simulados e reais, típicos das variáveis consideradas no melhoramento genético (por exemplo, distribuição normal com ampla variabilidade e presença de valores extremos). A partir dessa base de dados, distribuições de valores extremos generalizadas são ajustadas aos máximos de cada família, visando verificar qual a distribuição mais adequada (Gumbel, Fréchet, ou Weibull). Os resultados revelaram que a distribuição Weibull se ajusta melhor à bases de dados com 100 ou mais famílias e mais de 20 indivíduos por família e a distribuição Gumbel se ajusta melhor à bases de dados menores. Uma base de dados experimentais referentes à avaliação de famílias, mediante o uso de uma distribuição de valor extremo para predição do máximo das distribuições dos indivíduos, permite a previsão do comportamento da eficiência seletiva para os máximos associados a vários tamanhos de famílias e de populações experimentais. Isso possibilita ao melhorista a otimização da experimentação no melhoramento visando a seleção de indivíduos extremos. Para essas previsões, emprega-se o período de retorno associado à ocorrência de um evento raro (nível de retorno) típico da distribuição ajustada. No caso, o período de retorno é interpretado como o tamanho amostral necessário para a ocorrência do nível de retorno do evento raro, interpretado como a magnitude do valor extremo. Simulações estocásticas e reamostragens de dados experimentais indicaram consistentemente que a avaliação de 200 famílias em cada ciclo seletivo maximiza a eficiência do melhoramento visando a seleção de indivíduos extremos. Uma boa opção prática seria a avaliação de 200 famílias com 100 indivíduos, perfazendo um total de 20000 indivíduos. Segundo a distribuição Weibull, o aumento da eficiência seletiva com o aumento do tamanho de família é em torno de 1,10 quando se passa de 20 para 100 indivíduos por família e de 1,12 quando se passa de 100 para 200 indivíduos e esses números são aproximadamente constantes independentemente do número de famílias avaliadas. Os modelos Gumbel e Weibull mostraram-se adequados para analisar as variáveis massa média de colmos (MMC em kg) e teor de Brix (B em %), sendo que a Gumbel mostrou-se adequada apenas nos casos de números de famílias muito pequenos. Assim, recomenda-se a Weibull para inferências práticas. A metodologia é adequada também para classificar as famílias ou progênies pela capacidade de geração de indivíduos superiores ou excepcionais e informar os tamanhos amostrais a serem praticados em cada família para capturar esses indivíduos.
  • Imagem de Miniatura
    Item
    Número de repetições na identificação de genes diferencialmente expressos em experimentos de RNA-Seq
    (Universidade Federal de Viçosa, 2015-02-27) Amaral, Regiane Teodoro do; Nascimento, Moysés; http://lattes.cnpq.br/4354428554998516
    Um dos principais desafios da biologia molecular é medir e avaliar os perfis de expressão gênica em diferentes tecidos biológicos com o objetivo de entender os mecanismos de transformação molecular. O método RNA-Seq usa transcriptoma a partir de tecnologias de sequenciamentos de nova geração (SNG), utilizados para sequenciar cDNA que é derivado de uma amostra de RNA, e, assim, produzir milhões de sequenciamentos de leitura. Porém, apesar do custo dessas tecnologias vir diminuindo, é comum realizar experimentos com pouca ou nenhuma repetição. Assim, torna-se necessária a descoberta e o aprimoramento de metodologias estatísticas eficientes para a otimização das análises de dados gerados em plataformas de sequenciamento de genomas. O objetivo geral desse trabalho consistiu na comparação de metodologias estatísticas a fim de estudar o padrão de expressão gênica relacionado à quantificação desses genes conforme determinadas condições/tratamentos, em experimentos de RNA-Seq. Para a realização das análises utilizou-se um conjunto de dados simulados através do pacote TCC do R, com diferentes cenários, para comparar os métodos estatísticos DESeq e baySeq. Foram exploradas tecnologias de RNA-Seq do perfil de expressão gênica de um banco de dados contendo 1000 genes em duas condições, nos cenários com cinco repetições, três repetições, 2 repetições e sem repetição. Em um primeiro momento, tais dados foram analisados pelos dois métodos separadamente, comparando-se o efeito do número de repetições dentro de cada um. Em seguida, foi realizada a comparação entre os métodos, levando em conta também o número de repetições em cada cenário. De acordo com os resultados gerados nas análises não podemos afirmar que um método, entre os avaliados, é ótimo em todas as circunstâncias, pois o método de escolha para uma situação em particular depende das condições experimentais. No entanto, sob as condições utilizadas no desenvolver do experimento, o método abordado pelo baySeq foi o que apresentou um bom desempenho, nas combinações ocorridas entre os métodos e os tipos de genes analisados, ou seja, esse foi o método que obteve uma maior capacidade de identificação dos genes diferencialmente expressos.
  • Imagem de Miniatura
    Item
    Abordagem matemática na análise de dados de área aplicada à variável malária em Moçambique
    (Universidade Federal de Viçosa, 2015-10-07) Chipenete, Cláudio Francisco; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/2557621925960438
    Ao se analisar os dados de área, um dos principais interesses é entender sua estrutura ou distribuição no espaço e, se existe alguma dependência ou estrutura bem definida entre as diversas áreas na região em estudo. Para mensurar essa dependência fez-se uma análise de padrões utilizando a autocorrelação espacial. O principal objetivo do trabalho foi abordar no enfoque matemático, as técnicas e procedimentos estatísticos na análise espacial de dados de área utilizando o método tradicional para o cálculo do índice de Moran e o método de três passos. Buscou-se também verificar e analisar a existência de algum padrão espacial definido em Moçambique associado a variável malária. A malária tem sido uma das principais causas de internamento nos hospitais e centros de saúde nos últimos anos, igualmente, das mortes da população. Analisar sua distribuição e relacionamento entre diferentes distritos do país poderá contribuir para minimizar os efeitos dessa doença. Os dados foram obtidos do Inquérito Demográfico e de Saúde de Moçambique (IDS) realizado em 2011. Na análise estatística foi possível identificar regiões cujos distritos se assemelhavam por possuírem taxas médias baixas de malária, formando agrupamentos, a saber, nas regiões sul, extremo sul, e norte de Moçambique. Para os demais distritos, verificou-se uma distribuição aleatória de casos da malária. No entanto, foi possível identificar distritos representados pelas cidades de Maputo, Matola e Beira com maior taxa de malária em relação aos demais.
  • Imagem de Miniatura
    Item
    Análise de dados de RNA-Seq com diferentes números de fatores e repetições
    (Universidade Federal de Viçosa, 2015-07-22) Souza, Vladimir Barbosa Carlos de; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/7804746265517309
    A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso.
  • Imagem de Miniatura
    Item
    Comparação de metodologias para identificação de genes diferencialmente expressos em experimentos de RNA-Seq de suínos
    (Universidade Federal de Viçosa, 2015-04-08) Souza, Pâmela Tamiris Caldas Serra de; Nascimento, Moysés; http://lattes.cnpq.br/8150310836761182
    Um dos principais desafios da biologia molecular é medir e avaliar os perfis de expressão gênica em diferentes condições com o objetivo de entender os mecanismos de transformação molecular. Para tanto, o método RNA-Seq usa o transcriptoma obtido a partir de tecnologias de sequenciamentos de nova geração (NGS), as quais são utilizadas para converter RNA em uma biblioteca de fragmentos de cDNA, e, assim, produzir milhões reads. Após a mensuração dos níveis de expressão dos genes, por meio de técnicas de mapeamento, surge a necessidade de verificar hipóteses a respeito da existência de expressão diferencial (ED) entre as condições avaliadas. Assim, faz-se necessária à descoberta e o aprimoramento de metodologias estatísticas para aperfeiçoar as análises de dados gerados em plataformas de sequenciamento de genomas. O objetivo geral desse estudo consistiu em avaliar o comportamento de três metodologias (DEGSeq, bayseq e DESeq) para verificação da expressão diferencial em longissimus dorsi (LD) do músculo de suínos da raça Piau e Comercial, em 21e 90 dias depois do coito, por meio de dados provenientes de RNA-Seq, em cenários sem repetição . De acordo com os resultados gerados nas análises e sob as condições utilizadas no desenvolver do experimento concluiu-se que, na comparação dos métodos bayseq com DEGSeq e baySeq com DESeq, respectivamente, observou-se, a partir da relação do nível de expressão (fold-change) entre as duas raças suínas (comercial e piau), que os métodos apresentaram desempenho diferentes entre si, pois apresentaram um nível de expressão desigual em ambos os métodos. No entanto, na comparação entre os métodos DESeq e DEGSeq, houve um desempenho comparável, deste modo, houve concordância entre os métodos. Como um todo, a maioria dos genes DE identificados, se deu na fase pós- natal tardia, ou seja, 90 dpc. Além disso, a maioria deles foram down na fase pré-natal inicial (21 dpc) e foram up na fase pré-natal tardia (90 dpc) relacionando as raças, comercial e piau e comparando os métodos.