Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
13 resultados
Resultados da Pesquisa
Item Monitoramento da média e da variabilidade ponderadas exponencialmente por gráficos de controle univariados(Universidade Federal de Viçosa, 2015-12-15) Barbosa, Rafael Botelho; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/7613024762196396Gráficos de controle são métodos utilizados no controle estatístico de processos (CEP), implantados nas situações em que o processo já se encontra sob controle estatístico e há necessidade de fazer com que a situação de estabilidade seja mantida. O presente trabalho analisou o desempenho de cinco tipos de gráficos de controle da ponderação exponencial, através da imposição de situações de deslocamento da média e, ou, do aumento da variabilidade, que são: média móvel ponderada exponencialmente (EWMA), erro quadrático médio móvel ponderado exponencialmente (EWMASD), amplitude móvel média móvel ponderada exponencialmente (EWMAMR), quadrado médio ponderado exponencialmente (EWMS) e variância amostral móvel ponderada exponencialmente (EWMSV). Foram geradas 1000 simulações, com 50 subgrupos racionais de tamanho n =], para cada combinação de média e variabilidade adotadas neste estudo. Cada gráfico de controle estudado possuiu dois fatores {A (λ) e B [k (EWMA), c (EWMASD), α (EWMAMR e EWMS) ou h * (EWMSV)]}, e foram escolhidos dois diferentes níveis para cada um deles. Os resultados foram interpretados através da utilização de diagramas de dispersão, de gráficos de Pareto para analisar os efeitos de cada fator e de testes de Tukey para comparação dos gráficos de controle. Para as situações em que o processo estava sob controle estatístico, foi adotado que os gráficos com bons desempenhos foram aqueles que apresentaram as probabilidades dos alarmes falsos inferiores ao valor 0,05, ou seja, α ≤ 0,05. Já para as situações de descontrole, foi considerado que os gráficos que possuíram probabilidades dos alarmes verdadeiros superiores a 0,90, ou seja, Pd ≥ 0,90, obtiveram desempenho satisfatório. Para o alarme falso, os gráficos de controle que atenderam a exigência foram: EWMA, EWMASD, EWMAMR e EWMS. No caso em que somente a média encontrava-se fora de controle, os gráficos de controle que satisfizeram a condição imposta para o alarme verdadeiro foram: EWMA, EWMASD, EWMS e EWMSV. Quando a variabilidade estava fora de controle, os gráficos que atenderam a exigência foram: EWMASD, EWMAMR, EWMS e EWMSV. Quando média e variabilidade estavam fora de controle, os gráficos que satisfizeram a exigência foram: EWMA, EWMASD, EWMAMR, EWMS e EWMSV. Como o gráfico de controle EWMSV não atendeu a exigência para a probabilidade do alarme falso, não foi recomendada a sua utilização. No entanto, alguns desses gráficos possuíram desempenhos superiores aos outros, logo, a recomendação para utilização dos gráficos foi que: para o monitoramento somente da média, os gráficos adequados foram EWMA, EWMASD e EWMS; para o monitoramento somente da variabilidade, recomenda- se a utilização dos gráficos EWMASD, EWMAMR e EWMS; e para o monitoramento da média e variabilidade, os gráficos sugeridos são EWMA, EWMASD, EWMAMR e EWMS. Quanto a análise do efeito dos fatores pelo diagrama de Pareto, concluiu-se que, na grande maioria das situações analisadas, o fator B foi o único responsável por acarretar mudanças significativas na probabilidade do alarme falso ou verdadeiro, de acordo com as combinações dos termos que foram utilizadas.Item Abordagens frequentista e bayesiana para descrição das curvas de acúmulo de matéria seca de plantas de alho(Universidade Federal de Viçosa, 2015-12-03) Macedo, Leandro Roberto de; Cecon, Paulo Roberto; http://lattes.cnpq.br/1661203785619531Este trabalho teve como objetivo identificar modelos de regressão não linear que melhor descrevem as curvas de acúmulo de matéria seca em acessos de alho ao longo do tempo (60, 90, 120 e 150 dias após o plantio) utilizando as abordagens Frequentista e Bayesiana. Objetivou-se também agrupar os acessos similares em cada abordagem com relação às estimativas dos parâmetros e validar este agrupamento via inferência para a igualdade desses parâmetros entre os grupos formados. Para tal estudo foram utilizados 30 acessos de alho registrados no Banco de Germoplasma de Hortaliças da Universidade Federal de Viçosa (BGH/UFV). Os modelos Logístico, Gompertz e Von Bertalanffy mostraram-se bons representantes para este tipo de estudo, sendo o modelo Logístico o que melhor se ajustou aos dados. Após a escolha do melhor modelo em cada uma das abordagens, as estimativas dos parâmetros das curvas provenientes do ajuste deste modelo foram submetidas a análise de agrupamento, em que as estimativas foram consideradas como variáveis. Para o agrupamento foi utilizando o algoritmo de Ward e a distância generalizada de Mahalanobis como medida de proximidade. O número ótimo de grupos, segundo o método de Mojena, foi de três para a abordagem Frequentista e quatro para a Bayesiana. A inferência sobre igualdade de parâmetros das curvas entre os grupos formados indicou que o método Bayesiano mostrou-se eficiente e caracterizou-se como uma ferramenta útil para o estudo das curvas de acúmulo de matéria seca em plantas de alho visto que não apresentou problemas de convergência e reportou estimativas com baixos desvios padrão a posteriori, além de determinar de forma mais efetiva o número de grupos.Item Estudo do tempo de eficiência das insulinas de DNA recombinante via modelos para testes de vida acelerados(Universidade Federal de Viçosa, 2015-07-30) Sousa, Patrícia de; Oliveira, Fernando Luiz Pereira deNesta pesquisa, estudamos o tempo de eficiência das insulinas de DNA recombinante via modelos para os testes de vida acelerados. Para isso, foi avaliada, periodicamente, a perda de potência dessas insulinas, submetidas às condições de temperatura de 8ºC, 25ºC e 37ºC, inseridas num contexto de ensaios acelerados. Essa proposta envolveu a utilização da metodologia para os testes de vida acelerados em estudos de dados reais através dos softwares R e Minitab. Ela teve como objetivos: o estudo da influência da temperatura no tempo da perda de potência das insulinas; a aplicação de técnicas gráficas e do teste da razão de verossimilhança para escolha do modelo que melhor se ajuste aos dados; a extrapolação das estimativas obtidas em momentos de estresse para as condições normais de uso e a apresentação ao mundo acadêmico de uma aplicação desses testes aos dados reais da engenharia genética. A análise, de abordagem classica, tomou como referência os estudos de alguns pesquisadores que, para tratar a censura intervalar presente nos dados, passaram a considerar os intervalos censurados como tempos exatos de falha. Os resultados mostraram que, por meio dos testes de vida acelerados, os fabricantes não só serão capazes de produzir insulinas com mais qualidade e confiabilidade, em tempo recorde, bem como poderão ter os prejuízos minimizados por calcular o prazo de garantia e a validade desses produtos com estimativas de tempos de falha confiáveis, oferecendo, assim, produtos com mais eficiência.Item Choice-Based Conjoint Analysis: um enfoque bayesiano(Universidade Federal de Viçosa, 2015-02-25) Barbosa, Eduardo Campana; Silva, Carlos Henrique Osório; http://lattes.cnpq.br/9324723287486113A presente dissertação teve como objetivo principal demonstrar um enfoque Bayesiano para a metodologia Choice-Based Conjoint Analysis (CBCA). Apresenta-se no texto uma ampla revisão sobre a CBCA (Capítulo 1), sobre o modelo Logit Multinomial [desenvolvimento do modelo, procedimentos de estimação de parâmetros, probabilidades e razões de escolha (Capítulo 2)] e sobre o enfoque de estimação Bayesiano [distribuição a priori utilizada, aproximação de Laplace para a função de verossimilhança, distribuições a posteriori e detalhes sobre o algoritmo MCMC empregado (Capítulo 3)]. No Capítulo 4 apresenta-se um exemplo hipotético, no intuito de demonstrar os resultados e inferências que podem ser obtidos por meio desta recente abordagem (Bayesiana), sendo também apresentados os resultados do enfoque Frequentista. O tratamento em estudo foi um tipo de refrigerante e avaliou-se o efeito de três fatores (A, B e C) na intenção de compra de 96 consumidores, por meio de dados simulados. As análises estatísticas foram conduzidas no software livre R, cujos scripts encontram-se disponibilizados nos apêndices desta dissertação. Concluiu-se que a abordagem Bayesiana para CBCA apresentou resultados interessantes e satisfatórios, com estimativas similares às Frequentistas e mostrando-se uma alternativa metodológica viável para os estudos de CBCA. Adicionalmente, a abordagem proposta possibilitou ainda ao pesquisador construir intervalos de credibilidade (percentis das distribuições a posteriori) para as probabilidades e razões de escolha, no intuito de comparar estas quantidades ou testar hipóteses sobre estas. Quanto aos resultados práticos, a maior probabilidade de escolha estava associada ao tratamento 4, composto pelo nível do fator A, nível do fator B e nível do fator C.Item Número de repetições na identificação de genes diferencialmente expressos em experimentos de RNA-Seq(Universidade Federal de Viçosa, 2015-02-27) Amaral, Regiane Teodoro do; Nascimento, Moysés; http://lattes.cnpq.br/4354428554998516Um dos principais desafios da biologia molecular é medir e avaliar os perfis de expressão gênica em diferentes tecidos biológicos com o objetivo de entender os mecanismos de transformação molecular. O método RNA-Seq usa transcriptoma a partir de tecnologias de sequenciamentos de nova geração (SNG), utilizados para sequenciar cDNA que é derivado de uma amostra de RNA, e, assim, produzir milhões de sequenciamentos de leitura. Porém, apesar do custo dessas tecnologias vir diminuindo, é comum realizar experimentos com pouca ou nenhuma repetição. Assim, torna-se necessária a descoberta e o aprimoramento de metodologias estatísticas eficientes para a otimização das análises de dados gerados em plataformas de sequenciamento de genomas. O objetivo geral desse trabalho consistiu na comparação de metodologias estatísticas a fim de estudar o padrão de expressão gênica relacionado à quantificação desses genes conforme determinadas condições/tratamentos, em experimentos de RNA-Seq. Para a realização das análises utilizou-se um conjunto de dados simulados através do pacote TCC do R, com diferentes cenários, para comparar os métodos estatísticos DESeq e baySeq. Foram exploradas tecnologias de RNA-Seq do perfil de expressão gênica de um banco de dados contendo 1000 genes em duas condições, nos cenários com cinco repetições, três repetições, 2 repetições e sem repetição. Em um primeiro momento, tais dados foram analisados pelos dois métodos separadamente, comparando-se o efeito do número de repetições dentro de cada um. Em seguida, foi realizada a comparação entre os métodos, levando em conta também o número de repetições em cada cenário. De acordo com os resultados gerados nas análises não podemos afirmar que um método, entre os avaliados, é ótimo em todas as circunstâncias, pois o método de escolha para uma situação em particular depende das condições experimentais. No entanto, sob as condições utilizadas no desenvolver do experimento, o método abordado pelo baySeq foi o que apresentou um bom desempenho, nas combinações ocorridas entre os métodos e os tipos de genes analisados, ou seja, esse foi o método que obteve uma maior capacidade de identificação dos genes diferencialmente expressos.Item Ridge, lasso and bayesian additive-dominance genomic models and new estimators for the experimental accuracy of genome selection(Universidade Federal de Viçosa, 2015-10-26) Azevedo, Camila Ferreira; Resende, Marcos Deon Vilela de; http://lattes.cnpq.br/8861113007032888The main contribution of molecular genetics is the direct use of DNA information to identify genetically superior individuals. Under this approach, genome-wide selection (GWS) can be used with this purpose. GWS consists in analyzing of a large number of SNP markers widely distributed in the genome. This simulation work presents a complete approach for genomic selection by using adequate genetic models including dominance effects, which are essential for selecting crosses and clones as well as for improving the estimation of additive effects for parent selection. To date, the approaches via Ridge, Lasso and Bayesian additive-dominance models have not been evaluated and compared in the literature.The performance of 10 additive-dominance prediction models (including current ones and proposed modifications) were evaluated. A new modified Bayesian/Lasso method (called BayesA*B* or t-BLASSO) performed best in the prediction of genomic breeding value of individuals, in all the four scenarios (two heritabilities × two genetic architectures). The BayesA*B*-type methods showed better ability for recovering the dominance variance/additive variance ratio. Also, the role of the three quantitative genetics information sources (called linkage disequilibrium, co- segregation and pedigree relationships) in genomic selection were elucidated by decomposing the heritability and accuracy in the three components and showing their relations with the structure of populations and the genetic improvement in the short and long run. Moreover, this simulation work also, we developed the new estimators for the prediction accuracy of genomic selection. The work proposes and evaluates the performance and efficiency of these new estimators called regularized estimator (RE) and hybrid estimator (HE). The regularized estimator takes in consideration both the genomic and trait heritabilities, in addition to the predictive ability. The hybrid estimator (HE), combines both experimental and expected accuracies. The comparisons of the RE and HE with the traditional (TE) were done under four validation procedures. In general, the new estimator presented accuracies closer to the parametric ones, mainly when selecting markers. It was also less biased and more precise, with smaller standard deviations than the traditional estimator. The TE can be used only with independent validation, where it tends to perform better than RE, although overestimating the accuracy. The hybrid estimator (HE) proved to be very effective in the absence of validation. The independent validation showed to be superior over the Jacknife procedures, chasing better the parametric accuracy with or without marker selection. The following inferences can be made according to the accuracy estimator and kind of validation: (i) most probable accuracy: HE without validation; (ii) highest possible accuracy: TE with independent validation; (iii) lowest possible accuracy: RE with independent validation.Item Abordagem matemática na análise de dados de área aplicada à variável malária em Moçambique(Universidade Federal de Viçosa, 2015-10-07) Chipenete, Cláudio Francisco; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/2557621925960438Ao se analisar os dados de área, um dos principais interesses é entender sua estrutura ou distribuição no espaço e, se existe alguma dependência ou estrutura bem definida entre as diversas áreas na região em estudo. Para mensurar essa dependência fez-se uma análise de padrões utilizando a autocorrelação espacial. O principal objetivo do trabalho foi abordar no enfoque matemático, as técnicas e procedimentos estatísticos na análise espacial de dados de área utilizando o método tradicional para o cálculo do índice de Moran e o método de três passos. Buscou-se também verificar e analisar a existência de algum padrão espacial definido em Moçambique associado a variável malária. A malária tem sido uma das principais causas de internamento nos hospitais e centros de saúde nos últimos anos, igualmente, das mortes da população. Analisar sua distribuição e relacionamento entre diferentes distritos do país poderá contribuir para minimizar os efeitos dessa doença. Os dados foram obtidos do Inquérito Demográfico e de Saúde de Moçambique (IDS) realizado em 2011. Na análise estatística foi possível identificar regiões cujos distritos se assemelhavam por possuírem taxas médias baixas de malária, formando agrupamentos, a saber, nas regiões sul, extremo sul, e norte de Moçambique. Para os demais distritos, verificou-se uma distribuição aleatória de casos da malária. No entanto, foi possível identificar distritos representados pelas cidades de Maputo, Matola e Beira com maior taxa de malária em relação aos demais.Item Análise de dados de RNA-Seq com diferentes números de fatores e repetições(Universidade Federal de Viçosa, 2015-07-22) Souza, Vladimir Barbosa Carlos de; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/7804746265517309A tecnologia RNA-Seq mostrou-se ser revolucionária para o estudo de expressão gênica. Porém, mais estudos na literatura sobre a análise de dados de RNA-Seq são necessários, até mesmo porque se trata de um método de elevado custo. Devido a este alto custo, é importante o aproveitamento das amostras disponíveis para concluir sobre mais fatores e suas interações. Este trabalho tem como objetivo realizar um comparativo do desempenho da análise de identificação de DEGs (genes diferencialmente expressos) em experimentos com diferentes números de fatores e repetições, mas todos com o mesmo número de amostras, ou seja, com o mesmo custo. Para as análises, foram simulados conjuntos de dados provenientes de experimentos com diferentes números de fatores e repetições. Para a realização dessas simulações foi utilizado o pacote TCC, desenvolvido para o software livre R, para a normalização dos dados também foi utilizado o TCC, e para a identificação dos DEGs foi utilizado o pacote DESeq, também desenvolvido para o R. Por último, o desempenho das análises de cada experimento foi calculado utilizando-se curvas ROC (Receiver Operating Characteristics), usando-se o pacote ROCR, também disponível para o R. Após o cumprimento da metodologia, pôde-se observar que, na ausência de interação entre fatores, não ocorre perda de desempenho das análises ao adicionar mais fatores, e, quando existe interação entre fatores, ocorre essa perda. Portanto, o uso de mais fatores, ao custo de se ter menos repetições, pode ser vantajoso.Item Estimação da capacidade de processos via testes de permutação e bootstrap em aplicações industriais(Universidade Federal de Viçosa, 2015-07-31) Bandeira, Mayra Marques; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/7289058373967431A competitividade do mercado tem levado as empresas e indústrias a elevar a qualidade dos produtos e serviços fazendo com que ela se torne uma das preocupações em diversas áreas. O monitoramento e a avaliação da capacidade do processo torna-se indispensável para as empresas. Os índices de capacidade são medidas que traduzem a capacidade de um processo de atender as especificações estabelecidas. Alguns índices de capacidade disponíveis na literatura são apresentados neste trabalho. Nosso objetivo é obter as estimações pontuais e intervalares, de alguns índices de capacidade auxiliadas através de técnicas de reamostragem. Dentre estas técnicas de reamostragem, os testes de permutação e bootstrap são utilizados de forma a reorganizar o conjunto de dados sem alterar as informações existentes e assim obter reamostras para auxiliarmos nas estimativas via índices de capacidade. Nesta dissertação, utilizando dados reais, estimamos alguns índices de capacidade em situações em que suposições usuais para obter estas estimativas não são válidas.Item Redução do adensamento amostral no ajuste de modelos de semivariogramas(Universidade Federal de Viçosa, 2015-07-30) Ferreira, Matheus de Paula; Santos, Nerilson Terra; http://lattes.cnpq.br/2090569770204041A Geoestatística é o ramo da estatística que visa descrever o comportamento espacial dos dados, analisando as variáveis de acordo com a localização espacial. Atualmente os procedimentos geoestatísticos são aplicados nas mais diversas áreas científicas, sendo uma ferramenta de extrema importância na agricultura de precisão, em estudos do solo e mapeamentos em geral. Ao se falar de dados georreferenciados, logo se tem em mente o processo de amostragem a ser utilizado. Esse processo é uma etapa crucial, uma vez que é de extrema importância para a análise dos dados, além do valor financeiro associado ao mesmo. O custo e/ou tempo necessário para a realização da amostragem e de suas análises deve ser o mínimo possível. Nesse contexto, se faz necessário realizar estudos que visem obter soluções que minimizem o adensamento amostral. Com o objetivo de avaliar o efeito deste adensamento amostral no ajuste de diferentes modelos de semivariograma e a coerência entre as mensurações da dependência espacial obtidas pelo semivariograma e o Índice de Moran, realizou-se a análise da redução do número de pontos na grade do adensamento em um conjunto composto por 154 amostras de dados de atributos físicos do solo, provenientes de um projeto de pesquisa desenvolvido no Departamento de Engenharia Civil da Universidade Federal de Viçosa. Os resultados mostraram que ao reduzir os pontos em aproximadamente cinquenta por cento, os parâmetros do semivariograma mantiveram-se próximos aos obtidos ao utilizar a base de dados original, havendo coerência entre as mensurações da dependência espacial descrita tanto pelo semivariograma quanto pelo Índice de Moran. Maiores reduções no adensamento de amostragem não apresentaram tais similaridades.