Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 10 de 11
  • Imagem de Miniatura
    Item
    Genomic prediction models with additive and dominance effects for censored traits
    (Universidade Federal de Viçosa, 2017-03-31) Santos, Vinicius Silva dos; Martins Filho, Sebastião; http://lattes.cnpq.br/5809878805245760
    Recently, dominance effects have been included in the genomic selection of several species, with the GBLUP-D method being the most used. This method consists in replacing, in the REML / BLUP procedure, the pedigree-based relationship matrices by marker-based relationship matrices. This method can be performed using the GVCBLUP software or through BGLR R-package, which is based on Bayesian regression via the Reproduction Kernel Hilbert Space. The objective of this work was to evaluate the possibility and effectiveness of GBLUP-D implementation via the lmekin function implemented in the coxme package of R through the inclusion of additive and dominance genomic matrices. Thus, through simulated data analyzes, the results obtained by the lmekin function were compared with those obtained by the GVCBLUP software and the BGLR package. Subsequently, the analysis was extended considering phenotypes with censored observations in a F 2 population of pigs, where the time (in days) of the birth to the slaughter of the animal was evaluated through the Cox model and the truncated normal model, in that the censoring was considered or not in the analysis. Finally, the inclusion of the polygenic effect in the additive-dominant models was evaluated in three traits with complete and normally distributed observations of a mice population, and in censored data from a F 2 population of pigs. The results showed that the lmekin function is an efficient alternative for the fit of genomic linear models with additive and dominance effects, since it results were identical to those obtained through GVBLUP software. For the censored data, it was observed a high agreement between the Cox model and the truncated normal model in selecting the best individuals and the highest marker effects. Thus, it was possible to show the possibility of predicting genomic genetic values for censored data, considering the Cox survival model with additive and dominance effects. The inclusion of the polygenic effect in the evaluated models allowed a significative increase in the additive heritabilities of the evaluated traits.
  • Imagem de Miniatura
    Item
    Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
    (Universidade Federal de Viçosa, 2017-10-03) Moreira, Édimo Fernando Alves; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/0290811195300476
    Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simples
  • Imagem de Miniatura
    Item
    Modelagem da função de incidência cumulativa na presença de riscos competitivos em análise de sobrevivência
    (Universidade Federal de Viçosa, 2017-12-12) Tomaz, Flávia Sílvia Corrêa; Martins Filho, Sebastião; http://lattes.cnpq.br/5395990192083526
    Riscos competitivos surgem em situações em que um indivíduo pode falhar devido à várias causas distintas. Na presença de riscos competitivos a estimação e/ou avaliação do efeito de covariáveis sobre a função de incidência cumulativa (subdistribuição) frequentemente é de interesse. Essa função quantifica a probabilidade de um indivíduo experimentar um evento específico, ou seja, falhar devido a uma determinada causa dentre um conjunto de causas de falha. A estimação não paramétrica da função de incidência, por vezes, é obtida por meio do complemento do estimador de Kaplan-Meier, embora esse procedimento não seja adequado e procedimento apropriado para este propósito esteja disponível. No que se refere a modelagem do efeito de covariáveis sobre a função de incidência, abordagens comumente difundidas baseiam-se ou no risco específico por causa ou no risco da subdistribuição. A primeira ignora a presença dos riscos competitivos, enquanto a segunda leva em consideração os riscos competitivos e frequentemente utiliza o modelo de Fine e Gray. Embora existam alternativas ao modelo de Fine e Gray, estas são pouco discutidas. Neste sentido, o objetivo deste trabalho foi avaliar a estimação da função de incidência cumulativa, bem como verificar como a censura e a relação entre proporção de eventos competitivos afetam a estimação dessa função. Ademais objetivou-se avaliar três modelos de regressão para a função de incidência (modelo de regressão com ligação logarítmica, modelo de regressão com ligação logit e modelo de Fine e Gray). Além de um conjunto de dados reais sobre lesões em cavalos foi utilizado também um estudo de simulação. Os resultados encontrados reforçam relatos encontrados na literatura, que apontam a superestimação da função de incidência cumulativa quando a mesma é estimada como complemento do estimador de Kaplan-Meier, bem como a não correspondência entre os efeitos das covariáveis estimados com base no risco específico por causa e o baseado no risco da subdistribuição. Por meio do estudo de simulação constatou-se que a percentagem de censura bem como a relação entre os eventos competitivos afeta a estimação da função de incidência cumulativa. Verificou-se também, que, em geral, o modelo de regressão com ligação logarítmica mostrou-se uma alternativa ao modelo de Fine e Gray.
  • Imagem de Miniatura
    Item
    Inferência via Bootstrap na Conjoint Analysis
    (Universidade Federal de Viçosa, 2017-12-14) Barbosa, Eduardo Campana; Silva, Carlos Henrique Osório; http://lattes.cnpq.br/9324723287486113
    A presente tese teve como objetivo introduzir o método de reamostragem com reposição ou Bootstrap na Conjoint Analysis. Apresenta-se no texto uma revisão conceitual (Revisão de Literatura) sobre a referida metodologia (Conjoint Analysis) e também sobre o método proposto (Bootstrap). Adicionalmente, no Capítulo I e II, define-se a parte teórica e metodológica da Conjoint Analysis e do método Bootstrap, ilustrando o funcionamento conjunto dessas abordagens via aplicação real, com dados da área de tecnologia de alimentos. Inferências adicionais que até então não eram fornecidas no contexto clássico ou frequentista podem agora ser obtidas via análise das distribuições empíricas dos estimadores das Importâncias Relativas (abordagem por notas) e das Probabilidades e Razão de Escolhas (abordagem por escolhas). De forma geral, os resultados demonstraram que o método Bootstrap forneceu estimativas pontuais mais precisas e tornou ambas as abordagens da Conjoint Analysis mais informativas, uma vez que medidas de erro padrão e, principalmente, intervalos de confiança puderam ser facilmente obtidos para certas quantidades de interesse, possibilitando a realização de testes ou comparações estatísticas sobre as mesmas.
  • Imagem de Miniatura
    Item
    Estudos sobre a influência de afirmações populares na Geoestatística Clássica
    (Universidade Federal de Viçosa, 2017-02-15) Rosa, Lidiane Maria Ferraz; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/7463240800478263
    O presente trabalho teve por objetivo estudar assuntos abordados na Geoestatística de modo a preencher lacunas metodológicas que surgem naturalmente em áreas recentes da ciência e/ou que surgem de afirmações populares. Para isso, foi necessário realizar estudos teórico-práticos afim de se obter mais evidências e comprovações. Foram utilizados em todos os estudos conjuntos de dados reais. No primeiro capítulo foi feito um estudo quanto à precisão entre malhas amostrais regulares (malha hexagonal, malha quadrangular e malha triangular). No segundo capítulo foi realizado um estudo sobre a questão do uso do teste de Normalidade em uma análise geoestatística. Nesse estudo foi mostrada toda fundamentação teórica do principal teste de normalidade, teste de Shapiro-Wilk, e estudos práticos para essa comprovação. No terceiro capítulo realizou- se um estudo sobre a assimetria e o comprometimento de uma análise geoestatística para dados com essa característica. Finalmente, no quarto capítulo foram comparados três interpoladores geoestatísticos (krigagem simples, krigagem universal e krigagem regressão) quanto à eficácia na representação de modelos digitais de profundidade (MDP).
  • Imagem de Miniatura
    Item
    Desempenhos de diferentes propostas de planejamentos de gráficos de controle multivariados
    (Universidade Federal de Viçosa, 2017-07-17) Lara, Rodrigo Luiz Pereira; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/6285325810018078
    O desenvolvimento tecnológico iniciado no século passado, juntamente com o aumento da competição do mercado e a exigência dos consumidores no século atual acarretam o interesse em Gráficos de Controle Multivariados (GCMs). Nos trabalhos até então divulgados sobre GCMs, é comum o enfoque na comparação de desempenho entre eles, entretanto, essas comparações revelam-se restritas e direcionadas ao GCM recém proposto no trabalho em questão. O presente trabalho estudou, teoricamente, as estatísticas e aplicou, computacionalmente, os gráficos de controle multivariados T 2 de Hotelling, Multivariate Exponentially Weighted Moving Average (MEWMA), Multivariate Cumulative Sum (MCUSUM), Linear Multivariate Exponentially Weighted Moving Average (Lin- MEWMA) e Exponentially Likelihood Ratio (ELR) para o monitoramento do vetor de médias de todas as características importantes para a caracterização multivariada de processos. Para um processo sob controle estatístico, foram simulados dados de uma variável resposta p-variada e, para processos fora de controle estatístico, foram estabelecidas combinações de descontrole para o vetor de médias. Para tanto, foram realizadas 20.000 simulações por subgrupo racional e ajustes a distribuições de probabilidades multivariadas. O T2 de Hotelling foi o mais ineficaz dos GCMs ao passo que o Lin-MEWMA destacou-se pela sua baixa probabilidade do alarme falso. O ELR e MCUSUM mostraram desempenho melhores em relação aos GCMs anteriores, porém com dificuldade em detecção de pequenas mudanças no vetor de médias. Utilizando-se recomendações pouco citadas na literatura (λ = 0,03 e 0,04) o MEWMA mostrou-se o melhor dos GCMs estudados de modo a não interferir um processo sob controle, mas interromper a produção quando seus produtos estiverem sendo produzido fora do vetor de médias considerado sob controle.
  • Imagem de Miniatura
    Item
    Avaliação do impacto de atributos da carreira docente na UFV via Conjoint Analysis
    (Universidade Federal de Viçosa, 2017-02-16) Teixeira, Gabriely; Osório, Carlos Henrique; http://lattes.cnpq.br/2481418455545901
    Estudos recentes, que envolvem a carreira de professores universitários, têm relacionado satisfação ou insatisfação com a carreira a um conjunto de fatores do exercício profissional. A satisfação profissional reflete diretamente na eficácia do trabalho desempenhado. Alguns atributos são cruciais para a prática da docência com excelência nas universidades, pois afetam a satisfação no exercício do trabalho docente e podem alterar a produtividade do profissional desta área. Portanto, é de interesse conhecer os atributos ou fatores que influenciam na satisfação do docente e que possibilitem a busca por modelos de trabalho adequados. É neste contexto que se insere a presente dissertação, tendo como objetivo principal verificar a aplicabilidade da metodologia denominada Ratings-Based Conjoint Analysis (Análise Conjunta de Fatores Baseada em Notas) para avaliar a satisfação dos professores da UFV quanto a alguns atributos ligados à sua atuação profissional. A Conjoint Analysis permitiu decompor a opinião dos professores respondentes, informada por uma nota de satisfação global com relação às afirmações apresentadas, em partes devidas aos níveis dos atributos, de modo que se estimou as contribuições individualmente para a formação da preferência pelo tratamento ou satisfação global. Foram definidos quatro atributos: ] - Regime de trabalho, 2 - Valorização profissional, 3 - Liberdade de atuação e 4 - Infraestrutura. Os tratamentos foram formados por afirmações envolvendo estes atributos, com dois níveis cada (atributo contribui ou não), e estas foram apresentadas a uma amostra representativa dos professores em exercício da UFV, dimensionada por amostragem por quotas (por centro de com os de uma amostra voluntária, obtidos pela Comissão Própria de Avaliação da Universidade Federal de Viçosa (CPA-UFV), no V Ciclo de Autoavaliação Institucional 2015, a fim de verificar se a amostragem voluntária dos docentes, adotada pela CPA, é valida no sentido de representar a opinião dos docentes da UFV. Os resultados obtidos indicam que a metodologia Conj oint Analysis pode ser aplicada objetivando-se avaliar a opinião e satisfação dos respondentes, por meio de afirmativas apresentadas. Professores da UFV consideram o fator liberdade de atuação como o que mais influencia na satisfação com a carreira, atuar na tríade ensino, pesquisa e extensão e a valorização da carreira perante a sociedade também exercem influencia positiva. Os resultados indicaram também que a amostra voluntária adotada pela CPA é capaz de representar a opinião dos docentes como em uma amostra dimensionada, visto que os resultados obtidos foram semelhantes.
  • Imagem de Miniatura
    Item
    Seleção genômica não paramétrica via distância genética entre subpopulações
    (Universidade Federal de Viçosa, 2017-02-15) Lima, Leísa Pires; Azevedo, Camila Ferreira; http://lattes.cnpq.br/1919088712911346
    A seleção genômica ampla (Genome Wide Selection – GWS) consiste na análise de um grande número de marcadores SNPs (Single Nucleotide Polymorphisms) amplamente distribuídos no genoma. As principais metodologias propostas e utilizadas na GWS se dividem em metodologias paramétricas, semi-paramétricas ou metodologias de redução de dimensionalidade. Dessa forma, um dos objetivos desse trabalho foi avaliar metodologias não paramétricas, denominadas Delta-p e Regressão Categórica Tripla (TCR), além de compará-las com métodos tradicionalmente aplicados a GWS, tais como G-BLUP (Genomic Best Linear Unbiased Predictor) e BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator). O primeiro capítulo deste trabalho consiste em uma revisão de literatura sobre a GWS apresentando sua definição e importância no melhoramento genético, abordando sobre o desenvolvimento dos métodos propostos e avaliados e também retratando sobre o processo de validação utilizado para a comparação das metodologias. No segundo capítulo, foi proposto e analisado o método Delta-p e um índice de seleção, denominado índice Delta-p/G-BLUP que combina os valores genômicos provenientes do método G-BLUP com os valores genômicos estimados via Delta-p. Sob o contexto Bayesiano, foi incorporado ao LASSO Bayesiano, por meio de uma distribuição a priori altamente informativa, os valores genômicos estimados via G-BLUP, essa abordagem foi denominada método Bayes Híbrido. Para avaliar a eficiência dos métodos estatísticos, no que se refere à estimação dos valores genômicos aditivos e devidos à dominância, foram utilizados dados simulados, sendo estabelecidos oito cenários (dois níveis de herdabilidade × duas arquiteturas genéticas × ausência de dominância e dominância completa) sendo cada cenário simulado dez vezes. Os resultados do segundo capítulo indicaram que o índice Delta-p/G-BLUP e o Bayes Híbrido se mostraram eficientes para predição dos valores genômicos podendo ser usados vantajosamente na GWS. Ademais, no terceiro capítulo, foi avaliada a eficiência do método TCR em comparação com os métodos G-BLUP e BLASSO utilizando quatro cenários (dois níveis de herdabilidade × modelo infinitesimal × ausência de dominância e dominância completa) sendo cada cenário simulado dez vezes. Os resultados indicaram que o método TCR mostrou-se adequado para a estimação dos componentes de variação genômica e da herdabilidade. Em vista disso, uma metodologia baseada em uma modificação do método G-BLUP, denominada TCR/G-BLUP, foi proposta e consiste em estimar a herdabilidade via TCR e fixá-la nas equações de modelos mistos do método G-BLUP. A eficiência dos métodos G- BLUP e TCR/G-BLUP foram comparadas utilizando dados reais, seis caracteristicas avaliadas em mandioca (Manihot esculenta). O experimento foi instalado segundo um delineamento em blocos casualizados com três repetições e 10 plantas por parcela. Os resultados indicaram que o método TCR/G-BLUP foi capaz de aumentar a acurácia e fornecer valores genômicos não viesados se comparados ao método G-BLUP, sendo, portanto recomendado para a aplicação na GWS.
  • Imagem de Miniatura
    Item
    Seleção genômica para características categóricas em eucalipto
    (Universidade Federal de Viçosa, 2017-02-17) Silveira, Lucas Souza da; Martins Filho, Sebastião; http://lattes.cnpq.br/8781027361635034
    Atualmente muitas metodologias têm sido propostas para melhoria da predição de valores genéticos genômicos, no entanto, muitas delas assumem a pressuposição de que as variáveis respostas possuem distribuição gaussiana. Contudo, existem características como resistência a doença, bifurcação em árvores de eucalipto, estágios de florescimento e acamamento em plantas, entre outras, que são classificadas como categóricas, não possuindo distribuição gaussiana para os dados. Diante do exposto, objetivou-se comparar o modelo linear generalizado com o modelo linear de Gauss-Markov, obtendo os valores genéticos genômicos de indivíduos com fenótipos categóricos referentes a resistência à ferrugem do eucalipto, causada pelo patógeno Puccinia psidii Winter. Ambos os modelos foram aplicados quando a característica fenotípica possuía quatro classes de infecção (planta imune ou com reação de hipersensibilidade, pequenas pústulas, pústulas medianas e pústulas grandes) e quando estava categorizada como tipos de reação (resistente ou suscetível). O critério de informação da deviance (DIC - Deviance Information Criterion) foi utilizado para seleção do modelo adequado para descrever a característica fenotípica. O procedimento de validação cruzada via Jacknife foi utilizado para validação das estimativas. A acurácia preditiva e o viés foram utilizados para comparação dos modelos. Quando a característica foi categorizada com quatro classes de infecção, os valores de acurácia foram semelhantes para os dois modelos (diferença menor que 0,03). No entanto, quando a categorização foi realizada com duas classes, estas diferenças foram maiores que 0,03 para apenas um dos estimadores de acurácia. O viés na predição de valores genéticos genômicos foi melhor no modelo linear de Gauss- Markov em ambos os tipos de categorização.
  • Imagem de Miniatura
    Item
    Abordagem estatística de variáveis climáticas de Viçosa - MG
    (Universidade Federal de Viçosa, 2017-02-15) Lacerda, Maurício Silva; Emiliano, Paulo César; http://lattes.cnpq.br/7403859031624608
    Conhecer o comportamento de variáveis climáticas como a temperatura e o índice de chu- vas de uma cidade ou região é de grande importância para que haja melhor planejamento e tomadas de decisões futuras, por este motivo estudos destas variáveis estão sempre em evidência. Desta forma, tem-se como objetivo geral realizar um estudo de algumas carac- terísticas do clima da cidade de Viçosa-MG, por meio de séries temporais, com enfoque nas temperaturas máximas e mínimas e no nível de precipitação pluviométrica, com obje- tivo específico de identificar alterações nestes fatores. Para isso analisou-se um conjunto de dados históricos acerca do clima da cidade com registros desde janeiro de 1968 até julho de 2016, iniciando o tratamento dos dados calculando a média mensal para as tem- peraturas e o total mensal para a precipitação, em seguida foi aplicado o teste de Dickey- Fuller aumentado para análise da tendência, e uma decomposição espectral da série nas frequências de Fourier para detectar sazonalidade. Posteriormente, escolheu-se a classe dos modelos SARIMA e as suas ordens escolhidas por meio dos critérios de informação bayesiano (BIC) e Akaike corrigido (AICc). O modelo escolhido foi verificado através de uma análise residual com os testes de Shapiro-Wilk e Ljung-Box. Para a série histórica da média mensal da temperatura máxima o modelo SARIM A(2, 1, 2) × (0, 1, 1) se apresen- tou com bom ajuste. As séries da média mensal da temperatura mínima e da precipitação pluviométrica total mensal necessitaram de um modelo que ajustassem os resíduos para que os pressupostos da modelagem fossem satisfeitos, com isso a primeira teve sua corre- lação serial modelada pelo SARIM A(1, 1, 2) × (0, 1, 1) e seus resíduos pelo ARCH(2) e a segunda série teve os modelos SARIM A(1, 0, 0) × (0, 1, 1) para a ajustar a correla- ção serial e ARCH(2) para os resíduos. Com o presente estudo conclui-se que a cidade de Viçosa-MG teve uma elevação acima de 1°C na média mensal de suas temperaturas máximas e mínimas, enquanto que o nível de precipitação não sofreu alterações ao longo do tempo estudado.