Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
4 resultados
Resultados da Pesquisa
Item Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar(Universidade Federal de Viçosa, 2017-10-03) Moreira, Édimo Fernando Alves; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/0290811195300476Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simplesItem Modelagem da função de incidência cumulativa na presença de riscos competitivos em análise de sobrevivência(Universidade Federal de Viçosa, 2017-12-12) Tomaz, Flávia Sílvia Corrêa; Martins Filho, Sebastião; http://lattes.cnpq.br/5395990192083526Riscos competitivos surgem em situações em que um indivíduo pode falhar devido à várias causas distintas. Na presença de riscos competitivos a estimação e/ou avaliação do efeito de covariáveis sobre a função de incidência cumulativa (subdistribuição) frequentemente é de interesse. Essa função quantifica a probabilidade de um indivíduo experimentar um evento específico, ou seja, falhar devido a uma determinada causa dentre um conjunto de causas de falha. A estimação não paramétrica da função de incidência, por vezes, é obtida por meio do complemento do estimador de Kaplan-Meier, embora esse procedimento não seja adequado e procedimento apropriado para este propósito esteja disponível. No que se refere a modelagem do efeito de covariáveis sobre a função de incidência, abordagens comumente difundidas baseiam-se ou no risco específico por causa ou no risco da subdistribuição. A primeira ignora a presença dos riscos competitivos, enquanto a segunda leva em consideração os riscos competitivos e frequentemente utiliza o modelo de Fine e Gray. Embora existam alternativas ao modelo de Fine e Gray, estas são pouco discutidas. Neste sentido, o objetivo deste trabalho foi avaliar a estimação da função de incidência cumulativa, bem como verificar como a censura e a relação entre proporção de eventos competitivos afetam a estimação dessa função. Ademais objetivou-se avaliar três modelos de regressão para a função de incidência (modelo de regressão com ligação logarítmica, modelo de regressão com ligação logit e modelo de Fine e Gray). Além de um conjunto de dados reais sobre lesões em cavalos foi utilizado também um estudo de simulação. Os resultados encontrados reforçam relatos encontrados na literatura, que apontam a superestimação da função de incidência cumulativa quando a mesma é estimada como complemento do estimador de Kaplan-Meier, bem como a não correspondência entre os efeitos das covariáveis estimados com base no risco específico por causa e o baseado no risco da subdistribuição. Por meio do estudo de simulação constatou-se que a percentagem de censura bem como a relação entre os eventos competitivos afeta a estimação da função de incidência cumulativa. Verificou-se também, que, em geral, o modelo de regressão com ligação logarítmica mostrou-se uma alternativa ao modelo de Fine e Gray.Item Inferência via Bootstrap na Conjoint Analysis(Universidade Federal de Viçosa, 2017-12-14) Barbosa, Eduardo Campana; Silva, Carlos Henrique Osório; http://lattes.cnpq.br/9324723287486113A presente tese teve como objetivo introduzir o método de reamostragem com reposição ou Bootstrap na Conjoint Analysis. Apresenta-se no texto uma revisão conceitual (Revisão de Literatura) sobre a referida metodologia (Conjoint Analysis) e também sobre o método proposto (Bootstrap). Adicionalmente, no Capítulo I e II, define-se a parte teórica e metodológica da Conjoint Analysis e do método Bootstrap, ilustrando o funcionamento conjunto dessas abordagens via aplicação real, com dados da área de tecnologia de alimentos. Inferências adicionais que até então não eram fornecidas no contexto clássico ou frequentista podem agora ser obtidas via análise das distribuições empíricas dos estimadores das Importâncias Relativas (abordagem por notas) e das Probabilidades e Razão de Escolhas (abordagem por escolhas). De forma geral, os resultados demonstraram que o método Bootstrap forneceu estimativas pontuais mais precisas e tornou ambas as abordagens da Conjoint Analysis mais informativas, uma vez que medidas de erro padrão e, principalmente, intervalos de confiança puderam ser facilmente obtidos para certas quantidades de interesse, possibilitando a realização de testes ou comparações estatísticas sobre as mesmas.Item Desempenhos de diferentes propostas de planejamentos de gráficos de controle multivariados(Universidade Federal de Viçosa, 2017-07-17) Lara, Rodrigo Luiz Pereira; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/6285325810018078O desenvolvimento tecnológico iniciado no século passado, juntamente com o aumento da competição do mercado e a exigência dos consumidores no século atual acarretam o interesse em Gráficos de Controle Multivariados (GCMs). Nos trabalhos até então divulgados sobre GCMs, é comum o enfoque na comparação de desempenho entre eles, entretanto, essas comparações revelam-se restritas e direcionadas ao GCM recém proposto no trabalho em questão. O presente trabalho estudou, teoricamente, as estatísticas e aplicou, computacionalmente, os gráficos de controle multivariados T 2 de Hotelling, Multivariate Exponentially Weighted Moving Average (MEWMA), Multivariate Cumulative Sum (MCUSUM), Linear Multivariate Exponentially Weighted Moving Average (Lin- MEWMA) e Exponentially Likelihood Ratio (ELR) para o monitoramento do vetor de médias de todas as características importantes para a caracterização multivariada de processos. Para um processo sob controle estatístico, foram simulados dados de uma variável resposta p-variada e, para processos fora de controle estatístico, foram estabelecidas combinações de descontrole para o vetor de médias. Para tanto, foram realizadas 20.000 simulações por subgrupo racional e ajustes a distribuições de probabilidades multivariadas. O T2 de Hotelling foi o mais ineficaz dos GCMs ao passo que o Lin-MEWMA destacou-se pela sua baixa probabilidade do alarme falso. O ELR e MCUSUM mostraram desempenho melhores em relação aos GCMs anteriores, porém com dificuldade em detecção de pequenas mudanças no vetor de médias. Utilizando-se recomendações pouco citadas na literatura (λ = 0,03 e 0,04) o MEWMA mostrou-se o melhor dos GCMs estudados de modo a não interferir um processo sob controle, mas interromper a produção quando seus produtos estiverem sendo produzido fora do vetor de médias considerado sob controle.