Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
7 resultados
Resultados da Pesquisa
Item O uso de ciência de dados e inteligência geográfica como metodologias de políticas públicas para o diagnóstico precoce de tumores(Universidade Federal de Viçosa, 2022-02-24) Vieira, Flávio Ferraz; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/1888783441616975O Hospital do Câncer de Muriaé é um centro de oncologia que tem total pactuação com 83 municípios da Região Geográfica Intermediária de Juiz de Fora. Os tumores dos órgãos digestivos são os mais frequentes dos pacientes da instituição, sendo 19,16% dos casos entre 2010 e 2020. Os principais fatores de risco são o sobrepeso/obesidade e consumo exagerado de produtos com álcool e tabaco. O estado nutricional desses pacientes é obtido nos prontuários eletrônicos da instituição, porém essa informação possui um viés difícil de ser mensurado, pois tumores nos órgãos digestivos tem como consequência a rápida perda de peso. Com isso, este estudo teve como objetivo estimar o estado nutricional do paciente antes do surgimento do tumor utilizando o algoritmo Random Forest, e mapear as classes das variáveis que apresentam maiores proporções dos casos. A estimação pelo algoritmo obteve uma taxa de acurácia de 85,48% sendo considerado satisfatório. O perfil epidemiológico se manteve durante os 11 anos analisados no estudo (2010 - 2020), os perfis mais frequentes foram pacientes masculinos, com idade de 63 anos, casado, com ensino fundamental incompleto, não etilista, tabagista e acima do peso (de acordo com o Índice de Massa Corporal). O teste de Qui-Quadrado de Pearson foi utilizado para verificar a associação entre as variáveis epidemiológicas e letalidade em até 3 anos, o estadiamento e as variáveis de risco, também foi utilizado para verificar o estadiamento e a letalidade entre as variáveis de risco. O teste de associação apresentou significância para quase todas as variáveis, sendo os pacientes com baixa escolaridade com pior taxa. A identificação espacial dos fatores de risco, pacientes com baixa escolaridade e estadiamento avançado apresentou uma associação espacial para a maioria dos municípios do estudo, as regiões imediatas de Ubá e Viçosa apresentaram maior taxa de tabagistas e etilistas do que as outras imediatas, para os pacientes com baixa escolaridade esses foram em proporções maiores em cidades menos desenvolvidas e mais distantes dos municípios de referência das regiões imediatas. Palavras-chave: ELSA. Entrograma. Aprendizado de Máquina. Hospital do Câncer de Muriaé.Item CM-generator: uma metodologia para geração de matrizes de correlação customizadas(Universidade Federal de Viçosa, 2020-10-21) Martins, Helgem de Souza Ribeiro; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/5426301294483982A simulação de matrizes de correlações aleatórias é um procedimento im- portante em diversas áreas de pesquisa. Este estudo propõe um método denominado Custom Matrix generator (CM-generator) para gerar matrizes de correlação que sempre atendem às premissas matemáticas, e um algo- ritmo com base na metodologia desenvolvida. A técnica proposta é capaz de gerar matrizes de correlação personalizadas, tanto em termos de in- tensidade das correlações quanto em relação à distribuição de proporções entre níveis de intensidade de correlação, para diversas aplicações, que po- dem ser usadas em vários estudos. O método produz resultados eficientes quanto ao tempo computacional e minimiza erros no processo de geração de matrizes de correlação personalizadas. Palavras-chave: Matrizes de correlação aleatórias. Simulação. Matrizes de correlação personalizadas. Gencor.Item Determinação do tamanho de amostra para a geoestatística(Universidade Federal de Viçosa, 2020-02-21) Mendes, André; Santos, Gerson Rodrigues dos; http://lattes.cnpq.br/6645099142656304A estimativa do tamanho da amostra na geoestatística é de grande importância para o planejamento e tomada de decisão, especialmente quando se objetiva a reconstrução total da população estudada. Por este motivo, muitos trabalhos sobre o tamanho da amostra geoestatística surgem com este propósito. Assim, o objetivo geral deste trabalho é utilizar a geoestatística associada ao teorema da taxa Nyquist para determinar um tamanho de amostra ideal quando se utiliza uma grade regular quadrática, na qual o modelo de dependência espacial ajustado é o gaussiano, identificando especificamente mudanças no tamanho ideal da amostra na presença de outliers. Dois conjuntos de dados altimétricos (Viçosa-MG, Brasil e Treynor-Iowa, EUA) foram analisados e o tamanho amostral ideal para ambos os conjuntos foi obtido. Posteriormente, os outliers foram removidos do conjunto de dados norte- americano e comparados os tamanhos de amostra ideais obtidos anteriormente. Além disso, utilizando os softwares R e ArcGIS, as estimativas dos parâmetros do modelo gaussiano, da média e da variância dos resíduos, provenientes da validação cruzada, foram comparadas através da construção de intervalos de confiança. Com o presente estudo concluiu-se que: (i) a distância máxima entre os pontos da grade regular quadrática é de aproximadamente 30% do alcance prático observado no semivariograma da primeira amostragem experimental; (ii) o tamanho amostral ideal obtido na presença de outliers é praticamente o dobro do tamanho de amostra ideal na ausência de outliers; (iii) o software R é o mais adequado na comparação das estimativas da média e da variância dos resíduos pois apresentou uma menor variabilidade (menores amplitudes dos intervalos de confiança construídos). Palavras-chave: Tamanho de amostra. Taxa Nyquist. Geoestatística. Outliers.Item Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados(Universidade Federal de Viçosa, 2021-04-20) Barbosa, Josino José; Oliveira, Fernando Luiz Pereira de; http://lattes.cnpq.br/1948800098593563Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM.Item Proposta de um interpolador geoestatístico híbrido com aprendizado de máquina(Universidade Federal de Viçosa, 2020-11-23) Ilambwetsi, Patrícia de Sousa; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/4271526564020109A krigagem tem sido um método univariado muito utilizado na literatura para interpolação de dados. Entretanto, apresenta a desvantagem de ser computacionalmente inviável para modelar o estimador de semivariograma em grandes conjuntos de dados e descartar variáveis importantes no estudo pela presença do efeito pepita puro. Para solucionar essas desvantagens e melhorar a capacidade de predição desse interpolador, apresenta-se nesse trabalho, um estudo que envolve a metodologia da Geoestatística com aprendizado de máquina para implementar, computacionalmente, um interpolador híbrido capaz de modelar, em uma abordagem multivariada, a influência da variabilidade espacial de todas as variáveis presentes no estudo na predição da variabilidade espacial da variável de interesse, sem a restrição ao número de variáveis e ao tamanho do conjunto de dados. E, para fins de comparação, foi realizada via coeficiente erro quadrático médio (EQM) e coeficiente de determinação (R2) uma análise para verificar o desempenho do interpolador implementado. Para isso, foram coletadas amostras do solo de 50m×30m em todas as linhas da região do estudo e amostras da produção média das castanheiras, no período 2007 a 2015. As análises estatísticas e geoestatísticas foram realizadas no ambiente computacional do software R e todos os pontos foram georreferenciados. Como resultado, obteve-se não só um aprimoramento do ajuste do modelo implementado e uma redução significativa para erro quadrático médio, bem como, o detalhamento do grau de importância de cada atributo do solo para predizer a variabilidade espacial da produção média das Castanheiras-da-amazônia. Palavras-chave: Random Forest. FRK. Inteligência Artificial. Bertholletia excelsa. Análise Multivariada.Item Estimação da sensibilidade e especificidade de testes diagnósticos para a brucelose bovina na ausência de padrão ouro considerando dependência condicional via inferência bayesiana(Universidade Federal de Viçosa, 2018-03-22) Nascimento, Micherlania da Silva; Silva, Carlos Henrique Osório; http://lattes.cnpq.br/2173284356808544A brucelose bovina, causada pela bactéria Brucella Abortus, é uma doença presente em to- das as regiões do Brasil e provoca elevados prejuízos econômicos. O Programa Nacional de Controle e Erradicação de Brucelose e Tuberculose Animal (PNCEBT) estabeleceu os testes AAT, 2-ME, FC e DBac para realizar o diagnóstico da brucelose bovina. Na ausência de um teste Padrão Ouro, é necessário que o desempenho desses testes diagnósticos seja validado. O presente estudo, teve como objetivo empregar o modelo de classe latente Bayesiano para es- timar as sensibilidades e as especificidades dos testes diagnósticos AAT, 2-ME, FC e DBac, aplicados em amostras de sangue e carcaças de animais suspeitos de brucelose bovina, bem como a prevalência da doença. O conjunto de dados utilizado foi obtido junto ao Laboratório Nacional Agropecuário de Minas Gerais (LANAGRO-MG). Os testes foram avaliados em dois cenários: individualmente e combinados. Os modelos para a avaliação dos testes combinados foram ajustados considerando-se a independência condicional entre os quatro testes e também incorporando-se ao modelo a dependência condicional entre os testes AAT, 2-ME e FC. As aná- lises foram realizadas em R 3.2.5 usando o pacote R2OpenBUGS. Quanto à avaliação dos testes combinados, os resultados mostraram que os testes AAT, 2-ME e FC são condicionalmente in- dependentes. O teste FC foi o mais sensível, o DBac o menos sensível e os testes AAT, FC e DBac foram os mais específicos. Concluiu-se que nenhum dos quatro testes pode ser utilizado sozinho para o diagnóstico da brucelose bovina. Uma baixa sensibilidade foi encontrada para o teste AAT, resultado que diverge dos relatos geralmente encontrados na literatura. Portanto, recomenda-se que contínuos estudos sejam realizados para que a tomada de decisão dos pesqui- sadores não seja comprometida. Adicionalmente, concluiu-se que o modelo de classe latente bayesiano permitiu estimar os parâmetros de interesse satisfatoriamente.Item Modelagem de semivariograma considerando anisotropia e dados discrepantes no estabelecimento de zonas de manejo(Universidade Federal de Viçosa, 2018-03-07) Barbosa, Danilo Pereira; Santos, Nerilson Terra; http://lattes.cnpq.br/6307014925031737Com o estabelecimento da agriculta de precisão, a heterogeneidade do solo tornou-se um parâmetro expressivo quanto ao seu manuseio. Frente a este cenário, destaca-se a utilização massiva das zonas de manejo (ZM). As ZM são sub-regiões do campo com necessidades específicas quanto as variáveis analisadas, permitindo o controle da heterogeneidade do solo, maximização produtiva e sustentabilidade agrícola. Entretanto, sua aplicabilidade esta condicionada ao mapeamento do padrão de variabilidade espacial dos atributos físico-químicos presentes no solo. Este mapeamento tem sido resultante da utilização contínua de métodos geoestatísticos, dos quais apresentam pressuposições inexploradas em suas aplicações, conduzindo assim, o objetivo desta pesquisa. E consequentemente norteou os específicos objetivos: a) avaliar alterações em mapas de ZM devido à correção da anisotropia e b) avaliar variações em mapas de ZM quanto à utilização de metodologia robusta à outliers. Para tanto, 160 pontos amostrais regularmente espaçados, relativos à condutividade elétrica aparente do solo (CEa), e produtividade de soja foram utilizados. Quanto à verificação de alterações em mapas de ZM devido à correção da anisotropia, os mesmos foram interpolados sem e com correção da anisotropia geométrica para cada variável. Na sequencia foram então utilizados para o delineamento das ZM por meio do método fuzzy k-means. As ZM para cada variável, com e sem correção da anisotropia geométrica, foram avaliadas quanto as suas semelhanças pelo índice kappa. Para a avaliação de variações em mapas de ZM quanto à ocorrência de outliers utilizaram-se dois tipos de análises, robusta a presença de outliers (ARob) e não robusta à outliers (ANRob). Na ARob utilizaram-se estimadores robustos desemivariâncias e o plug-in de krigagem de deriva externa para a geração de mapas de variabilidade espacial da CEa. Para a ANRob utilizou-se o estimador de semivariâncias de Matheron e a krigagem ordinária. Posteriormente os mapas obtidos foram submetidos ao delineamento de zonas de manejo pelo classificador fuzzy k-means. E de maneira conclusiva, os mapas obtidos em ambas as análises (ARob e ANRob) foram confrontados quanto à significância do nível de concordância entre suas classes pelo índice Kappa. Os resultados obtidos na verificação de alterações em mapas de ZM devido à correção da anisotropia foram: a) utilizou-se o modelo gaussiano na constituição dos mapas de variabilidade espacial para a CEa e para a produtividade, tanto para os dados corrigidos à anisotropia quanto aos não corrigidos; b) conforme os índices FPI e MPE, definiram-se duas classes para o delineamento de ZM para os dados corrigidos à anisotropia, quanto aos não corrigidos; c) a comparação entre os mapas (corrigido e não corrigido à anisotropia) pelo índice Kappa apresentou concordância significativa entre classes de ZM a 5% de probabilidade. Concluindo assim que, no caso em estudo, a correção da anisotropia geométrica não apresentou alterações significativas nos mapas de ZM. Os resultados obtidos na avaliação de variações em mapas de ZM quanto à ocorrência de outliers foram: a) na ARob selecionou-se o estimador de semivariâncias de Cressie Hawkins dentre os demais estimadores robustos avaliados. Na predição do mapa de estrutura de variabilidade espacial da CEa utilizou-se o plug-in de krigagem de deriva externa. Os índices FPI, MPE, Fukuyama Sugento e Xie beni definiram duas classes de ZM. b) na ANRob utilizou-se o estimador de semivariâncias de Matheron e a krigagem ordinária na composição do mapa de variabilidade espacial da CEa. Os índices avaliados definiram duas classes de ZM. c) os mapas obtidos em ambas as análises (ARob e ANRob) apresentaram concordância significativa entre classes de ZM pelo índice Kappa a 1% de probabilidade. Com isso, de maneira conclusiva, para o caso em estudo, o uso da ARob não apresentou variações significativas no estabelecimento das ZM.