Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 10 de 38
  • Imagem de Miniatura
    Item
    Abordagem bayesiana de modelos não lineares aplicados ao crescimento de frutos de Capsicum annuum L.: considerações de erros experimentais simétricos e assimétricos
    (Universidade Federal de Viçosa, 2024-11-06) Moura, George Lucas Santana de; Cecon, Paulo Roberto; http://lattes.cnpq.br/0657704531110710
    No final dos anos 90 e início dos anos 2000, registrou-se uma ampla variedade de propostas de novas distribuições de probabilidades simétricas, assimétricas e bimodais, cuja flexibilidade atentassem a exigência do comportamento dos dados. Tratando-se da modelagem de fenômenos biológicos, os modelos de regressão não linear sob o erro gaussiano são um procedimento padrão, entretanto, as novas propostas de modelos de regressão não linear com erros flexíveis aumentam a precisão dos modelos e a qualidade de ajuste sem precisar utilizar-se de transformação de variáveis como a de Box-Cox que comprometem a interpretação dos resultados. Há também novas propostas de modelos de crescimento sigmoides para dados longitudinais como o Logístico, Gompertz e Von Bertalanffy que permitem uma interpretação biológica para o parâmetro beta. O modelo Logístico ajustado ao Acesso 2 – Pimenta Caiena se mostrou com as melhores qualidade de ajuste, por meio do DIC e pelo Fator de Bayes, quando se utiliza de distribuições simétricas além da Normal, os erros Laplace, Student t, logístico e Normal generalizado contribuíram com uma melhora na qualidade de ajuste e na precisão do modelo, e tendo o erro experimental Normal generalizado com os melhores indicadores. As versões Skew-Student t, Skew-Logistic e Skew-Normal apresentaram um aumento na precisão no ajuste do modelo Logístico ao Acesso 8 – Pimentão Rubi Gigante. A presença da assimetria no modelo muda os resultados do parâmetro beta, os modelos simétricos estimaram em 11 dias o ponto de inflexão da curva de crescimento, as demais versões assimétricas estimaram de 9 a 10 dias. Os erros experimentais Fernandéz & Steel’s Skew-Student t, Skew-Double exponential e Skew-Double Exponential-Normal mostraram significância estatística quanto a hipótese nula de ausência de assimetria. Palavras-chave: Regressão não linear; Crescimento sigmoide; erros assimétricos; Regressão robusta.
  • Imagem de Miniatura
    Item
    Otimização das decisões experimentais em cana-de-açúcar por meio de análise da variabilidade do solo, interpolação e agrupamento
    (Universidade Federal de Viçosa, 2025-10-13) Silva, Raphael Henrique Teixeira da; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3045503690859643
    A fertilidade do solo influencia diretamente o desenvolvimento das plantas. A análise das variáveis químicas do solo é fundamental para embasar a tomada de decisão em estudos experimentais com cana-de-açúcar, pois cada variável contribui para características desejáveis, como a produtividade, fator essencial para essa cultura. Este estudo investigou a variabilidade do solo em uma quadra experimental de melhoramento genético de cana-de-açúcar, aplicando métodos geoestatísticos e a interpolação pelo inverso da distância para otimizar a tomada de decisões e reduzir custos no planejamento experimental. Para isso, foram coletadas amostras em 60 pontos de uma quadra da Unidade de Ensino, Pesquisa e Extensão em Melhoramento Genético de Cana-de-Açucar (UEPE), localizado em Oratórios – MG. A partir da análise das características químicas do solo, com foco nos teores de fósforo e potássio, e do ajuste do modelo de variograma, realizou-se a interpolação por meio da krigagem simples e pelo inverso da distância para a construção de mapas de distribuição espacial. Foi utilizada a técnica de agrupamento k-means para a segmentação das regiões conforme a concentração de fósforo e potássio. Foram identificadas as áreas homogêneas. Com os resultados obtidos, concluiu-se que é possível tomar decisões mais precisas, que podem economizar recursos financeiros no planejamento experimental, visto que o pesquisador já tem o conhecimento prévio dos locais onde possuem maior ou menor concentração de fósforo e potássio. E também, pela confirmação da viabilidade da redução de 20% dos pontos amostrais, reduzindo tempo de coleta de amostras e custos de análises. Pode-se otimizar a área experimental, uma vez que é possível alocar futuros experimentos de acordo com a região de fertilidade mais adequada. Palavras-chave: Geoestatística; Delineamentos experimentais; Fertilidade do solo; Redução amostral.
  • Imagem de Miniatura
    Item
    Desempenho da metodologia de superfície de resposta e das redes neurais artificiais na otimização de processos
    (Universidade Federal de Viçosa, 2025-11-25) Ribeiro, Alice dos Santos; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/5843119694312879
    A otimização de processos é um objetivo importante nas Ciências Agrárias, nas quais os experimentos frequentemente envolvem variáveis independentes (VIs) e dependentes (VD) quantitativas. Porém, limitações éticas e práticas quanto ao número de unidades experimentais, especialmente nas áreas de Medicina Veterinária e Zootecnia, impõem desafios à modelagem estatística e computacional de fenômenos mais complexos. Nesse contexto, este trabalho teve como objetivo comparar os desempenhos da Metodologia de Superfície de Resposta (MSR) e das Redes Neurais Artificiais (RNAs) na modelagem e otimização de processos com diferentes níveis de complexidade funcional de duas VIs sobre uma VD. Foram simulados dois cenários: o primeiro, com um modelo não linear por intervalo e, o segundo, com dois modelos não lineares por intervalo, com dados obtidos por simulação. Os delineamentos fatoriais 6² + 1 e 7², instalados sob o delineamento inteiramente casualizado, foram analisados por meio da MSR e das RNAs, sendo o desempenho de cada metodologia avaliado pelas métricas: erro percentual absoluto médio e raiz do erro quadrático médio. Além delas, avaliou-se a capacidade de identificar corretamente o ponto ótimo do processo. Em ambos os cenários, a MSR mostrou-se limitada pela sua estrutura linear e quadrática, incapaz de representar adequadamente relações não lineares. Por outro lado, as RNAs, apesar da flexibilidade estrutural, demonstraram instabilidade, sendo sensível à variabilidade dos dados e dependente de maior volume amostral. No primeiro cenário, as métricas não diferiram (p > 0,05) entre as metodologias. Porém, no segundo, a MSR provocou menores erros (p < 0,05), embora ainda incapaz de representar a não linearidade. Portanto, para experimentos com número restrito de combinações entre os níveis dos fatores, a MSR permanece como alternativa mais viável, especialmente quando aplicada de forma sequencial e em intervalos menores. As RNAs, embora potencialmente mais aptas para a modelagem de relações mais complexas, requerem conjuntos de dados extensos e baixo ruído nos dados (variabilidade não sistemática) para atingirem desempenhos satisfatórios. Palavras-chave: experimento fatorial; modelagem não linear; eficiência preditiva
  • Imagem de Miniatura
    Item
    Predição da produtividade da soja por índices de vegetação: uma abordagem com modelos aditivos generalizados
    (Universidade Federal de Viçosa, 2025-02-21) Silva, Lucas Coelho da; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/6456991870750232
    O sensoriamento remoto surgiu como uma possibilidade para fornecer insights sobre características agronômicas sem a necessidade de contato direto com o objeto ou planta. Os instrumentos de detecção remota fornecem informações sobre cinco bandas espectrais, as bandas do espectro de luz visível RGB, além do RedEDGE e do Infravermelho Próximo (NIR). A combinação de duas ou mais dessas bandas forma um índice de vegetação (IV), o qual está associado a variáveis agronômicas, incluindo a produtividade. Essas associações podem ser relações não lineares entre as variáveis. Os modelos aditivos generalizados (GAMs) são uma soma de variáveis suavizadas das covariáveis e têm a capacidade de lidar de forma flexível com a não linearidade entre elas, além de serem um modelo aditivo. Nesse contexto, o objetivo deste trabalho é avaliar a abordagem dos GAMs quanto em relação à sua capacidade preditiva para a produtividade de soja, a partir de imagens aéreas, utilizando IV. Os dados experimentais utilizados foram obtidos em plantas de soja. O experimento instalado no delineamento de blocos casualizados. Foram capturadas 11 imagens ao longo do ciclo da soja, permitindo relacionar cada etapa com o estádio fenológico da soja. Este estudo foi dividido em três etapas. Na primeira parte, foi realizada uma seleção de variáveis utilizando Random forest (RF) em cada semana de estudo. Na segunda etapa, com os índices selecionados, foi realizada uma análise gráfica a partir do ajuste dos GAMs univariados, para verificar a associação linear ou não linear dos índices com a produtividade. Na terceira etapa, foi feita a comparação entre os GAMs, regressão linear múltipla (RLM) e RF quanto à capacidade preditiva. O desempenho dos modelos foi avaliado por meio de uma validação cruzada em 10 etapas, utilizando métricas como o raiz quadrada do erro quadrático médio (RMSE) e o coeficiente de correlação (r) entre os valores observados e os valores preditos, no caso da regressão, e pela acurácia, no caso da classificação. Entre os IVs e bandas espectrais selecionados mais associados à produtividade, destacam-se o NIR, Structure Intensive Pigment Index (SIPI), Normalized green–red difference index (NGBDI) e o Triangular Greenness Index (TGI). Os IVs foram separados em quatro categorias, em termos de associações lineares ou não lineares com a produtividade: estritamente lineares, moderadamente não lineares, mescla de associações lineares e não lineares, e estritamente não lineares. O desempenho dos modelos ajustados GAMs e RLM com as variáveis selecionadas foi semelhante, tanto em termos de regressão (RMSE e coeficiente de correlação), quanto em classificação (acurácia). Em ambos os modelos, o final da fase vegetativa e o início do enchimento dos grãos R5 foram as fases mais indicadas para a predição de produtividade. Palavras-chave: seleção de variáveis ; bandas espectrais; relações não lineares ; random forest; regressão linear múltipla.
  • Imagem de Miniatura
    Item
    Duração da proteção de cultivares: uma abordagem da análise de sobrevivência com riscos competitivos
    (Universidade Federal de Viçosa, 2025-02-18) Saint'clair, Verônica Manhães; Martins Filho, Sebastião; http://lattes.cnpq.br/2913728240160573
    Em diversas pesquisas, a investigação incide sobre o tempo até a ocorrência de um evento de interesse, motivando o uso da técnica estatística da análise de sobrevivência. Nos dados de sobrevivência clássica, presume-se que os indivíduos experimentem apenas um tipo de evento durante o acompanhamento, sendo empregados métodos como Kaplan-Meier e os modelos paramétricos e semiparamétricos, quando há o interesse em avaliar os efeitos de covariáveis. No entanto, em certas situações, os indivíduos podem vivenciar outros eventos que competem com o evento de interesse, capazes de impedir ou alterar a probabilidade de sua ocorrência, conhecidos como eventos competitivos. A abordagem clássica, nessas circunstâncias, trata esses eventos competitivos como censura, resultando em estimativas viesadas. Surge então, a necessidade de uma abordagem com riscos competitivos, que introduz a função de incidência acumulada, a função de risco causa-específica e a função de risco da subdistribuição. O objetivo deste trabalho foi apresentar os conceitos e aplicações relacionados à análise de sobrevivência em cenários que envolvem riscos competitivos nos contextos de tempo contínuo e discreto. Para isso, foram analisados dados de certificados de proteção de cultivares obtidos da plataforma CultivarWeb do Ministério da Agricultura, Pecuária e Abastecimento, no período de 1997 a 2024. Os eventos de expiração por prazo, renúncia, cancelamento e anulação foram analisados utilizando uma abordagem de tempo contínuo por meio do modelo de Fine-Gray e com uma abordagem de tempo discreto com o modelo de regressão binária ponderada devido à presença de empates. As covariáveis utilizadas incluem informações sobre a presença de transgenia, a característica do titular, o tipo de cultura e o ciclo de vida. Os resultados indicaram que o modelo de Fine-Gray é o mais adequado para a modelagem da duração dos certificados de proteção de cultivares. Palavras-chave: Função de incidência acumulada; Subdistribuição; Causa- específica; Modelo de Fine-Gray; Modelo de regressão binária ponderada; Dados censurados
  • Imagem de Miniatura
    Item
    Predição fenômica: uma avaliação de modelos preditivos no melhoramento genético do eucalipto
    (Universidade Federal de Viçosa, 2025-07-10) Miranda, Taiana Lopes Rangel; Resende, Marcos Deon Vilela de; http://lattes.cnpq.br/0513010608168896
    O eucalipto ocupa uma posição de destaque na economia brasileira devido, principalmente, às diversas possibilidades de uso de sua madeira, como na produção de celulose, papel, carvão vegetal e geração de energia. Esse estudo teve como objetivo avaliar o desempenho da predição genômica (que se baseia em informações de marcadores moleculares SNPs) e da predição fenômica (Near Infrared Reflectance Spectroscopy – NIRS) em diferentes cenários, para características físicas e químicas da madeira de uma população híbrida (Eucalyptus urophylla x Eucalyptus grandis). Foram genotipados 339 indivíduos para 33.398 marcadores SNPs distribuídos por todo o genoma e rastreados por NIRS com 700 comprimentos de onda. As duas abordagens de predição foram realizadas utilizando os métodos estatísticos: Genomic Best Linear Unbiased Prediction (G-BLUP), Bayesian Ridge Regression (BRR), Bayes B e Bayesian Reproducing Kernel Hilbert Space (B-RKHS). Para avaliar o desempenho dos métodos, foi realizada a validação cruzada 10-fold, visando calcular a média e o desvio padrão da capacidade preditiva e do coeficiente de regressão. A Seleção Fenômica (NIRS) apresentou menor precisão de predição para a maioria das características avaliadas, mas exibiu resultados semelhantes aos obtidos por meio do G-BLUP no cenário em que o número de comprimentos de onda é igual ao número de SNPs. Isso sugere que a predição fenômica (NIRS) pode ser uma alternativa à predição genômica no melhoramento do eucalipto. Palavras-chave: BLUP; seleção genômica; melhoramento de plantas; SNP; NIRS
  • Imagem de Miniatura
    Item
    Associação genômica ampla em características com diferentes níveis de pleiotropia: abordagens univariada e multivariada
    (Universidade Federal de Viçosa, 2025-07-22) Roque, Renata Dourado; Azevedo, Camila Ferreira; http://lattes.cnpq.br/5981930209647571
    Os avanços na biologia molecular e nas tecnologias de sequenciamento têm acelerado a identificação de marcadores moleculares, impulsionando os estudos de Associação Genômica ampla (GWAS). A GWAS busca identificar associações entre loci de características quantitativas (QTLs) e fenótipos de interesse, promovendo uma maior compreensão da arquitetura genética de características complexas, o que é fundamental para o melhoramento genético. A avaliação de associações entre marcadores individuais e características fenotípicas, por meio de modelos estatísticos, univariados ou multivariados, se destaca como o principal método para testar o efeito dos marcadores e identificar aqueles estatisticamente associados às caracteristicas. A análise univariada avalia uma única característica fenotípica por vez, sem considerar possíveis inter-relações entre elas, enquanto a análise multivariada considera simultaneamente duas ou mais características em um mesmo modelo, possibilitando a identificação de interações genéticas mais complexas ao incorporar a covariância entre os fenótipos. O primeiro capítulo desta dissertação apresenta uma revisão bibliográfica sobre estudos de GWAS com marcadores únicos, abordando as metodologias univariada e multivariada aplicadas em modelos mistos. São também discutidos a Análise de Componentes Principais, o método da Máxima Verossimilhança Restrita, o produto de Kronecker e os fundamentos da curva ROC (Receiver Operating Characteristic). O segundo capítulo teve como objetivo comparar as abordagens univariada e multivariada em três cenários simulados com diferentes estruturas de pleiotropia: (i) pleiotropia completa, em que todos os QTLs afetam simultaneamente todas as características; (ii) pleiotropia parcial, em que alguns QTLs são compartilhados entre todas as características, enquanto outros são específicos de cada uma; e (iii) pleiotropia espúria, em que todos os QTLs são específicos de cada característica, mas estão em desequilíbrio de ligação (LD) com um marcador que também está em LD com QTLs de outra(s) característica(s). A comparação entre as abordagens foi conduzida com base em métricas como taxa de falsos positivos, poder de detecção, acurácia, concordância entre regiões genômicas detectadas para diferentes características e a área sob a curva.Palavras-chave: MODELO LINEAR MISTO; MARCADORES MOLECULARES; CORRELAÇÃO; SIMULAÇÃO
  • Imagem de Miniatura
    Item
    Modelagem espacial do desmatamento no sul do Amazonas: uma abordagem utilizando análise de sobrevivência
    (Universidade Federal de Viçosa, 2025-02-19) Silva, Maurício dos Anjos da; Santos, Nerilson Terra; http://lattes.cnpq.br/4899943924309801
    O desmatamento é um problema de grande interesse ambiental, e, uma vez conhecidos os seus principais índices e tendências, é possível determinar e redefinir as medidas de preservação direcionadas à degradação florestal. Por esse motivo, entender como algumas covariáveis se relacionam com o desmatamento é de grande interesse prático. Os modelos estatísticos que utilizam a abordagem bayesiana acompanham o avanço teórico e tecnológico, uma vez que dependem fortemente de recursos computacionais para lidar com diferentes distribuições a posteriori. Inserir também os efeitos aleatórios com base na dependência espacial dos dados é especialmente relevante, à medida que os dados são espacialmente correlacionados. No capítulo 1, é apresentada uma revisão teórica das principais técnicas de análise de sobrevivência: Métodos não paramétricos, paramétricos e Modelos de fragilidade, além dos modelos autorregressivos ICAR. No capítulo 2, são apresentados os passos para levantamento, coleta e análise de dados de desmatamento no sul do Amazonas utilizando a análise bayesiana e os modelos de fragilidade. Os modelos de fragilidade compartilhada são uma importante classe de modelos que permitem a inserção de termos de efeito aleatório associados a grupos de interesse. Os dados de desmatamento foram coletados anualmente a partir do ano de 1987 a 2023, por meio do site do MapBiomas e agregados em conjunto às covariáveis distância do pixel a rodovias, distância à hidrovias, distância a pontos de mineração, pastagem, população, potencialidade agrícola, terras indígenas e unidades de conservação, disponíveis no site do IBGE e MapBiomas. A partir da aplicação das técnicas de análise de sobrevivência, aliadas a uma avaliação espacial do desmatamento, foi possível detalhar o efeito de cada covariável inserida no modelo. Com isso, os modelos de análise de sobrevivência com fragilidade representam uma técnica robusta na análise do desmatamento. Palavras-chave: Modelos de fragilidade compartilhada ; Modelagem Bayesiana; Modelo ICAR; Análise de vizinhança; Floresta Amazônica
  • Imagem de Miniatura
    Item
    Análise de sobrevivência para avaliação dos processos demográficos de árvores da Mata Atlântica brasileira
    (Universidade Federal de Viçosa, 2025-03-12) Duarte, Marciel Lelis; Martins Filho, Sebastião; http://lattes.cnpq.br/4852287603211597
    As florestas fornecem múltiplas funções e serviços ecossistêmicos, incluindo o fornecimento de bens por meio da produção primária, regulação do clima por meio do sequestro de carbono e serviços hidrológicos. Dentre as florestas tropicais brasileiras, a Mata Atlântica é considerada uma das mais importantes em termos de biodiversidade. No entanto, sofreu uma drástica redução da sua área devido a atividades antrópicas. Por tanto, identificar e entender os fatores que impulsionam a persistência dos ecossistemas florestais em meio às perturbações é essencial. O objetivo geral deste trabalho foi avaliar diferentes técnicas de análise de sobrevivência para modelar o efeito de covariáveis ambientais e antrópicas no desenvolvimento de fragmentos de Mata Atlântica. O trabalho foi dividido em três capítulos. No primeiro capítulo o objetivo foi avaliar a técnica de análise de sobrevivência intervalar para modelar o efeito de covariáveis ambientais no recrutamento e na mortalidade de árvores em fragmentos de Mata Atlântica. A metodologia avaliou com eficácia o efeito de covariáveis ambientais no recrutamento e na mortalidade de árvores em fragmentos de Mata Atlântica. No segundo capítulo avaliou-se a mortalidade individual de árvores de um fragmento de Mata Atlântica, por meio da técnica de análise de sobrevivência com dados discretos. Esta metodologia apresentou uma acurácia superior a 80% na avaliação da mortalidade de árvores na Mata Atlântica. No terceiro capítulo foi utilizada a abordagem de análise de sobrevivência, por meio de métodos de aprendizado de máquina, para estudar a mortalidade de árvores da Mata Atlântica, em função de covariáveis ambientais e antrópicas. A metodologia random survival forests apresentou os maiores valores de índice de concordância e menores valores do Brier-Score, sendo eficiente em avaliar a mortalidade individual de árvores nos fragmentos de Mata Atlântica. Os métodos aplicados neste estudo podem servir como ferramentas estratégicas para a tomada de decisões por gestores florestais, contribuindo para a conservação e manejo sustentável da Mata Atlântica. Palavras-chave: Dados censurados, Modelos paramétricos, Modelos de regressão discretos, Aprendizado de máquina, Florestas tropicais, Mortalidade, Recrutamento.
  • Imagem de Miniatura
    Item
    Análise de sobrevivência aplicada no melhoramento genético do cafeeiro
    (Universidade Federal de Viçosa, 2025-02-24) Belo, Lucas Pereira; Emiliano, Paulo César; http://lattes.cnpq.br/4408198654290116
    Este estudo aplicou técnicas de análise de sobrevivência a dados do genótipo resultante do cruzamento entre o Híbrido de Timor MG 0357 e o Tupi Amarelo IAC 5162, com foco na produtividade, resistência a doenças e qualidade da bebida, bem como na influência de covariáveis sobre a produção. O evento de interesse foi definido com base na produção média anual das testemunhas Paraíso MG H419-1 e Catuaí Vermelho IAC 144. Foram utilizados o estimador de Kaplan-Meier e os testes de log-rank e Wilcoxon para a comparação entre grupos, enquanto modelos de regressão de Cox, com aproximação da função de verossimilhança parcial, e modelos para dados agrupados avaliaram a relação entre as covariáveis e o tempo até a primeira produção. A adequação dos modelos foi verificada por meio dos resíduos de Schoenfeld e dos resíduos de Cox-Snell; utilizou-se ainda a curva ROC (Receiver Operating Characteristic) para a validação dos modelos para dados agrupados. Os resultados indicaram resistência do cafeeiro à ferrugem, bem como uma associação entre baixo grau de incidência das doenças e maior produtividade. Os testes de log-rank e Wilcoxon detectaram diferenças significativas entre os grupos relacionados a todas as covariáveis analisadas, com destaque para a covariável ciclo de maturação, na qual foram identificados diferentes ciclos produtivos com elevadas capacidades de produção. Os modelos de Cox, ajustados com aproximações da função de verossimilhança parcial, revelaram violações nas pressuposições de riscos proporcionais. Nos modelos discretos, as covariáveis altura da planta, vigor vegetativo, temperatura, precipitação e número de nós nos ramos plagiotrópicos mostraram-se significativas na relação com a produtividade. A curva ROC indicou um desempenho excelente desses modelos. A análise de sobrevivência demonstrou-se eficaz na identificação de fatores associados à produtividade do cafeeiro, destacando-se a aplicação das curvas de Kaplan-Meier e dos testes log-rank e Wilcoxon. Embora os modelos discretos impliquem certa perda de informação, mostraram-se eficientes para a identificação das covariáveis importantes para a produção. Palavras-chave: empates; censura; dados agrupados