Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 10 de 185
  • Imagem de Miniatura
    Item
    Predição da produtividade da soja por índices de vegetação: uma abordagem com modelos aditivos generalizados
    (Universidade Federal de Viçosa, 2025-02-21) Silva, Lucas Coelho da; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/6456991870750232
    O sensoriamento remoto surgiu como uma possibilidade para fornecer insights sobre características agronômicas sem a necessidade de contato direto com o objeto ou planta. Os instrumentos de detecção remota fornecem informações sobre cinco bandas espectrais, as bandas do espectro de luz visível RGB, além do RedEDGE e do Infravermelho Próximo (NIR). A combinação de duas ou mais dessas bandas forma um índice de vegetação (IV), o qual está associado a variáveis agronômicas, incluindo a produtividade. Essas associações podem ser relações não lineares entre as variáveis. Os modelos aditivos generalizados (GAMs) são uma soma de variáveis suavizadas das covariáveis e têm a capacidade de lidar de forma flexível com a não linearidade entre elas, além de serem um modelo aditivo. Nesse contexto, o objetivo deste trabalho é avaliar a abordagem dos GAMs quanto em relação à sua capacidade preditiva para a produtividade de soja, a partir de imagens aéreas, utilizando IV. Os dados experimentais utilizados foram obtidos em plantas de soja. O experimento instalado no delineamento de blocos casualizados. Foram capturadas 11 imagens ao longo do ciclo da soja, permitindo relacionar cada etapa com o estádio fenológico da soja. Este estudo foi dividido em três etapas. Na primeira parte, foi realizada uma seleção de variáveis utilizando Random forest (RF) em cada semana de estudo. Na segunda etapa, com os índices selecionados, foi realizada uma análise gráfica a partir do ajuste dos GAMs univariados, para verificar a associação linear ou não linear dos índices com a produtividade. Na terceira etapa, foi feita a comparação entre os GAMs, regressão linear múltipla (RLM) e RF quanto à capacidade preditiva. O desempenho dos modelos foi avaliado por meio de uma validação cruzada em 10 etapas, utilizando métricas como o raiz quadrada do erro quadrático médio (RMSE) e o coeficiente de correlação (r) entre os valores observados e os valores preditos, no caso da regressão, e pela acurácia, no caso da classificação. Entre os IVs e bandas espectrais selecionados mais associados à produtividade, destacam-se o NIR, Structure Intensive Pigment Index (SIPI), Normalized green–red difference index (NGBDI) e o Triangular Greenness Index (TGI). Os IVs foram separados em quatro categorias, em termos de associações lineares ou não lineares com a produtividade: estritamente lineares, moderadamente não lineares, mescla de associações lineares e não lineares, e estritamente não lineares. O desempenho dos modelos ajustados GAMs e RLM com as variáveis selecionadas foi semelhante, tanto em termos de regressão (RMSE e coeficiente de correlação), quanto em classificação (acurácia). Em ambos os modelos, o final da fase vegetativa e o início do enchimento dos grãos R5 foram as fases mais indicadas para a predição de produtividade. Palavras-chave: seleção de variáveis ; bandas espectrais; relações não lineares ; random forest; regressão linear múltipla.
  • Imagem de Miniatura
    Item
    Duração da proteção de cultivares: uma abordagem da análise de sobrevivência com riscos competitivos
    (Universidade Federal de Viçosa, 2025-02-18) Saint'clair, Verônica Manhães; Martins Filho, Sebastião; http://lattes.cnpq.br/2913728240160573
    Em diversas pesquisas, a investigação incide sobre o tempo até a ocorrência de um evento de interesse, motivando o uso da técnica estatística da análise de sobrevivência. Nos dados de sobrevivência clássica, presume-se que os indivíduos experimentem apenas um tipo de evento durante o acompanhamento, sendo empregados métodos como Kaplan-Meier e os modelos paramétricos e semiparamétricos, quando há o interesse em avaliar os efeitos de covariáveis. No entanto, em certas situações, os indivíduos podem vivenciar outros eventos que competem com o evento de interesse, capazes de impedir ou alterar a probabilidade de sua ocorrência, conhecidos como eventos competitivos. A abordagem clássica, nessas circunstâncias, trata esses eventos competitivos como censura, resultando em estimativas viesadas. Surge então, a necessidade de uma abordagem com riscos competitivos, que introduz a função de incidência acumulada, a função de risco causa-específica e a função de risco da subdistribuição. O objetivo deste trabalho foi apresentar os conceitos e aplicações relacionados à análise de sobrevivência em cenários que envolvem riscos competitivos nos contextos de tempo contínuo e discreto. Para isso, foram analisados dados de certificados de proteção de cultivares obtidos da plataforma CultivarWeb do Ministério da Agricultura, Pecuária e Abastecimento, no período de 1997 a 2024. Os eventos de expiração por prazo, renúncia, cancelamento e anulação foram analisados utilizando uma abordagem de tempo contínuo por meio do modelo de Fine-Gray e com uma abordagem de tempo discreto com o modelo de regressão binária ponderada devido à presença de empates. As covariáveis utilizadas incluem informações sobre a presença de transgenia, a característica do titular, o tipo de cultura e o ciclo de vida. Os resultados indicaram que o modelo de Fine-Gray é o mais adequado para a modelagem da duração dos certificados de proteção de cultivares. Palavras-chave: Função de incidência acumulada; Subdistribuição; Causa- específica; Modelo de Fine-Gray; Modelo de regressão binária ponderada; Dados censurados
  • Imagem de Miniatura
    Item
    Predição fenômica: uma avaliação de modelos preditivos no melhoramento genético do eucalipto
    (Universidade Federal de Viçosa, 2025-07-10) Miranda, Taiana Lopes Rangel; Resende, Marcos Deon Vilela de; http://lattes.cnpq.br/0513010608168896
    O eucalipto ocupa uma posição de destaque na economia brasileira devido, principalmente, às diversas possibilidades de uso de sua madeira, como na produção de celulose, papel, carvão vegetal e geração de energia. Esse estudo teve como objetivo avaliar o desempenho da predição genômica (que se baseia em informações de marcadores moleculares SNPs) e da predição fenômica (Near Infrared Reflectance Spectroscopy – NIRS) em diferentes cenários, para características físicas e químicas da madeira de uma população híbrida (Eucalyptus urophylla x Eucalyptus grandis). Foram genotipados 339 indivíduos para 33.398 marcadores SNPs distribuídos por todo o genoma e rastreados por NIRS com 700 comprimentos de onda. As duas abordagens de predição foram realizadas utilizando os métodos estatísticos: Genomic Best Linear Unbiased Prediction (G-BLUP), Bayesian Ridge Regression (BRR), Bayes B e Bayesian Reproducing Kernel Hilbert Space (B-RKHS). Para avaliar o desempenho dos métodos, foi realizada a validação cruzada 10-fold, visando calcular a média e o desvio padrão da capacidade preditiva e do coeficiente de regressão. A Seleção Fenômica (NIRS) apresentou menor precisão de predição para a maioria das características avaliadas, mas exibiu resultados semelhantes aos obtidos por meio do G-BLUP no cenário em que o número de comprimentos de onda é igual ao número de SNPs. Isso sugere que a predição fenômica (NIRS) pode ser uma alternativa à predição genômica no melhoramento do eucalipto. Palavras-chave: BLUP; seleção genômica; melhoramento de plantas; SNP; NIRS
  • Imagem de Miniatura
    Item
    Associação genômica ampla em características com diferentes níveis de pleiotropia: abordagens univariada e multivariada
    (Universidade Federal de Viçosa, 2025-07-22) Roque, Renata Dourado; Azevedo, Camila Ferreira; http://lattes.cnpq.br/5981930209647571
    Os avanços na biologia molecular e nas tecnologias de sequenciamento têm acelerado a identificação de marcadores moleculares, impulsionando os estudos de Associação Genômica ampla (GWAS). A GWAS busca identificar associações entre loci de características quantitativas (QTLs) e fenótipos de interesse, promovendo uma maior compreensão da arquitetura genética de características complexas, o que é fundamental para o melhoramento genético. A avaliação de associações entre marcadores individuais e características fenotípicas, por meio de modelos estatísticos, univariados ou multivariados, se destaca como o principal método para testar o efeito dos marcadores e identificar aqueles estatisticamente associados às caracteristicas. A análise univariada avalia uma única característica fenotípica por vez, sem considerar possíveis inter-relações entre elas, enquanto a análise multivariada considera simultaneamente duas ou mais características em um mesmo modelo, possibilitando a identificação de interações genéticas mais complexas ao incorporar a covariância entre os fenótipos. O primeiro capítulo desta dissertação apresenta uma revisão bibliográfica sobre estudos de GWAS com marcadores únicos, abordando as metodologias univariada e multivariada aplicadas em modelos mistos. São também discutidos a Análise de Componentes Principais, o método da Máxima Verossimilhança Restrita, o produto de Kronecker e os fundamentos da curva ROC (Receiver Operating Characteristic). O segundo capítulo teve como objetivo comparar as abordagens univariada e multivariada em três cenários simulados com diferentes estruturas de pleiotropia: (i) pleiotropia completa, em que todos os QTLs afetam simultaneamente todas as características; (ii) pleiotropia parcial, em que alguns QTLs são compartilhados entre todas as características, enquanto outros são específicos de cada uma; e (iii) pleiotropia espúria, em que todos os QTLs são específicos de cada característica, mas estão em desequilíbrio de ligação (LD) com um marcador que também está em LD com QTLs de outra(s) característica(s). A comparação entre as abordagens foi conduzida com base em métricas como taxa de falsos positivos, poder de detecção, acurácia, concordância entre regiões genômicas detectadas para diferentes características e a área sob a curva.Palavras-chave: MODELO LINEAR MISTO; MARCADORES MOLECULARES; CORRELAÇÃO; SIMULAÇÃO
  • Imagem de Miniatura
    Item
    Modelagem espacial do desmatamento no sul do Amazonas: uma abordagem utilizando análise de sobrevivência
    (Universidade Federal de Viçosa, 2025-02-19) Silva, Maurício dos Anjos da; Santos, Nerilson Terra; http://lattes.cnpq.br/4899943924309801
    O desmatamento é um problema de grande interesse ambiental, e, uma vez conhecidos os seus principais índices e tendências, é possível determinar e redefinir as medidas de preservação direcionadas à degradação florestal. Por esse motivo, entender como algumas covariáveis se relacionam com o desmatamento é de grande interesse prático. Os modelos estatísticos que utilizam a abordagem bayesiana acompanham o avanço teórico e tecnológico, uma vez que dependem fortemente de recursos computacionais para lidar com diferentes distribuições a posteriori. Inserir também os efeitos aleatórios com base na dependência espacial dos dados é especialmente relevante, à medida que os dados são espacialmente correlacionados. No capítulo 1, é apresentada uma revisão teórica das principais técnicas de análise de sobrevivência: Métodos não paramétricos, paramétricos e Modelos de fragilidade, além dos modelos autorregressivos ICAR. No capítulo 2, são apresentados os passos para levantamento, coleta e análise de dados de desmatamento no sul do Amazonas utilizando a análise bayesiana e os modelos de fragilidade. Os modelos de fragilidade compartilhada são uma importante classe de modelos que permitem a inserção de termos de efeito aleatório associados a grupos de interesse. Os dados de desmatamento foram coletados anualmente a partir do ano de 1987 a 2023, por meio do site do MapBiomas e agregados em conjunto às covariáveis distância do pixel a rodovias, distância à hidrovias, distância a pontos de mineração, pastagem, população, potencialidade agrícola, terras indígenas e unidades de conservação, disponíveis no site do IBGE e MapBiomas. A partir da aplicação das técnicas de análise de sobrevivência, aliadas a uma avaliação espacial do desmatamento, foi possível detalhar o efeito de cada covariável inserida no modelo. Com isso, os modelos de análise de sobrevivência com fragilidade representam uma técnica robusta na análise do desmatamento. Palavras-chave: Modelos de fragilidade compartilhada ; Modelagem Bayesiana; Modelo ICAR; Análise de vizinhança; Floresta Amazônica
  • Imagem de Miniatura
    Item
    Stacking Ensemble Learning para seleção genômica em características complexas
    (Universidade Federal de Viçosa, 2025-07-09) Celeri, Maurício de Oliveira; Nascimento, Moysés; http://lattes.cnpq.br/2569243563413784
    A seleção genômica (SG), proposta pela primeira vez por Mewissen et al. em 2001, tem por objetivo estimar os valores genéticos genômicos como uma soma dos efeitos de todos os marcadores distribuídos ao longo do genoma. A possibilidade de reduzir o tempo necessário para desenvolvimento de novas variedades torna a SG um componente primordial em programas de melhoramento. No entanto um ponto crucial na SG é decidir qual método estatísticas será utilizado para estimação dos efeitos de marcadores e, posteriormente, predizer os valores genéticos genômicos de indivíduos não fenotipados. Diversas metodologias foram propostas, como, por exemplo, o GBLUP, as Redes Neurais Artificiais e o alfabeto bayesiano. Em especial para características genéticas quantitativas, alguns métodos podem apresentar limitações devido à complexidade. Recentemente uma classe de modelos de aprendizagem em conjunto vem ganhando destaque nos estudos de seleção e predição genômica: a aprendizagem ensemble, em especial o stacking. Stacking é uma forma usual de método ensemble onde a predição de cada um dos modelos usados na aprendizagem de base é usada como variáveis de entrada para treinar um novo modelo de regressão para a predição final, podendo apresentar maior poder de generalização e representações não lineares. O objetivo deste trabalho é avaliar diferentes configurações para os métodos stacking em predição genômica de características complexas. Para isso, será utilizado um conjunto de dados simulados com 10 características fenotípicas distintas, cada qual com uma arquitetura genética própria. A validação cruzada foi 5-fold e foram testadas diferentes formas de se selecionar os aprendizes de base provindas de modelos como GBLUP, splines de regressão adaptativa multivariada, Bayes A, Bayes A com inclusão de efeitos de dominância, Bayes B, árvore de regressão, bagging, boosting e random forest. Diferentes formas de predição final, escolhidas entre mínimos quadrados ordinários e dos métodos para solução da multicolinearidade: regressão ridge, LASSO, regressão de componentes principais, regressão de fatores e redes neurais artificiais. Os resultados mostram um ganho de até 82,76% na capacidade preditiva quando utilizado as predições de aprendizes de base que apresentaram capacidade preditiva acima da média de capacidades preditivas de treinamento e quando feita a seleção pelo quantil 75% da distribuição das capacidades preditivas. Dentre todos os meta-aprendizes utilizados foi observado que os métodos baseados em redução de dimensionalidade e penalização apresentaram melhores resultados de predição. Palavras-chave: seleção genômica; stacking ensemble learning; efeitos não aditivos
  • Imagem de Miniatura
    Item
    Análise de sobrevivência para avaliação dos processos demográficos de árvores da Mata Atlântica brasileira
    (Universidade Federal de Viçosa, 2025-03-12) Duarte, Marciel Lelis; Martins Filho, Sebastião; http://lattes.cnpq.br/4852287603211597
    As florestas fornecem múltiplas funções e serviços ecossistêmicos, incluindo o fornecimento de bens por meio da produção primária, regulação do clima por meio do sequestro de carbono e serviços hidrológicos. Dentre as florestas tropicais brasileiras, a Mata Atlântica é considerada uma das mais importantes em termos de biodiversidade. No entanto, sofreu uma drástica redução da sua área devido a atividades antrópicas. Por tanto, identificar e entender os fatores que impulsionam a persistência dos ecossistemas florestais em meio às perturbações é essencial. O objetivo geral deste trabalho foi avaliar diferentes técnicas de análise de sobrevivência para modelar o efeito de covariáveis ambientais e antrópicas no desenvolvimento de fragmentos de Mata Atlântica. O trabalho foi dividido em três capítulos. No primeiro capítulo o objetivo foi avaliar a técnica de análise de sobrevivência intervalar para modelar o efeito de covariáveis ambientais no recrutamento e na mortalidade de árvores em fragmentos de Mata Atlântica. A metodologia avaliou com eficácia o efeito de covariáveis ambientais no recrutamento e na mortalidade de árvores em fragmentos de Mata Atlântica. No segundo capítulo avaliou-se a mortalidade individual de árvores de um fragmento de Mata Atlântica, por meio da técnica de análise de sobrevivência com dados discretos. Esta metodologia apresentou uma acurácia superior a 80% na avaliação da mortalidade de árvores na Mata Atlântica. No terceiro capítulo foi utilizada a abordagem de análise de sobrevivência, por meio de métodos de aprendizado de máquina, para estudar a mortalidade de árvores da Mata Atlântica, em função de covariáveis ambientais e antrópicas. A metodologia random survival forests apresentou os maiores valores de índice de concordância e menores valores do Brier-Score, sendo eficiente em avaliar a mortalidade individual de árvores nos fragmentos de Mata Atlântica. Os métodos aplicados neste estudo podem servir como ferramentas estratégicas para a tomada de decisões por gestores florestais, contribuindo para a conservação e manejo sustentável da Mata Atlântica. Palavras-chave: Dados censurados, Modelos paramétricos, Modelos de regressão discretos, Aprendizado de máquina, Florestas tropicais, Mortalidade, Recrutamento.
  • Imagem de Miniatura
    Item
    Análise de sobrevivência aplicada no melhoramento genético do cafeeiro
    (Universidade Federal de Viçosa, 2025-02-24) Belo, Lucas Pereira; Emiliano, Paulo César; http://lattes.cnpq.br/4408198654290116
    Este estudo aplicou técnicas de análise de sobrevivência a dados do genótipo resultante do cruzamento entre o Híbrido de Timor MG 0357 e o Tupi Amarelo IAC 5162, com foco na produtividade, resistência a doenças e qualidade da bebida, bem como na influência de covariáveis sobre a produção. O evento de interesse foi definido com base na produção média anual das testemunhas Paraíso MG H419-1 e Catuaí Vermelho IAC 144. Foram utilizados o estimador de Kaplan-Meier e os testes de log-rank e Wilcoxon para a comparação entre grupos, enquanto modelos de regressão de Cox, com aproximação da função de verossimilhança parcial, e modelos para dados agrupados avaliaram a relação entre as covariáveis e o tempo até a primeira produção. A adequação dos modelos foi verificada por meio dos resíduos de Schoenfeld e dos resíduos de Cox-Snell; utilizou-se ainda a curva ROC (Receiver Operating Characteristic) para a validação dos modelos para dados agrupados. Os resultados indicaram resistência do cafeeiro à ferrugem, bem como uma associação entre baixo grau de incidência das doenças e maior produtividade. Os testes de log-rank e Wilcoxon detectaram diferenças significativas entre os grupos relacionados a todas as covariáveis analisadas, com destaque para a covariável ciclo de maturação, na qual foram identificados diferentes ciclos produtivos com elevadas capacidades de produção. Os modelos de Cox, ajustados com aproximações da função de verossimilhança parcial, revelaram violações nas pressuposições de riscos proporcionais. Nos modelos discretos, as covariáveis altura da planta, vigor vegetativo, temperatura, precipitação e número de nós nos ramos plagiotrópicos mostraram-se significativas na relação com a produtividade. A curva ROC indicou um desempenho excelente desses modelos. A análise de sobrevivência demonstrou-se eficaz na identificação de fatores associados à produtividade do cafeeiro, destacando-se a aplicação das curvas de Kaplan-Meier e dos testes log-rank e Wilcoxon. Embora os modelos discretos impliquem certa perda de informação, mostraram-se eficientes para a identificação das covariáveis importantes para a produção. Palavras-chave: empates; censura; dados agrupados
  • Imagem de Miniatura
    Item
    Importância de características auxiliares no melhoramento da produção e da capacidade de expansão de milho-pipoca com abordagem de inteligência computacional
    (Universidade Federal de Viçosa, 2025-08-04) Sabino, Kellton de Oliveira; Cruz, Cosme Damião; http://lattes.cnpq.br/5714270329960861
    O presente estudo avalia o desempenho de linhagens de milho-pipoca (Zea mays L. var. everta) sob condições contrastantes de disponibilidade hídrica, com o objetivo de identificar características auxiliares associadas ao rendimento de grãos e à capacidade de expansão. Os ensaios foram conduzidos nas safras de 2020 e 2021, em delineamento em blocos ao acaso, considerando manejo bem irrigado e sob estresse hídrico. Foram avaliados caracteres agronômicos, fisiológicos e morfológicos do sistema radicular, e aplicadas análises de variabilidade genética, coeficientes de determinação e correlações fenotípicas, genotípicas e parciais para embasar a interpretação dos dados. Tradicionalmente, a análise de trilha tem sido empregada no melhoramento de plantas para decompor correlações em efeitos diretos e indiretos. Contudo, este trabalho apresenta um outro método para o mesmo fim: o uso de árvores de decisão. Por meio da construção de árvores de regressão baseadas no algoritmo CART, a pesquisa utiliza a topologia da árvore — formada pelos nós e divisões hierárquicas — para evidenciar quais variáveis explicativas exercem maior influência sobre as variáveis principais. Essa abordagem permite lidar com relações não lineares e captar interações complexas entre caracteres, oferecendo uma visão prática e interpretável da relevância relativa de cada variável. Os resultados demonstram variabilidade genética significativa entre as linhagens estudadas e mostram que a estrutura hierárquica das árvores de decisão permite identificar, de forma objetiva, os caracteres auxiliares mais impactantes sobre o rendimento de grãos e a capacidade de expansão. Dessa forma, o estudo amplia as possibilidades analíticas disponíveis para programas de melhoramento de milho- pipoca, fornecendo uma alternativa sólida à análise de trilha. Palavras-chave: milhopipoca; árvores de decisão; topologia.
  • Imagem de Miniatura
    Item
    Machine learning and digital phenotyping for soybean characterization and classification
    (Universidade Federal de Viçosa, 2024-12-19) Barbosa, Wagner Faria; Cruz, Cosme Damião; http://lattes.cnpq.br/7238720100539414
    Digital phenotyping has revolutionized the study of plant phenotypic traits, particularly in crops such as soybean (Glycine max (L.) Merr.). Combining digital phenotypic descriptors with machine learning enabled significant methodological advances, increasing the reliability and precision of classifications. Thus, this study aimed to develop a protocol for extracting various phenotypic traits from soybean leaflets, including shape attributes, elliptical Fourier descriptors (EFDs), Haralick texture features, and vegetation indices (VIs). The study also assessed the potential of these traits using several statistical methods and applied machine learning to discriminate the ancestry of the genotypes. The protocol proved effective in facilitating the acquisition of different sets of features for modeling and classification tasks, providing researchers with a robust and versatile framework that can be easily adapted to similar applications. The results indicated that VIs were the most frequent attributes, while EFDs exhibited the least redundancy, highlighting each dataset’s potential to identify genotypic patterns. However, using Random Forest (RF) as a classification method demonstrated high efficiency in handling data, maximizing accuracy and specificity in the developed models. Specifically, texture and shape-related attributes were crucial for successful discrimination. This study concludes that the integrated approach of digital phenotyping and machine learning represents a powerful tool for plant breeding, providing practical solutions to cultivar identification and characterization challenges. Keywords: image-based phenotyping; Fourier descriptors; vegetative indices; Haralick textures; genotypic discrimination.