Estatística Aplicada e Biometria

URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 6 de 6
  • Imagem de Miniatura
    Item
    Predição da produtividade da soja por índices de vegetação: uma abordagem com modelos aditivos generalizados
    (Universidade Federal de Viçosa, 2025-02-21) Silva, Lucas Coelho da; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/6456991870750232
    O sensoriamento remoto surgiu como uma possibilidade para fornecer insights sobre características agronômicas sem a necessidade de contato direto com o objeto ou planta. Os instrumentos de detecção remota fornecem informações sobre cinco bandas espectrais, as bandas do espectro de luz visível RGB, além do RedEDGE e do Infravermelho Próximo (NIR). A combinação de duas ou mais dessas bandas forma um índice de vegetação (IV), o qual está associado a variáveis agronômicas, incluindo a produtividade. Essas associações podem ser relações não lineares entre as variáveis. Os modelos aditivos generalizados (GAMs) são uma soma de variáveis suavizadas das covariáveis e têm a capacidade de lidar de forma flexível com a não linearidade entre elas, além de serem um modelo aditivo. Nesse contexto, o objetivo deste trabalho é avaliar a abordagem dos GAMs quanto em relação à sua capacidade preditiva para a produtividade de soja, a partir de imagens aéreas, utilizando IV. Os dados experimentais utilizados foram obtidos em plantas de soja. O experimento instalado no delineamento de blocos casualizados. Foram capturadas 11 imagens ao longo do ciclo da soja, permitindo relacionar cada etapa com o estádio fenológico da soja. Este estudo foi dividido em três etapas. Na primeira parte, foi realizada uma seleção de variáveis utilizando Random forest (RF) em cada semana de estudo. Na segunda etapa, com os índices selecionados, foi realizada uma análise gráfica a partir do ajuste dos GAMs univariados, para verificar a associação linear ou não linear dos índices com a produtividade. Na terceira etapa, foi feita a comparação entre os GAMs, regressão linear múltipla (RLM) e RF quanto à capacidade preditiva. O desempenho dos modelos foi avaliado por meio de uma validação cruzada em 10 etapas, utilizando métricas como o raiz quadrada do erro quadrático médio (RMSE) e o coeficiente de correlação (r) entre os valores observados e os valores preditos, no caso da regressão, e pela acurácia, no caso da classificação. Entre os IVs e bandas espectrais selecionados mais associados à produtividade, destacam-se o NIR, Structure Intensive Pigment Index (SIPI), Normalized green–red difference index (NGBDI) e o Triangular Greenness Index (TGI). Os IVs foram separados em quatro categorias, em termos de associações lineares ou não lineares com a produtividade: estritamente lineares, moderadamente não lineares, mescla de associações lineares e não lineares, e estritamente não lineares. O desempenho dos modelos ajustados GAMs e RLM com as variáveis selecionadas foi semelhante, tanto em termos de regressão (RMSE e coeficiente de correlação), quanto em classificação (acurácia). Em ambos os modelos, o final da fase vegetativa e o início do enchimento dos grãos R5 foram as fases mais indicadas para a predição de produtividade. Palavras-chave: seleção de variáveis ; bandas espectrais; relações não lineares ; random forest; regressão linear múltipla.
  • Imagem de Miniatura
    Item
    Estimativa da lucratividade no processo de produção de leite por meio da regressão de dados em painel
    (Universidade Federal de Viçosa, 2024-07-31) Sediyama, Jaqueline Akemi Suzuki; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/6051260154847913
    Um importante desafio do produtor de leite no Brasil é a pequena margem de lucro, já que os produtores não conseguem definir o preço de venda do leite e estão sujeitos a custos de produção cada vez maiores. Desta forma, esta tese teve como objeto de interesse a lucratividade, por meio do retorno sobre ativos. O objetivo foi determinar um modelo de regressão com dados em painel mais adequado para estimar a lucratividade, avaliada em diferentes anos, para diferentes fazendas produtoras de leite do estado de Minas Gerais. Foram estimados modelos de regressão com dados em painel sem estratificação e estratificados por tamanho da fazenda e por mesorregião. O modelo de regressão com dados em painel que melhor se ajustou aos dados, com e sem estratificação, foi o modelo de efeitos fixos. Foi possível observar que, as duas estratificações não aumentaram, consideravelmente, o grau de explicação do modelo ajustado. Além disso, não houve homogeneidade das variâncias residuais. Estes resultados ratificam a heterogeneidade dos produtores de leite e que o modelo sem estratificação pode ser adequado às fazendas produtoras de leite, independentemente do tamanho e da mesorregião. De acordo com o ajuste do modelo de regressão com dados em painel de efeitos fixos, para que um produtor melhore a sua lucratividade, às vezes, será necessária uma mudança estrutural, uma vez que apenas a melhoria de algumas variáveis não será suficiente para que a sua fazenda se torne lucrativa. Palavras-chave: Dados longitudinais; Pecuária de leite; Retorno sobre ativos.
  • Imagem de Miniatura
    Item
    Tamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica ampla
    (Universidade Federal de Viçosa, 2023-06-15) Oliveira, Gabriela França; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/9895689990102944
    Estudos de associação genômica (Genome-Wide Association Studies - GWAS) são aqueles que buscam identificar marcadores significativos que podem estar relacionadas às características de interesse nos programas de melhoramento. O Modelo Linear Geral (General Linear Model - GLM) é um dos principais procedimentos de avaliação de associações significativas entre marcadores e QTLs (Quantitative Trait Locus). A estimação dos efeitos dos marcadores por meio do GLM é baseada em médias condicionais. No entanto, esta estimação pode ser inadequada quando os erros não seguem distribuição normal e/ou não possuem variâncias homogêneas. Uma metodologia alternativa e que recentemente vem sendo explorada em estudos de associação genômica é a Regressão Quantílica (RQ), a qual possibilita a estimação do efeito dos marcadores ao longo de toda distribuição dos valores fenotípicos. A RQ já foi avaliada com sucesso em estudos de GWAS em um conjunto de dados reais que apresentava um número reduzido de indivíduos. Porém, a performance da técnica para diferentes tamanhos populacionais ainda não foi estudada. Diante do exposto, o objetivo deste estudo, foi avaliar a performance da RQ em estudos de GWAS quanto à capacidade de detectar QTLs associados as características fenotípicas de interesse, considerando diferentes tamanhos populacionais. Para isso, foram utilizados dados simulados, com características de diferentes níveis de herdabilidade (ℎ 2 = 0,30 e 0,50), controlados por 3 e 100 QTLs. Foi simulada uma população de 1000 indivíduos e posteriormente foram realizadas reduções aleatórias de 100 indivíduos até atingir uma população de tamanho 200. O poder de detecção de QTLs e a taxa de falsos positivos foram obtidos por meio do GLM e também por meio da RQ considerando três quantis diferentes (𝜏 = 0,10; 0,50 e 0,90). Como resultado, observou-se que os modelos RQ, apresentaram maior poder de detecção de QTLs em todos os cenários avaliados e taxa de falsos positivos relativamente baixa em cenários com maior número de indivíduos. Os modelos de RQ nos quantis extremos (𝜏 = 0,1 e 0,90) foram aqueles que obtiveram maior poder de detecção de QTLs verdadeiros. Em contrapartida, a análise baseada no GLM detectou poucos (cenários com maior tamanho populacional) ou nenhum QTL nos cenários avaliados. Nos cenários com baixa herdabilidade, o RQ obteve um alto poder de detecção. Dessa forma, verificou-se que a utilização da RQ em GWAS é eficaz, permitindo a detecção de QTLs associados a características de interesse, mesmo em cenários com poucos indivíduos genotipados e fenotipados. Palavras-chave: GWAS. Melhoramento genético. Modelo Linear Geral. Simulação. Quantis condicionais.
  • Imagem de Miniatura
    Item
    Random Forest Quantílico aplicado em estudos de seleção genômica
    (Universidade Federal de Viçosa, 2022-11-04) Valadares, Cristiane Botelho; Nascimento, Moysés; http://lattes.cnpq.br/1899074948442515
    A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.
  • Imagem de Miniatura
    Item
    Redes neurais artificiais com componentes principais para a construção de modelos de predição em dados de espectroscopia NIR
    (Universidade Federal de Viçosa, 2022-07-06) Ferreira, Roberta de Amorim; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/6364173429092431
    A espectroscopia no infravermelho próximo (NIR), associada a métodos estatísticos multivariados, vem sendo utilizada para a predição de indivíduos com maior produtividade. O método Partial Least Squares (PLS) é comumente empregado para ajuste de modelos de dados NIR. Entretanto, este método considera que a relação espectro/propriedade seja linear, o que não é sempre garantido em dados dessa natureza e o que pode, consequentemente, influenciar na acurácia do modelo. Alternativamente, a rede neural artificial (ANN) associada à análise de componentes principais (PCA), denominada PCA-ANN, possui a vantagem de ser eficiente em lidar com dados não lineares, incompletos e com ruídos, captando assim algumas complexidades presentes nos mesmos. Além disso, tal abordagem permite o não uso de pré- tratamentos, o que pode aumentar a capacidade preditiva dos modelos, além de diminuir o custo e o tempo das análises, quando comparada ao PLS associado aos pré-tratamentos usuais. O objetivo deste estudo foi construir e validar modelos de predição e processos de classificação, além de verificar se existe diferença significativa entre o método PLS, associado à matriz de espectros pré-tratados, e o método PCA-ANN, aplicado aos dados brutos. Para tanto, tais métodos foram aplicados a oito conjuntos de dados NIR, na forma bruta (sem pré- tratamentos) e com pré-tratamentos. A avaliação da capacidade preditiva dos modelos obtidos ocorreu por meio da correlação entre os valores preditos e os valores originais, e da raiz quadrada do erro quadrático médio de predição. Já a avaliação dos processos de classificação ocorreu através da taxa de erro aparente (TEA) e da taxa de verdadeiros positivos (TVP). Os resultados alcançados indicam que, na maioria dos conjuntos de dados analisados, o método PCA-ANN não difere estatisticamente do PLS para a predição dos modelos e para os processos de classificação, por meio da aplicação dos testes t e de Wilcoxon (valor-p > 0,01). O PCA- ANN deve ser escolhido para a realização de futuras análises, pois apresenta tempo computacional inferior àquele referente ao PLS. Palavras-chave: PLS. PCA-ANN. Pré-tratamentos. Quimiometria. Predição.
  • Imagem de Miniatura
    Item
    Splines de regressão adaptativa multivariada na predição genômica
    (Universidade Federal de Viçosa, 2020-10-27) Celeri, Maurício de Oliveira; Nascimento, Moysés; http://lattes.cnpq.br/2569243563413784
    A Seleção Genômica Ampla (SGA), proposta em 2001, é uma variação da Seleção Assistida por Marcadores (SAM) que prediz o valor genético genômico com base em marcadores distribuídos ao longo de todo o genoma. Desde sua proposição vários métodos estatísticos vêm sendo propostos para SGA, dentre os quais podemos destacar o Melhor Preditor Linear não Viesado Genômico (G-BLUP), uma das abordagens mais amplamente difundida devido a sua simplicidade e por permitir considerar efeitos não aditivos em seu ajuste. Uma metodologia ainda não explorada em SGA é a Splines de Regressão Adaptativa Multivariada (MARS). A MARS modela efeitos individuais e possíveis interações entre variáveis preditoras, podendo ser particularmente útil para SGA considerando efeitos não aditivos. Diante disso o objetivo deste trabalho é avaliar a utilização da MARS em SGA, considerando características quantitativas com efeitos não aditivos. Para isso, fez-se uso de um conjunto de dados simulados de 1000 indivíduos com 4010 marcadores SNPs e 12 cenários considerando efeitos não aditivos, definidos pela combinação de oito, 40, 80 ou 120 locus controladores e herdabilidade 0,3, 0,5 ou 0,8. Confrontou-se os resultados da MARS contra os resultados obtidos com o modelo ajustado G-BLUP considerando efeitos aditivos, aditivos e devido a dominância e aditivos e devido a epistasia aditiva-aditiva no que se refere à capacidade preditiva e ao coeficiente kappa de Cohen para seleção de indivíduos superiores. MARS apresentou resultados de capacidade preditiva superior a todos os modelos G-BLUP ajustado para os cenários de herdabilidade 0,3 e resultados semelhantes nos demais casos. Quanto ao coeficiente kappa de Cohen, MARS foi superior aos métodos G-BLUP em 11 dos 12 cenários avaliados. Portanto, MARS é uma metodologia que apresenta potencial para estudos em SGA. Palavras-chave: Regressão. Aprendizado estatístico. Seleção genômica ampla. Efeitos não aditivos.