Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
187 resultados
Resultados da Pesquisa
Item Predictive methods using pedigrees, markers, and images for the genetic improvement of sugarcane(Universidade Federal de Viçosa, 2024-09-23) Gonçalves, Mateus Teles Vital; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/3146419064245272The overall objective of this thesis was to assess predictive methods that leverage different sources of information, to improve genetic evaluation of sugarcane genotypes. The plant material and experimental data used consisted of early-generation field trials conducted by the genetic breeding program of the Universidade Federal de Viçosa (PMGCA). In the first chapter I discussed the content, introducing research questions and the main objectives of this thesis. In the second chapter, we compared pedigree- based best linear unbiased prediction (PBLUP), genomic-based (GBLUP), and single- step (ssGBLUP) models for the genetic evaluation of a sugarcane population in which only a subset of individuals was genotyped. Models were evaluated in two cross- validation (CV) schemes: validation using genotyped individuals (CV1) and validation using nongenotyped individuals (CV2). Our results suggest that genetic evaluation us- ing the ssGBLUP models may be an alternative approach for sugarcane. Also, results showed that models including only pedigree information gave relatively high prediction accuracies, suggesting that pedigrees are an important source of genetic information, particularly for sugarcane and other crop species with complex polyploid genomes. In the third chapter, we evaluated the integration of unoccupied aerial systems (UAS)- based red-green-blue (RGB) imaging with pedigree and genomic prediction models to improve selection accuracy for tonnes of cane per hectare (TCH). The objectives were to estimate genetic parameters and trends for TCH and RGB-image extracted traits, and to compare the performance of single-trait with multi-trait genomic and pedigree prediction models that incorporate RGB-image extracted traits. The performance of models was evaluated in terms of Pearson’s correlation between adjusted and predicted phenotypes, and mean squared error (MSE) using three cross-validation schemes, which varied in the level of phenotypic information available: ST, without secondary traits; MT-1, secondary traits in the training set; and MT-2, secondary traits in both, training and testing sets. We used data of an augmented block design trial, consisting of 385 clones. Clones were phenotyped at the second ratoon stage for TCH, and for 12 RGB-image extracted traits collected in a single flight. In general, we found low genetic correlation between TCH and RGB-image extracted traits, and moderate narrow-sense heritability estimates for RGB-image extracted traits. Overall indirect response to selection of RGB-image extracted traits was higher compared to direct response to selection for TCH. Our results suggest that accuracies of multi-trait models that incorporated RGB- image extracted traits did not improve compared to single-trait models for predicting TCH. Future research should investigate alternative sensor technologies and optimize UAS-based data collection. Keywords: RGB; Single-step models; Multi-trait models; Polyploid; Saccharum spp.; Genomic prediction.Item Desempenho de testes de heterocedasticidade na regressão linear simples(Universidade Federal de Viçosa, 2024-08-27) Silva, Jonas Firmiano da; Emiliano, Paulo César; http://lattes.cnpq.br/0436042618157739A regressão linear é uma ferramenta fundamental em diversas áreas de pesquisa, sendo o método dos mínimos quadrados ordinários (MQO) um dos mais utilizados para estimar os parâmetros da regressão. No entanto, para que o MQO seja considerado o melhor estimador linear não viesado, algumas hipóteses precisam ser atendidas, entre elas a homocedasticidade dos resíduos. A violação dessa hipótese pode levar a problemas na inferência dos parâmetros estimados, tornando crucial a detecção de heterocedasticidade nos modelos lineares. Este estudo tem como objetivo avaliar a eficácia e o poder de diferentes testes estatísticos na identificação da heterocedasticidade. Utilizando simulação de dados, foram avaliados os testes de White, Breusch-Pagan e Glejser, analisando seu desempenho quando há o aumento do coeficiente de variação das variâncias (CVV) e o aumento das amostras de 15 a 150 observações. Os resultados indicam que o poder dos testes aumenta com o crescimento do CVV, tornando-os mais eficazes na detecção de heterocedasticidade à medida que a variabilidade da variância dos resíduos se intensifica. Além disso, o aumento do tamanho da amostra melhora a confiabilidade dos testes. O teste de White apresentou um poder ligeiramente superior em comparação aos demais, mas todos demonstraram poder crescente na medida em que o CVV e o tamanho da amostra aumentam. Observou-se que o poder dos testes é mais estável em amostras maiores, mantendo-se elevado para diferentes valores de CVV. Palavras-chave: Teste de White; Teste de Breusch-Pagan; Teste de Glejser; Mínimos quadrados; Poder do teste.Item Transformações de dados e análise de variância: teoria, técnicas e impactos(Universidade Federal de Viçosa, 2024-12-16) Nascimento, Jhennifer dos Santos; Emiliano, Paulo César; http://lattes.cnpq.br/3797894381138113A transformação de um conjunto de dados para outra escala matemática é uma técnica comum utilizada em análises estatísticas do tipo ANOVA, com o propósito de satisfazer os pressupostos de normalidade e homogeneidade de variâncias para tornar a análise de variância válida. Esta técnica começou a ser utilizada em 1898 por Edgeworth e permanece nas publicações científicas até os dias atuais. As transformações de dados em análises estatísticas, especialmente para modelos lineares, têm o objetivo de tornar os dados e os termos de erro do modelo mais próximos de uma distribuição normal, sendo possível utilizá-las para corrigir heterogeneidade de variâncias ou para tornar um modelo aditivo. Surgem questionamentos a respeito desta técnica, tais como: se a interpretação dos dados deve ser feita na nova escala, ou se deve ser aplicada a inversa da transformação para a interpretação ser realizada na escala original; se é mais adequado utilizar uma análise não paramétrica, que não necessita de pressuposições de normalidade e homogeneidade de variâncias. O principal objetivo deste estudo é avaliar a capacidade de correção da não normalidade e heterogeneidade de variâncias das principais transformações de dados utilizadas pela comunidade científica de ciências agrárias. Para isso, realizamos duas revisões sistemáticas de literatura de trabalhos que realizaram análise de variância e utilizaram transformações de dados para validar seus pressupostos, a primeira fornece uma noção de como a técnica vem sendo aplicada na área de ciências agrárias como um todo, e a segunda para investigar o uso da técnica em quatro de seus subcampos (entomologia, fitotecnia, florestal e solos). Ambas as revisões identificaram as transformações logarítmica, raiz quadrada, arco seno e Box-Cox como as mais utilizadas na área para a validação dos pressupostos da análise de variância, além de erros de execução e reporte da técnica. Com base nisso, realizamos um estudo de simulação para avaliar a eficácia dessas quatro transformações na correção da não normalidade e heterogeneidade, destacando a superioridade da transformação Box-Cox na correção simultânea dos pressupostos; elaboramos diretrizes práticas para orientar pesquisadores na execução da ANOVA; e por fim, desenvolvemos um aplicativo web para permitir que pesquisadores sem afinidade com programação possam ter acesso ao método de triagem que utilizamos nas revisões sistemáticas executadas. Palavras-chave: revisão sistemática; ciências agrárias; pressuposições da anova; simulação; diretrizes.Item Análise da dependência espacial em experimentos com cana-de-açúcar da RIDESA(Universidade Federal de Viçosa, 2024-09-28) Silva, Mariana de Oliveira; Carneiro, Antônio Policarpo Souza; http://lattes.cnpq.br/1023852504013417A cana-de-açúcar é uma das culturas agrícolas mais importantes para a economia brasileira, sendo a principal matéria-prima para a produção de açúcar e etanol. Dada sua relevância, o melhoramento genético da cana-de-açúcar é essencial para aumentar a produtividade e a sustentabilidade do setor sucroenergético. A análise de variância tradicional, que assume a independência dos erros, frequentemente confia ao princípio da casualização a tarefa de neutralizar a correlação entre os erros. No entanto, quando a casualização não é realizada corretamente ou a dependência espacial entre parcelas é ignorada, os resultados podem ser comprometidos, reduzindo a eficácia da análise para a seleção de genótipos realmente superiores. Neste estudo, realizou-se uma análise estatística espacial em dois experimentos conduzidos pela Rede Interuniversitária para o Desenvolvimento do Setor Sucroenergético (RIDESA) com o objetivo de avaliar a dependência espacial dos erros aleatórios e verificar se a análise espacial melhora a precisão experimental. A análise inicial dos resíduos empregou o índice de Moran e semivariogramas para identificar a autocorrelação espacial e modelar a estrutura de dependência espacial. Essa estrutura foi posteriormente incorporada aos modelos por meio da matriz de variância e covariância residual (R), possibilitando a comparação entre modelos com erros independentes, modelos com erros dependentes que consideram o controle local do experimento, e modelos com erros dependentes que desconsideram o controle local do delineamento em blocos casualizados. O modelo que desconsiderou o controle local e incorporou a dependência espacial dos erros mostrou o melhor ajuste em um dos experimentos, evidenciando que, em certas condições, a consideração da estrutura espacial pode ser mais eficaz do que o controle local no delineamento. Palavras-chave: autocorrelação espacial; melhoramento correlacionados; geoestatística; precisão experimental. genético; errosItem Análise de sobrevivência com censura intervalar aplicada na germinação de sementes de pitaia(Universidade Federal de Viçosa, 2024-08-16) Silvério, Sara; Martins Filho, Sebastião; http://lattes.cnpq.br/2727150015041728Devido à presença de dados censurados nos ensaios de germinação de sementes, os métodos convencionais de análise de dados podem não ser a escolha mais apropriada. Uma alternativa recomendada é a aplicação da análise de sobrevivência. Em muitos casos, a determinação exata do momento da falha não é possível devido às observações serem realizadas em intervalos de tempo, caracterizando a censura intervalar. Além disso, pode ocorrer que todas as unidades experimentais sejam observadas nos mesmos intervalos de tempo, caracterizando um caso particular de censura intervalar conhecido como dados grupados. No Capítulo 1, este trabalho teve como objetivo fornecer uma revisão geral da análise de sobrevivência, enfatizando a censura intervalar e abrangendo técnicas não paramétricas, paramétricas e semiparamétricas. O Capítulo 2 teve como objetivo aplicar e avaliar métodos de análise de sobrevivência com censura intervalar, utilizando dados de quatro experimentos de germinação de sementes de pitaia (Hylocereus spp.) obtidos da base de dados Mendeley. Nos experimentos foram realizadas contagens semanais durante quatro semanas. As sementes que não germinaram até o final desse período foram consideradas censuradas (não germinadas) à direita. Foram aplicadas as seguintes técnicas: i) o algoritmo EMICM para avaliar o efeito combinado do tempo de armazenamento e do tipo de luz; ii) regressão paramétrica para analisar o efeito conjunto do local e do tempo de armazenamento; iii) regressão semiparamétrica para examinar o impacto do método de extração das sementes; e vi) regressão discreta em dados grupados para avaliar o efeito combinado do armazenamento e da temperatura. As técnicas aplicadas permitiram avaliar esses fatores na germinação de sementes de pitaia. Dessa forma, análise de sobrevivência demonstrou ser uma ferramenta valiosa para lidar com dados censurados intervalares em estudos de germinação, destacando a importância da seleção adequada do método de análise, de acordo com a natureza dos dados e os objetivos do estudo. Palavras-chave: Hylocereus spp.; Armazenamento; Temperatura; Tipos de luz; Extração de semente; Tempo até o evento.Item Avaliação do impacto da seleção baseada na combinação de análise de fatores e índices de seleção em um programa de melhoramento de seleção recorrente(Universidade Federal de Viçosa, 2024-08-28) Oliveira, Brenda Vieira de; Azevedo, Camila Ferreira; http://lattes.cnpq.br/1252211419989802Com a crescente demanda comercial, o desenvolvimento de novas cultivares pelos programas de melhoramento exige que os genótipos selecionados atendam a uma ampla gama de características, incluindo resistência a doenças, produtividade e qualidade, entre outras. O índice de seleção é uma técnica biométrica amplamente utilizada para selecionar genótipos superiores, baseando-se em várias características simultaneamente, mas enfrenta desafios em sua confiabilidade quando muitos atributos estão envolvidos, devido às correlações entre os caracteres e à estimativa dos pesos do índice. Para superar essa questão, uma técnica multivariada que visa reduzir a dimensão do conjunto de dados e garantir a ortogonalidade entre as variáveis latentes é a análise de fatores (AF). Assim, com o objetivo de avaliar a combinação das técnicas a longo prazo, foram aplicados os escores da AF em substituição às variáveis fenotípicas no índice, comparando essa abordagem ao uso exclusivo do índice. Diversos cenários foram simulados, com variações na quantidade de características em seleção e as direções e magnitudes das correlações entre elas, para avaliar o impacto na seleção. A eficiência da combinação foi avaliada em termos de ganho genético, diversidade genética e endogamia, sendo esses resultados comparados ao uso exclusivo do índice de seleção. Os resultados indicam que, a longo prazo, a combinação das técnicas apresentou ganhos genéticos semelhantes ao índice tradicional, mas com maior diversidade genética na maioria dos cenários. O primeiro capítulo deste trabalho é uma revisão bibliográfica dos métodos utilizados, enquanto o segundo capítulo descreve a execução do trabalho. Palavras-chave: Simulação; Correlação; Ganho Genético; Diversidade Genética.Item Intervalos de confiança percentis por reamostragem Bootstrap para dados de Temporal Dominance of Sensations(Universidade Federal de Viçosa, 2023-02-27) Temóteo, Alex da Silva; Silva, Carlos Henrique Osorio; http://lattes.cnpq.br/9587672520809776Temporal Dominance of Sensations (TDS) é um método de análise sensorial, em que se avalia a percepção dos atributos (sensações) durante um determinado período de tempo pré-fixado, em que o avaliador fica exposto ao produto. Essa avaliação consiste em atribuir 1 (um) para a sensação sentida e automaticamente 0 (zero) para as sensações não sentidas durante o tempo de avaliação. No presente estudo foram avaliadas cinco bebidas de uva com diferentes proporções de água e açúcar, chamadas de A, B, C, D e E. Com o objetivo de conhecer o atributo dominante entre “ácido”, “adstringente”, “aroma”, “doce” e “sabor”. Gerou-se bancos de dados com 46 segundos (0 – 45) para 16 avaliadores com 3 repetições para as 5 sensações pré-definidas mais uma coluna com “nenhuma sensação”. Foram geradas curvas para cada atributo por meio da proporção em que os avaliadores atribuíram o valor 1 para a sensação sentida em cada instante de tempo e plotadas em um mesmo gráfico. Com essas curvas determinou-se quais sensações e em quais instantes atingiram a proporção mínima para ser considerada uma sensação dominante. De posse dos dados coletados para a TDS, aplicou-se o teste de Qui- quadrado para aderência e avaliou-se em quais instantes de tempo, pelo menos uma sensação, foi considerada diferente das demais. Neste trabalho, optou-se por apresenta somente os resultados para os instantes de tempo de 13 segundos para a bebida A e de 10 segundos para a bebida C, com a finalidade de apresentar o método que é válido para os demais tempos e bebidas. Aplicou-se o método de reamostragem Bootstrap em cada linha para construir intervalos de confiança percentis e a distribuição empírica dos dados. De posse dos intervalos de confiança, pôde-se inferir sobre quais sensações diferem estatisticamente, ou não, das demais e quais foram consideradas dominante pela TDS. Os resultados obtidos com os intervalos de confiança via Bootstrap, estão em acordo com as curvas construídas nas análises TDS empregadas atualmente na área de ciência e tecnologia de alimentos, que são apenas descritivas, portanto, a proposta apresentada é uma alternativa de análise inferencial para estudos com TDS. Palavras-chave: análise sensorial; suco de uva; qui-quadrado; bootstrap; temporal dominance of sensationsItem Estimativas de parâmetros genéticos de resistência à ferrugem em Coffea Canephora usando modelos lineares generalizados mistos(Universidade Federal de Viçosa, 2024-03-26) Faria, Sheila Gonçalves; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/3227146133572550O café é uma das bebidas mais consumidas e uma das commodities mais comercializadas globalmente. O Coffee Canephora, é uma espécie perene conhecida pelo alto potencial produtivo, alto teor de sólidos solúveis, e se sobressai por ser uma espécie que se adapta melhor a diversos estresses ambientais e por ser mais resistente. Nos programas de melhoramento, estimativas precisas de parâmetros genéticos são primordiais para desenvolver objetivos de criação eficazes e abrangentes. Os métodos para obtenção de parâmetros genéticos são mais bem desenvolvidos para características normalmente distribuídas. Porém, é comum que sejam coletadas informações advindas de características fenotípicas que possuem distribuição não normal. Nestes casos, os Modelos Lineares Generalizados Mistos (Mixed Generalized Linear Models - GLMM) apresentam-se como uma ferramenta útil pois permitem o ajuste do modelo quando a variável de interesse possui qualquer distribuição da chamada “família exponencial de distribuições”. Os GLMMs permitem que a relação entre a combinação linear das variáveis explicativas e a variável resposta seja mais geral do que no Modelo Linear (ML). Desta forma, ao estimar parâmetros genéticos com GLMMs, é crucial, além de considerar corretamente a distribuição da variável resposta Y, expressar os resultados na escala original das características medidas. Isso porque os GLMMs fornecem as estimativas dos parâmetros em uma escala latente, exigindo transformações para interpretações adequadas. Diante do exposto, este trabalho teve por objetivo a obtenção de parâmetros genéticos da característica relacionada a resistência à ferrugem da variedade Conilon de Coffee Canephora, mensurada de forma binária (1 = resistente e 0 = susceptível). Os resultados obtidos para as variâncias genética e fenotípica, herdabilidade e ganho de seleção foram comparados com os resultados advindos de modelos usuais e, com aqueles advindos de modelos GLMMs sem as correções de escala devidas. Para tanto, considerou- se informações referentes à 51 genótipos do grupo varietal Conilon. Como resultados, observou-se que, desconsiderar a não-normalidade dos caracteres avaliados (ou seja, utilizar o modelo tradicional, baseado em normalidade) fez com que as variâncias genéticas e fenotípicas fossem subestimadas. No entanto, a herdabilidade e o ganho deseleção apresentaram-se maior que aquelas advindas dos GLMMs com a correção da escala. Para a situação em que os GLMMs foram ajustados, mas omitiu-se as correções de escala, isto é, interpretou-se os resultados na escala latente observou-se superestimação de todos os parâmetros genéticos. A superestimação dos ganhos de seleção podem levar a conclusões equivocadas sobre a eficácia da seleção genética, fazendo parecer que a seleção para determinadas características resultará em maior progresso genético do que realmente seria possível. Neste caso, pode-se ocorrer a alocação indevida de recursos em pesquisas para essa característica, em detrimento de outras com maior potencial real de aprimoramento. Além disso, programas de melhoramento baseados em dados superestimados da herdabilidade e do ganho de seleção podem ser ineficazes e dispendiosos, gerando resultados abaixo das expectativas. Desta forma, destaca-se a importância da utilização de modelos GLMMs com correção da escala dos parâmetros, a fim de obter resultados mais precisos e confiáveis, auxiliando no desenvolvimento de programas de melhoramento genético mais eficientes e eficazes. Palavras-chave: Café; Distribuição Binomial; Modelos Mistos; Melhoramento Genético.Item Estimativa da lucratividade no processo de produção de leite por meio da regressão de dados em painel(Universidade Federal de Viçosa, 2024-07-31) Sediyama, Jaqueline Akemi Suzuki; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/6051260154847913Um importante desafio do produtor de leite no Brasil é a pequena margem de lucro, já que os produtores não conseguem definir o preço de venda do leite e estão sujeitos a custos de produção cada vez maiores. Desta forma, esta tese teve como objeto de interesse a lucratividade, por meio do retorno sobre ativos. O objetivo foi determinar um modelo de regressão com dados em painel mais adequado para estimar a lucratividade, avaliada em diferentes anos, para diferentes fazendas produtoras de leite do estado de Minas Gerais. Foram estimados modelos de regressão com dados em painel sem estratificação e estratificados por tamanho da fazenda e por mesorregião. O modelo de regressão com dados em painel que melhor se ajustou aos dados, com e sem estratificação, foi o modelo de efeitos fixos. Foi possível observar que, as duas estratificações não aumentaram, consideravelmente, o grau de explicação do modelo ajustado. Além disso, não houve homogeneidade das variâncias residuais. Estes resultados ratificam a heterogeneidade dos produtores de leite e que o modelo sem estratificação pode ser adequado às fazendas produtoras de leite, independentemente do tamanho e da mesorregião. De acordo com o ajuste do modelo de regressão com dados em painel de efeitos fixos, para que um produtor melhore a sua lucratividade, às vezes, será necessária uma mudança estrutural, uma vez que apenas a melhoria de algumas variáveis não será suficiente para que a sua fazenda se torne lucrativa. Palavras-chave: Dados longitudinais; Pecuária de leite; Retorno sobre ativos.Item Decision tree e geoestatística na redução do número de análises de micronutrientes do solo(Universidade Federal de Viçosa, 2024-02-23) Batista, Luciano Gonçalves; Santos, Nerilson Terra; http://lattes.cnpq.br/4291726476430377Para realizar a interpolação por krigagem, é importante que cada ponto num semivariograma seja obtido com base no mínimo da combinação de 30 pares de pontos. Além disso, alguns autores alegam que é necessário ter pelo menos 100 amostras para fazer a interpolação. Sendo assim, o processo de amostragem se torna caro para o produtor rural. Como alternativa de contornar este problema de amostragem, foi utilizado metodologias de machine learning. O objetivo principal deste trabalho é avaliar o uso da metodologia de decision tree na redução do adensamento amostral para atributos do solo visando a realização da krigagem ordinária com tamanho amostral reduzido. Para isso, foi realizado 50 amostragem pelo algoritmo Latin Hypercube Sampling (LHS), com malhas contendo 82, 112 e 127 pontos amostrados e os valores faltantes foram preditos com decision tree, até completar 150 pontos e logo em seguida foi realizado a krigagem ordinária para as malhas 𝑀𝑅127, 𝑀𝑅112 e 𝑀𝑅82 , que foi gerado pela combinação das 50 predições por decision tree e avaliados os valores da Raiz Quadrada do Erro Médio (RMSE) e Média do Erro Absoluto (MAE), denominados RMSE_Krig e MAE_Krig. Foi percebido que há uma redução nestas estatísticas ao passo que aumentamos a redução amostral. A redução das estatísticas de validação indica que à medida que aumentamos a quantidade de amostras preditas com decision tree, há uma melhoria no modelo de krigagem ordinária. Ao fazer o mapa de atributos para as malhas reduzidas, é percebido que o padrão de concentração de nutrientes dos solos nas malhas reduzidas segue semelhante ao padrão original, ou seja, regiões com maiores concentrações ainda mantêm níveis elevados, enquanto aquelas com menores concentrações continuam a apresentar índices reduzidos. Ao fazer o mapa de atributos das malhas reduzidas é percebido que o padrão de concentração de micronutrientes dos solos nas malhas reduzidas segue semelhante ao padrão original, ou seja, zonas com maiores concentrações ainda continuam com concentrações elevadas e regiões com menores concentrações continuam com concentrações menores. Com isso, a decision tree, se mostrou eficiente em preservar o padrão de distribuição dos micronutrientes. Palavras-chave: Adensamento amostral; Aprendizado estatístico; Krigagem ordinária.