Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
8 resultados
Resultados da Pesquisa
Item Tamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica ampla(Universidade Federal de Viçosa, 2023-06-15) Oliveira, Gabriela França; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/9895689990102944Estudos de associação genômica (Genome-Wide Association Studies - GWAS) são aqueles que buscam identificar marcadores significativos que podem estar relacionadas às características de interesse nos programas de melhoramento. O Modelo Linear Geral (General Linear Model - GLM) é um dos principais procedimentos de avaliação de associações significativas entre marcadores e QTLs (Quantitative Trait Locus). A estimação dos efeitos dos marcadores por meio do GLM é baseada em médias condicionais. No entanto, esta estimação pode ser inadequada quando os erros não seguem distribuição normal e/ou não possuem variâncias homogêneas. Uma metodologia alternativa e que recentemente vem sendo explorada em estudos de associação genômica é a Regressão Quantílica (RQ), a qual possibilita a estimação do efeito dos marcadores ao longo de toda distribuição dos valores fenotípicos. A RQ já foi avaliada com sucesso em estudos de GWAS em um conjunto de dados reais que apresentava um número reduzido de indivíduos. Porém, a performance da técnica para diferentes tamanhos populacionais ainda não foi estudada. Diante do exposto, o objetivo deste estudo, foi avaliar a performance da RQ em estudos de GWAS quanto à capacidade de detectar QTLs associados as características fenotípicas de interesse, considerando diferentes tamanhos populacionais. Para isso, foram utilizados dados simulados, com características de diferentes níveis de herdabilidade (ℎ 2 = 0,30 e 0,50), controlados por 3 e 100 QTLs. Foi simulada uma população de 1000 indivíduos e posteriormente foram realizadas reduções aleatórias de 100 indivíduos até atingir uma população de tamanho 200. O poder de detecção de QTLs e a taxa de falsos positivos foram obtidos por meio do GLM e também por meio da RQ considerando três quantis diferentes (𝜏 = 0,10; 0,50 e 0,90). Como resultado, observou-se que os modelos RQ, apresentaram maior poder de detecção de QTLs em todos os cenários avaliados e taxa de falsos positivos relativamente baixa em cenários com maior número de indivíduos. Os modelos de RQ nos quantis extremos (𝜏 = 0,1 e 0,90) foram aqueles que obtiveram maior poder de detecção de QTLs verdadeiros. Em contrapartida, a análise baseada no GLM detectou poucos (cenários com maior tamanho populacional) ou nenhum QTL nos cenários avaliados. Nos cenários com baixa herdabilidade, o RQ obteve um alto poder de detecção. Dessa forma, verificou-se que a utilização da RQ em GWAS é eficaz, permitindo a detecção de QTLs associados a características de interesse, mesmo em cenários com poucos indivíduos genotipados e fenotipados. Palavras-chave: GWAS. Melhoramento genético. Modelo Linear Geral. Simulação. Quantis condicionais.Item Random Forest Quantílico aplicado em estudos de seleção genômica(Universidade Federal de Viçosa, 2022-11-04) Valadares, Cristiane Botelho; Nascimento, Moysés; http://lattes.cnpq.br/1899074948442515A seleção genômica ampla (GWS) utiliza marcadores distribuídos por todo o genoma para predizer o valor genético genômico de indivíduos. Esta abordagem possibilita acelerar o processo de melhoramento a partir de seleção precoce e aumentar a precisão de predição dos valores genéticos genômicos. Diversas técnicas estatísticas usadas para predição genômica, tais como RR-BLUP, G-BLUP, Bayes A e Bayes B são baseados em erros e, consequentemente, valores fenotípicos com pressupostos de normalidade. Técnicas de aprendizado de máquina tais como Bagging (BA), Random Forest (RF) e Random Forest Quantílico (QRF) aparecem como modelos alternativos já que não requerem suposições a priori sobre a relação funcional entre marcadores e os valores fenotípicos, sem a necessidade de atender pressuposições sobre as distribuições dos dados e dos resíduos. O QRF, metodologia ainda não explorada no contexto de seleção genômica, é um algoritmo não paramétrico que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). O método determina a distribuição de probabilidade de uma variável resposta e extrai informações de diferentes quantis e não apenas prevê a média. Neste trabalho propõe-se a avaliação do uso do QRF na predição genômica e a comparação de seus resultados com outras técnicas que já vem sendo exploradas em GWS. Neste trabalho dois artigos foram desenvolvidos com essa proposta. No primeiro deles, o objetivo foi avaliar o desempenho do QRF (nos quantis 0,1; 0,3; 0,5; 0,7 e 0,9) na predição dos valores genéticos genômicos para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP (G-BLUP aditivo, G-BLUP aditivo dominante e G-BLUP aditivo epistático). Foi simulada uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e três níveis de herdabilidade (0,3, 0,5 ou 0,8). Em todos os cenários, os resultados da capacidade preditiva do QRF foram iguais ou superiores ao G-BLUP e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. No segundo trabalho o objetivo foi avaliar o uso do QRF na predição genômica para três características de Coffea arábica e comparar as suas capacidades preditivas com metodologias de machine learning (Bagging e Random Forest), métodos bayesianos (Bayes C𝜋 e Bayes D𝜋) e o G-BLUP. Foram utilizadas as características bicho mineiro, cercosporiose e produção de grãos referentes à 195 indivíduos genotipados com 20.477 marcadores moleculares SNP, resultantes do cruzamento entre Catuaí e Híbrido de Timor, contrastantes em relação à ferrugem do cafeeiro. Os métodos bayesianos apresentaram melhor desempenho para a produção, já o QRF foi igual ou superior aos outros métodos para as características bicho mineiro e cercosporiose, com tempo de processamento muito inferior comparado ao Bayes C𝜋 e Bayes D𝜋. O QRF surge, então, como um algoritmo promissor para predição possibilitando, em alguns cenários, predições mais acuradas de GWS. Palavras-chave: Predição Genômica. Simulação de Dados. Melhoramento Genético do Cafeeiro. Métodos Bayesianos. G-BLUP. Aprendizado de Máquinas.Item Redes neurais artificiais com componentes principais para a construção de modelos de predição em dados de espectroscopia NIR(Universidade Federal de Viçosa, 2022-07-06) Ferreira, Roberta de Amorim; Peternelli, Luiz Alexandre; http://lattes.cnpq.br/6364173429092431A espectroscopia no infravermelho próximo (NIR), associada a métodos estatísticos multivariados, vem sendo utilizada para a predição de indivíduos com maior produtividade. O método Partial Least Squares (PLS) é comumente empregado para ajuste de modelos de dados NIR. Entretanto, este método considera que a relação espectro/propriedade seja linear, o que não é sempre garantido em dados dessa natureza e o que pode, consequentemente, influenciar na acurácia do modelo. Alternativamente, a rede neural artificial (ANN) associada à análise de componentes principais (PCA), denominada PCA-ANN, possui a vantagem de ser eficiente em lidar com dados não lineares, incompletos e com ruídos, captando assim algumas complexidades presentes nos mesmos. Além disso, tal abordagem permite o não uso de pré- tratamentos, o que pode aumentar a capacidade preditiva dos modelos, além de diminuir o custo e o tempo das análises, quando comparada ao PLS associado aos pré-tratamentos usuais. O objetivo deste estudo foi construir e validar modelos de predição e processos de classificação, além de verificar se existe diferença significativa entre o método PLS, associado à matriz de espectros pré-tratados, e o método PCA-ANN, aplicado aos dados brutos. Para tanto, tais métodos foram aplicados a oito conjuntos de dados NIR, na forma bruta (sem pré- tratamentos) e com pré-tratamentos. A avaliação da capacidade preditiva dos modelos obtidos ocorreu por meio da correlação entre os valores preditos e os valores originais, e da raiz quadrada do erro quadrático médio de predição. Já a avaliação dos processos de classificação ocorreu através da taxa de erro aparente (TEA) e da taxa de verdadeiros positivos (TVP). Os resultados alcançados indicam que, na maioria dos conjuntos de dados analisados, o método PCA-ANN não difere estatisticamente do PLS para a predição dos modelos e para os processos de classificação, por meio da aplicação dos testes t e de Wilcoxon (valor-p > 0,01). O PCA- ANN deve ser escolhido para a realização de futuras análises, pois apresenta tempo computacional inferior àquele referente ao PLS. Palavras-chave: PLS. PCA-ANN. Pré-tratamentos. Quimiometria. Predição.Item Desempenho da análise de regressão linear realizada sob o delineamento em blocos casualizados(Universidade Federal de Viçosa, 2022-02-21) Alassane, Daibou; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/6945776532964962Nas ciências agrárias, muitos experimentos são conduzidos com um ou dois fatores quantitativos sob o delineamento em blocos casualizados (DBC) e com quatro repetições por tratamento, cujas respostas são analisadas por meio da análise de regressão linear. O objetivo deste trabalho foi de avaliar os efeitos dos números de tratamentos e de repetições sobre o desempenho do modelo de regressão linear com uma e duas variáveis independentes e com dados coletados de experimentos instalados sob o DBC. Inicialmente, foi estabelecida uma equação de regressão linear simples para o estudo de uma variável e outra equação de regressão linear múltipla para o estudo de duas variáveis independentes. Em seguida, foram realizadas simulações de acordo com a distribuição normal para os erros do modelo de regressão com média populacional igual a zero e desvios-padrão populacionais para fornecerem diferentes precisões proporcionadas pelos respectivos coeficientes de variação iguais a 10, 20 e 30%. Além disso, foram realizadas três simulações para cada desvio-padrão, separadamente. No total, foram gerados 75.000 conjuntos de dados para o estudo da análise de regressão linear simples e 15.000 para o estudo da análise de regressão linear múltipla. E por fim, para cada uma das medidas avaliadas para verificar o desempenho dos modelos de regressão em função dos diferentes números de tratamentos e de repetições, foi realizada uma análise de superfície de resposta. Para o ajuste de um modelo de regressão linear simples em um experimento instalado sob o DBC, concluiu-se que para um mesmo número de unidades experimentais, o melhor é planejar o menor número possível de níveis quantitativos. Se houver uma expectativa para o modelo linear, pode-se então, recomendar apenas dois níveis quantitativos. Caso contrário, recomendam-se três. Para o ajuste de um modelo de regressão linear múltipla com duas variáveis independentes em um experimento instalado sob o DBC, concluiu-se, do mesmo modo, que para um mesmo número de unidades experimentais, o melhor é planejar, também, o menor número possível de combinações entre os níveis quantitativos das duas variáveis independentes. Se houver uma expectativa para o modelo com apenas efeitos lineares, pode-se então, recomendar apenas dois níveis quantitativos por variável independente avaliados em um fatorial 2 x 2. Caso contrário, recomendam-se três níveis por variável avaliados em um fatorial 3 x 3. Em ambos os casos, todos os tratamentos avaliados com o maior número possível de repetições. Palavras-chave: Tratamentos. Repetições. Precisão experimental.Item Análise de estilo baseada em retornos: um estudo aplicado aos fundos de previdência complementar oferecidos pelo instituto Agros(Universidade Federal de Viçosa, 2021-11-04) Prates, Carlos Victor Bragatto; Barbosa, Eduardo Campana; http://lattes.cnpq.br/4525845624417719A introdução do Plano Real, em 1994, promoveu uma profunda mudança no cenário econômico nacional, bem como na postura do cidadão brasileiro, no que se refere a gestão do seu patrimônio pessoal e a escolha de estratégias e instrumentos financeiros, que permitam uma administração eficiente do mesmo. Nesse sentido, uma categoria de investimento que vem se destacando é a dos planos de previdência privada, uma importante alternativa para auxiliar o brasileiro no planejamento e no acúmulo de recursos para o futuro. Logo, o objetivo deste trabalho é aplicar a metodologia da Análise de Estilo Baseada em Retornos ou RBSA (do inglês, Return Based Style Analysis), para avaliar as estratégias de investimento ou de alocação de recursos e os retornos de dois planos previdenciários (B e CD) oferecidos pelo Agros, um Instituto da UFV de Seguridade Social, que oferece e administra planos de previdência privada e de saúde, com o intuito de suplementar os benefícios pagos pela previdência social aos servidores e ex-servidores da Universidade Federal de Viçosa (UFV). A referida metodologia utiliza um modelo de regressão linear múltipla, que através da imposição de algumas restrições paramétricas, busca estimar o percentual de alocação de um fundo a determinadas classes de ativos, descritas à priori nos documentos regulatórios do mesmo. Palavras-chave: Economia. Gestão. Investimentos. Restrições paramétricas. Regressão linear múltipla.Item Análises uni e multivariada para avaliação em cruzamentos dialélicos parciais(Universidade Federal de Viçosa, 2020-02-18) Oliveira, Ana Carolina Ribeiro de; Cecon, Paulo Roberto; http://lattes.cnpq.br/0231423029429573A espécie Capsicum annuum L. ocupa uma posição representativa no mercado brasileiro de hortaliças. Assim, com o intuito de atender às exigências do mercado, faz-se necessário o desenvolvimento de novas cultivares, e isso dependerá, da variabilidade genética presente na população em estudo. Neste sentido, o estudo da diversidade genética entre os indivíduos por meio da adoção de técnicas multivariadas, tais como: a análise de agrupamentos e os mapas auto-organizáveis de Kohonen, tornam-se importantes, sobretudo, para seleção de genitores adequados à obtenção de híbridos, com maior efeito heterótico e que proporcionem maior segregação em recombinações, possibilitando o aparecimento de transgressivos. Ademais, o uso de cruzamentos dialélicos propiciam estimativas de parâmetros úteis na seleção de genitores para hibridação e entendimento da ação gênica envolvida na determinação dos caracteres de interesse. As metodologias de Griffing (1956) e Gardner e Eberhart (1966) fornecem informações sobre a capacidade combinatória (geral e específica) e a heterose, respectivamente. Deste modo, objetivou-se avaliar o desempenho de nove genótipos de C. annuum e seus 20 híbridos, obtidos via cruzamentos dialélicos parciais, por meio de caracteres do fruto. O experimento I foi conduzido em casa de vegetação sob delineamento inteiramente casualizado, com quatro repetições. Foram avaliados nove genótipos de Capsicum annuum L., sendo eles: Pimenta Vulcão, Pimenta Cayene, Pimenta Peter, Pimenta Picante para vaso, Pimenta Jamaica Yellow, Pimenta Doce Italiana, Pimentão Quadrado, Pimentão Cascadura Ikeda e Pimentão Rubi Gigante. Os caracteres avaliados foram: peso total do fruto (PTF, g), comprimento do fruto (CF, mm), largura do fruto (LF, mm), espessura do pericarpo (ESP, mm), número de sementes por fruto (NSF), massa da matéria total do fruto fresca (MTF, g) e porcentagem da massa da matéria total do fruto seca (%MTS, g). Os dados obtidos foram submetidos à análise de variância e as médias comparadas pelo critério de Scott-Knott (p < 0,05), para a separação de médias de tratamentos em grupos distintos, por meio da minimização da variação dentro e maximização da variação entre grupos. Para o estudo da diversidade genética, foi adotado a distância de Mahanalobis; os métodos de agrupamento da ligação média entre grupos (UPGMA) e Tocher; e os mapas auto-organizáveis de Kohonen. Observou-se a existência de variabilidade genética entre os genótipos de Capsicum annuum L.; e a formação de dois e quatros grupos, pelos métodos UPGMA e Tocher, respectivamente. A organização da similaridade, estabelecida pelo mapa auto-organizável de Kohonen, apresentou grande potencial no processo de direcionamento de genitores para formação dos dialelos, ao realçar as separações dos grupos de genótipos. O experimento II foi conduzido em casa de vegetação sob delineamento inteiramente casualizado, com quatro repetições. Foram avaliados nove genótipos de Capsicum annuum L. e suas combinações híbridas, por meio de um dialelo parcial (5x4). Pela metodologia de Griffing, adaptada por Geraldi e Miranda Filho (1988), verifica-se que os genótipos ‘Pimentão Quadrado’, ‘Pimenta Jamaica Yellow’, ‘Pimenta Picante para vaso’, ‘Pimenta Cayene’ e ‘Pimenta Peter’ apresentaram os maiores valores de capacidade geral de combinação (CGC), o que os torna potenciais pais em programas de melhoramento de novos híbridos. Os híbridos ‘Pimenta Cayene x Pimentão Cascadura Ikeda’, ‘Pimenta Jamaica Yellow x Pimentão Cascadura Ikeda’ e ‘Pimenta Picante para vaso x Pimentão Quadrado’ destacaram- se pelo melhor desempenho, com as melhores capacidades específicas de combinação e com pelo menos um dos pais com alta CGC, para os caracteres CF, LF e NSF, e %MTS, respectivamente. Adotando-se a metodologia de Gardner e Eberhart, adaptada por Miranda Filho e Geraldi (1984), observa-se que os genótipos ‘Pimentão Quadrado’ e ‘Pimenta Picante para vaso’ apresentaram maior potencial per se, considerando todos os caracteres, e entre os efeitos de heterose específica os cruzamentos ‘Pimenta Vulcão x Pimentão Quadrado’ e ‘Pimenta Cayene x Pimentão Quadrado’ têm efeitos positivos para 77% dos caracteres avaliados. Por fim, foram realizados o ajuste de modelos de regressão não linear para descrever o crescimento de pimentas (Capsicum annuum L.) ao longo do tempo, por meio do método dos mínimos quadrados ordinários (MQO); a identificação do modelo com melhor ajuste e a comparação do modelo obtido por MQO com o modelo via regressão quantílica não linear (RQ), nos quantis 0,25, 0,5 e 0,75. Como resultados, os modelos de regressão não linear Logístico e von Bertalanffy foram indicados para descrever o crescimento de pimentas. A RQ foi eficiente para ajustar modelos de crescimento, quando comparada à regressão não linear obtida por mínimos quadrados ordinários. Palavras-chave: Capsicum annuum L. Regressão quantílica. Modelos não lineares. Mapa de Kohonen. Diversidade genética.Item Métodos de concordância ou coincidência entre modelos: simulação e aplicação a dados de crescimento de planta de alho(Universidade Federal de Viçosa, 2020-02-18) Moura, George Lucas Santana de; Cecon, Paulo Roberto; http://lattes.cnpq.br/0657704531110710O objetivo deste trabalho foi realizar um estudo de simulação de vários métodos de concordância ou coincidência entre modelos, e utilizar-se destes métodos como critério para comparação de modelos de regressão não linear aplicados ao acúmulo de massa seca total da planta de alho em função do tempo. O critério de Akaike, critério de identidade de modelos e Erro Quadrático Médio são alguns critérios utilizados para comparação entre varios modelos de regressão, este trabalho propõe utilizar-se de índices como de Willmott, Nash-Sutcliffe e para verificar o grau de concordância entre os modelos de regressão não linear Logístico e Gompertz. Os 89 acessos de alho são oriundos do Banco de Germoplasma de Hortaliças da Universidade Federal de Viçosa(BGH/UFV), foi escolhido convenientemente apenas o acesso de alho que mais se adequa aos modelos citados, foram utilizados apenas estes dois modelos sigmoidais porque os critérios de concordância apresentados aqui são utilizados dois a dois. O estudo de simulação revelou que nenhum índice sozinho pode substituir os demais. No acesso de alho escolhido, todos os índices apresentaram valores concordantes. Palavras-Chave: Análise de Regressão, Modelos de crescimento, Análise por simulação.Item Splines de regressão adaptativa multivariada na predição genômica(Universidade Federal de Viçosa, 2020-10-27) Celeri, Maurício de Oliveira; Nascimento, Moysés; http://lattes.cnpq.br/2569243563413784A Seleção Genômica Ampla (SGA), proposta em 2001, é uma variação da Seleção Assistida por Marcadores (SAM) que prediz o valor genético genômico com base em marcadores distribuídos ao longo de todo o genoma. Desde sua proposição vários métodos estatísticos vêm sendo propostos para SGA, dentre os quais podemos destacar o Melhor Preditor Linear não Viesado Genômico (G-BLUP), uma das abordagens mais amplamente difundida devido a sua simplicidade e por permitir considerar efeitos não aditivos em seu ajuste. Uma metodologia ainda não explorada em SGA é a Splines de Regressão Adaptativa Multivariada (MARS). A MARS modela efeitos individuais e possíveis interações entre variáveis preditoras, podendo ser particularmente útil para SGA considerando efeitos não aditivos. Diante disso o objetivo deste trabalho é avaliar a utilização da MARS em SGA, considerando características quantitativas com efeitos não aditivos. Para isso, fez-se uso de um conjunto de dados simulados de 1000 indivíduos com 4010 marcadores SNPs e 12 cenários considerando efeitos não aditivos, definidos pela combinação de oito, 40, 80 ou 120 locus controladores e herdabilidade 0,3, 0,5 ou 0,8. Confrontou-se os resultados da MARS contra os resultados obtidos com o modelo ajustado G-BLUP considerando efeitos aditivos, aditivos e devido a dominância e aditivos e devido a epistasia aditiva-aditiva no que se refere à capacidade preditiva e ao coeficiente kappa de Cohen para seleção de indivíduos superiores. MARS apresentou resultados de capacidade preditiva superior a todos os modelos G-BLUP ajustado para os cenários de herdabilidade 0,3 e resultados semelhantes nos demais casos. Quanto ao coeficiente kappa de Cohen, MARS foi superior aos métodos G-BLUP em 11 dos 12 cenários avaliados. Portanto, MARS é uma metodologia que apresenta potencial para estudos em SGA. Palavras-chave: Regressão. Aprendizado estatístico. Seleção genômica ampla. Efeitos não aditivos.