Ciências Exatas e Tecnológicas

URI permanente desta comunidadehttps://locus.ufv.br/handle/123456789/4

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 6 de 6
  • Imagem de Miniatura
    Item
    Redes neurais regularizadas na predição de características agronômicas de soja
    (Universidade Federal de Viçosa, 2024-04-03) Costa, Noé Mitterhofer Eiterer Ponce de Leon da; Nascimento, Moysés; http://lattes.cnpq.br/9184271760739064
    Um dos métodos de aprendizado de máquina utilizado atualmente na Seleção Genômica (SG) são as Redes Neurais Artificiais (RNAs) e, dentre estas, a Rede Perceptron de Múltiplas Camadas (PMC). O PMC destaca-se na solução de problemas de classificação ou regressão pelo fato de não exigir um modelo funcional, nem de atender pressuposições e não requerer conhecimento a priori sobre o fenômeno em estudo. No entanto, um problema comum nas PMC é o overfitting, que se trata de um superajustamento da rede aos dados de treinamento. Nestes casos, o modelo não possui capacidade de generalização fazendo que ele seja menos eficaz nas predições em um novo conjunto de dados ou no conjunto de teste. Para contornar este problema, algumas alternativas são as regularizações L1 e L2, que se baseiam nas regressões em penalizações similares aos métodos Lasso e Ridge, respectivamente. O objetivo deste estudo foi avaliar a eficiência do uso da regularização em modelos de PMC aplicados na predição genômica. Além disso, os resultados obtidos foram comparados com outros utilizados em predição genômica, tais como o Perceptron de Múltiplas Camadas (PMC), Árvore de Decisão (AD), Random Forest (RF), Bagging (BAG), Boosting (BOO) e Genomic Best Linear Unbiased Prediction (GBLUP). Os dados são provenientes de 100 genótipos de soja, em um experimento conduzido de setembro a novembro de 2021, no delineamento em blocos ao acaso com três repetições, em que cada parcela foi constituída de uma planta cultivada em um vaso dentro de uma casa de vegetação. Foram avaliadas as características diâmetro de hipocótilo (DH, em milímetros), altura de planta (AP, em centímetros), comprimento total de raiz (CR, em centímetros) e área superficial projetada de raiz (AR, em centímetros quadrados). Na avaliação do PMC regularizado (PMCR), foram utilizados as medidas de capacidade preditiva (CP) e raiz do erro quadrático médio (RMSE) para comparação dos métodos. Em geral, o PMC com regularização L2 melhorou o desempenho em comparação com métodos avaliados em termos de CP e RMSE. Os valores de CP obtidos pelas redes regularizadas L2 foram melhores que todos os métodos avaliados. Especificamente, quando comparado com o segundo o melhor método, os ganhos em termos de CP foram de 6,05%, 25,86%, 32,90% e 0,16% para as características, respectivamente, AP, DH, CR e AR. Já em termos de RMSE, o PMCR apresentou resultados inferiores e desejáveis em 10,81%, 15,00%, 13,62% e 20,41% para as características AP, DH, CR e AR, respectivamente, quando comparado com as redes sem regularização. Quando a comparação é entre todas as metodologias comparativas, o GBLUP obteve o menor valor de RMSE para todas características avaliadas. Palavras-chave: Capacidade Preditiva. Machine Learning. Predição Genômica.
  • Imagem de Miniatura
    Item
    Modelagem estatística híbrida multidimensional utilizando geoestatística e aprendizagem de máquina
    (Universidade Federal de Viçosa, 2023-09-01) Pires, Jandresson Dias; Santos, Gerson Rodrigues dos; http://lattes.cnpq.br/9820750667158994
    A Modelagem Estatística Multidimensional é uma abordagem que busca representar, graficamente, dados de um determinado domínio de aplicação e fornece mecanismos interativos para a interpretação e compreensão das informações apresentadas. Nesta tese, a aplicação dessa abordagem, foi explorada em diferentes contextos, demonstrando sua eficácia na representação de informações multidimensionais. O objetivo foi a elaboração de modelos multidimensionais dos atributos físicos ou químicos do solo, bem como a predição das propriedades dos maciços rochosos, com base em técnicas de Estatística, Geoestatística e Inteligência Geográfica. Os dados utilizados foram provenientes de furos de sondagem em uma mina em Minas Gerais, Brasil, e de amostras de solo e inventário de castanhais nativos no estado do Amazonas, Brasil. Para alcançar esse objetivo, foram empregados mecanismos de aprendizado de máquina e técnicas de visualização, reconhecendo que, nenhuma técnica isolada, oferece o melhor desempenho para todas as tarefas de representação de dados multidimensionais. Portanto, uma estratégia interessante adotada foi analisar várias representações simultaneamente, mantendo uma conexão semântica entre elas, permitindo que, as ações realizadas em uma técnica, sejam refletidas, automaticamente, nas demais. Os resultados obtidos demonstraram a aplicabilidade e confiabilidade dos modelos desenvolvidos, tanto na visualização e interatividade do usuário com os resultados, quanto na qualidade das informações em si. Além disso, ressalta-se que a abordagem proposta neste trabalho pode ser aplicada em outras áreas e contextos geológico-geomecânicos, contribuindo para uma melhor compreensão e tomada de decisão, em diversos campos da engenharia e ciências ambientais. Em suma, esta tese oferece uma contribuição significativa para a Modelagem Estatística Multidimensional, mostrando sua utilidade na representação de dados complexos, como atributos do solo e propriedades geomecânicas dos maciços rochosos. Os resultados obtidos proporcionam insights valiosos para a comunidade científica e para os profissionais envolvidos no estudo e análise desses domínios, promovendo avanços no entendimento e gerenciamento de questões ambientais e geotécnicas. Palavras-chave: Inteligência Geográfica. Krigagem. Ciência de Dados.
  • Imagem de Miniatura
    Item
    Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica
    (Universidade Federal de Viçosa, 2023-07-18) Begnami, Vinicius Silva; Azevedo, Camila Ferreira; http://lattes.cnpq.br/3707637931879411
    Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD𝜋, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD𝜋 quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.
  • Imagem de Miniatura
    Item
    Tamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica ampla
    (Universidade Federal de Viçosa, 2023-06-15) Oliveira, Gabriela França; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/9895689990102944
    Estudos de associação genômica (Genome-Wide Association Studies - GWAS) são aqueles que buscam identificar marcadores significativos que podem estar relacionadas às características de interesse nos programas de melhoramento. O Modelo Linear Geral (General Linear Model - GLM) é um dos principais procedimentos de avaliação de associações significativas entre marcadores e QTLs (Quantitative Trait Locus). A estimação dos efeitos dos marcadores por meio do GLM é baseada em médias condicionais. No entanto, esta estimação pode ser inadequada quando os erros não seguem distribuição normal e/ou não possuem variâncias homogêneas. Uma metodologia alternativa e que recentemente vem sendo explorada em estudos de associação genômica é a Regressão Quantílica (RQ), a qual possibilita a estimação do efeito dos marcadores ao longo de toda distribuição dos valores fenotípicos. A RQ já foi avaliada com sucesso em estudos de GWAS em um conjunto de dados reais que apresentava um número reduzido de indivíduos. Porém, a performance da técnica para diferentes tamanhos populacionais ainda não foi estudada. Diante do exposto, o objetivo deste estudo, foi avaliar a performance da RQ em estudos de GWAS quanto à capacidade de detectar QTLs associados as características fenotípicas de interesse, considerando diferentes tamanhos populacionais. Para isso, foram utilizados dados simulados, com características de diferentes níveis de herdabilidade (ℎ 2 = 0,30 e 0,50), controlados por 3 e 100 QTLs. Foi simulada uma população de 1000 indivíduos e posteriormente foram realizadas reduções aleatórias de 100 indivíduos até atingir uma população de tamanho 200. O poder de detecção de QTLs e a taxa de falsos positivos foram obtidos por meio do GLM e também por meio da RQ considerando três quantis diferentes (𝜏 = 0,10; 0,50 e 0,90). Como resultado, observou-se que os modelos RQ, apresentaram maior poder de detecção de QTLs em todos os cenários avaliados e taxa de falsos positivos relativamente baixa em cenários com maior número de indivíduos. Os modelos de RQ nos quantis extremos (𝜏 = 0,1 e 0,90) foram aqueles que obtiveram maior poder de detecção de QTLs verdadeiros. Em contrapartida, a análise baseada no GLM detectou poucos (cenários com maior tamanho populacional) ou nenhum QTL nos cenários avaliados. Nos cenários com baixa herdabilidade, o RQ obteve um alto poder de detecção. Dessa forma, verificou-se que a utilização da RQ em GWAS é eficaz, permitindo a detecção de QTLs associados a características de interesse, mesmo em cenários com poucos indivíduos genotipados e fenotipados. Palavras-chave: GWAS. Melhoramento genético. Modelo Linear Geral. Simulação. Quantis condicionais.
  • Imagem de Miniatura
    Item
    Testes F e de normalidade avaliados sob diferentes condições experimentais
    (Universidade Federal de Viçosa, 2023-02-17) Ribeiro Neto, Homero; Santos, Nerilson Terra; http://lattes.cnpq.br/1186796802413495
    A pressuposição de normalidade dos erros experimentais é uma das exigências que se impõe para a aplicação de importantes procedimentos inferenciais, como o teste F da Análise de Variância (ANOVA), muito empregada em diversos campos científicos, como as Ciências Agrárias. Nesse sentido, resultados importantes e conhecidos da Estatística, como o Teorema Central do Limite, não impõem, teoricamente, muitas dificuldades para se obter, a partir de praticamente qualquer variável aleatória não normal, uma nova variável aleatória, que seja normal, com a finalidade de não violar essa pressuposição. No entanto, por questões de ordem prática, nem sempre é possível obter um número de repetições por tratamento suficientemente elevado para que o Teorema supracitado seja aplicado. Assim, algumas das alternativas mais empregadas são os testes de normalidade, para, com quantidades limitadas de observações amostrais, inferir a respeito da normalidade dos dados. Porém, as efetividades desses testes, assim como de outros testes de hipóteses, em termos de poder (probabilidade de rejeitar uma hipótese nula falsa) e nível de significância (probabilidade de rejeitar uma hipótese nula verdadeira cometendo o erro tipo I), são influenciadas pelas condições experimentais. Por isso, este trabalho foi realizado com o objetivo de comparar o desempenho dos testes de normalidade mais comuns em condições de igualdade (desigualdade) das médias dos tratamentos, homogeneidade (heterogeneidade) de suas variâncias residuais, número de repetições de cada um e simetria (assimetria) das distribuições de probabilidades dos erros experimentais. Foi possível também analisar o desempenho do próprio teste F, inclusive quando a pressuposição de normalidade foi violada. De maneira geral, foi possível concluir, ao realizar simulações, que o poder empírico dos testes de normalidade tende a cair quando a distribuição empírica dos erros experimentais é simétrica e o número total de observações é muito baixo, e que as taxas de erro tipo I, tanto dos testes de normalidade, quanto do teste F, tendem a aumentar quando as variâncias residuais dos tratamentos são heterogêneas. Palavras-chave: Testes de Hipóteses. Nível de Significância. Erro Tipo I. Erro tipo II. Análise de Variância (ANOVA). Delineamento Inteiramente Casualizado (DIC). Distribuição Normal. Erros Experimentais.
  • Imagem de Miniatura
    Item
    Associação genômica via regiões cromossômicas sob a abordagem bayesiana
    (Universidade Federal de Viçosa, 2023-02-16) Rossinol, Aline Marçal; Azevedo, Camila Ferreira; http://lattes.cnpq.br/5027877150927165
    Com os avanços na biotecnologia se tornou possível novas descobertas na área da biologia molecular, o que favorece cada vez mais os estudos de associação genômica ampla (Genome Wide Association Studies - GWAS). A GWAS utiliza marcadores moleculares, principalmente, os SNPs (Single Nucleotide Polymorphism), tendo como objetivo identificar as variantes causais no genoma e investigar as regiões do cromossomo em que estas variantes se encontram. Um dos principais métodos estatísticos em GWAS é o método via regressão em marcas únicas, que visa estudar a associação entre o fenótipo e um único marcador. No entanto, esse método apresenta problemas estatísticos, como, por exemplo, necessidade de grandes amostras e alta taxa de falsos positivos. Atualmente, os métodos utilizando grupos de marcadores vêm ganhando cada vez mais destaque, devido ao fato de que, os marcadores moleculares podem estar em alto desequilíbrio de ligação (Linkage Disequilibrium – LD) entre si e, com isso, influenciar conjuntamente o fenótipo. Um desses métodos é o Mapeamento de Herdabilidade Regional (Regional Heritability Mapping - RHM). Atualmente, os estudos de associação sob abordagem Bayesianas e utilizando grupos de marcadores, ou regiões genômicas, vêm ganhando cada vez mais destaque. Isto ocorre devido ao fato de que nesses métodos é possível estimar simultaneamente os efeitos dos marcadores ao invés de um único marcador, o que reduz a taxa de falsos positivos. A literatura ainda não apresenta nenhuma proposta sobre o método de RHM sob uma abordagem bayesiana e também sobre a estimação simultânea dos efeitos das regiões em um único modelo. Desta forma, no capítulo 1 desta dissertação é realizada uma revisão de literatura sobre as metodologias estatísticas utilizadas. O capítulo 2 visa comparar a eficiência de se estimar o efeito de todas as regiões genômicas simultaneamente através de um modelo bayesiano em relação ao procedimento de se estimar o efeito de cada região por vez através de dados simulados e depois para elucidar a utilização deste modelo nos programas de melhoramento, as estimações usando uma única região e todas as regiões simultaneamente também foram performadas em dados reais de arroz Oryza sativa. Esse estudo utilizou dados simulados através do pacote AlphaSimR e dados de arroz provenientes do Rice Diversity Project. O tamanho das regiões foi determinado como sendo a distância na qual o LD é metade do seu valor máximo e, para verificar se as regiões eram associadas as características fenotípicas, foi utilizada a Probabilidade a Posteriori da Associação da Janela (Window Posterior Probability of Association - WPPA). Para os dados simulados, a eficiência da estimação simultânea dos efeitos das regiões genômicas utilizando a estimação bayesiana, apresentou resultados superiores. Nos dados de arroz, a estimação simultânea detectou uma quantidade superior de regiões já relatadas na literatura em detrimento a estimação única, além de apresentar novas regiões genômicas que podem ser estudadas em analises pós-GWAS. Essa é uma metodologia que apresenta potencial para aplicação, descoberta e investigação de novas regiões genômicas associadas a características fenotípicas. Palavras-chave: Mapeamento de Herdabilidade Regional. Poder de detecção. Probabilidade a posteriori