Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
47 resultados
Resultados da Pesquisa
Item Modelagem estatística híbrida multidimensional utilizando geoestatística e aprendizagem de máquina(Universidade Federal de Viçosa, 2023-09-01) Pires, Jandresson Dias; Santos, Gerson Rodrigues dos; http://lattes.cnpq.br/9820750667158994A Modelagem Estatística Multidimensional é uma abordagem que busca representar, graficamente, dados de um determinado domínio de aplicação e fornece mecanismos interativos para a interpretação e compreensão das informações apresentadas. Nesta tese, a aplicação dessa abordagem, foi explorada em diferentes contextos, demonstrando sua eficácia na representação de informações multidimensionais. O objetivo foi a elaboração de modelos multidimensionais dos atributos físicos ou químicos do solo, bem como a predição das propriedades dos maciços rochosos, com base em técnicas de Estatística, Geoestatística e Inteligência Geográfica. Os dados utilizados foram provenientes de furos de sondagem em uma mina em Minas Gerais, Brasil, e de amostras de solo e inventário de castanhais nativos no estado do Amazonas, Brasil. Para alcançar esse objetivo, foram empregados mecanismos de aprendizado de máquina e técnicas de visualização, reconhecendo que, nenhuma técnica isolada, oferece o melhor desempenho para todas as tarefas de representação de dados multidimensionais. Portanto, uma estratégia interessante adotada foi analisar várias representações simultaneamente, mantendo uma conexão semântica entre elas, permitindo que, as ações realizadas em uma técnica, sejam refletidas, automaticamente, nas demais. Os resultados obtidos demonstraram a aplicabilidade e confiabilidade dos modelos desenvolvidos, tanto na visualização e interatividade do usuário com os resultados, quanto na qualidade das informações em si. Além disso, ressalta-se que a abordagem proposta neste trabalho pode ser aplicada em outras áreas e contextos geológico-geomecânicos, contribuindo para uma melhor compreensão e tomada de decisão, em diversos campos da engenharia e ciências ambientais. Em suma, esta tese oferece uma contribuição significativa para a Modelagem Estatística Multidimensional, mostrando sua utilidade na representação de dados complexos, como atributos do solo e propriedades geomecânicas dos maciços rochosos. Os resultados obtidos proporcionam insights valiosos para a comunidade científica e para os profissionais envolvidos no estudo e análise desses domínios, promovendo avanços no entendimento e gerenciamento de questões ambientais e geotécnicas. Palavras-chave: Inteligência Geográfica. Krigagem. Ciência de Dados.Item PGV equitativa – planta genérica de valores com princípios de equidade imobiliária utilizando geoestatística e aprendizagem de máquina(Universidade Federal de Viçosa, 2023-07-07) Torres Filho, Hudson Costa; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/0567790591976852Muitos municípios brasileiros tiveram seu crescimento econômico acentuado nos últimos anos, promovendo, consequentemente, transações imobiliárias sem padronização, com alta especulação e praticamente sem qualquer fonte de informações de equilíbrio tributário. Por outro lado, apesar dos cadastros imobiliários estarem em funcionamento, suas informações e de mercado estão muitas vezes desatualizadas e/ou com insuficiência para a formulação de qualquer modelo estatístico que garanta a confiabilidade da determinação dos valores. Os municípios de pequeno porte (até 30 mil habitantes), em sua grande maioria, enfrentam grandes dificuldades também no processo de avaliação em massa de imóveis, principalmente na atualização da Planta Genérica de Valores - PGV, importante instrumento do Código Tributário Municipal - CTM. Entre outros problemas, esses municípios apresentam pouca infraestrutura para utilização de métodos estatísticos padronizados e aplicação dos mesmos. Assim, a solução mais eficiente seria a utilização de um conjunto metodológico cuja aplicação do princípio da equidade imobiliária evidenciasse a busca pela justiça tributária na arrecadação de tributos municipais, mais especificamente o Imposto Predial Urbano (IPTU). Dessa forma, a partir de um cadastro imobiliário urbano completamente atualizado, objetiva-se propor a criação de uma PGV com princípios científicos de equidade imobiliária. Para tanto, a NBR 14.653 de 2019 foi adotada, além da Geoestatística, Aprendizagem de Máquina e Geoprocessamento. Palavras-Chave: Planta de valores, IPTU, Cadastro imobiliário, Avaliação em Massa.Item Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica(Universidade Federal de Viçosa, 2023-07-18) Begnami, Vinicius Silva; Azevedo, Camila Ferreira; http://lattes.cnpq.br/3707637931879411Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD𝜋, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD𝜋 quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.Item Tamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica ampla(Universidade Federal de Viçosa, 2023-06-15) Oliveira, Gabriela França; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/9895689990102944Estudos de associação genômica (Genome-Wide Association Studies - GWAS) são aqueles que buscam identificar marcadores significativos que podem estar relacionadas às características de interesse nos programas de melhoramento. O Modelo Linear Geral (General Linear Model - GLM) é um dos principais procedimentos de avaliação de associações significativas entre marcadores e QTLs (Quantitative Trait Locus). A estimação dos efeitos dos marcadores por meio do GLM é baseada em médias condicionais. No entanto, esta estimação pode ser inadequada quando os erros não seguem distribuição normal e/ou não possuem variâncias homogêneas. Uma metodologia alternativa e que recentemente vem sendo explorada em estudos de associação genômica é a Regressão Quantílica (RQ), a qual possibilita a estimação do efeito dos marcadores ao longo de toda distribuição dos valores fenotípicos. A RQ já foi avaliada com sucesso em estudos de GWAS em um conjunto de dados reais que apresentava um número reduzido de indivíduos. Porém, a performance da técnica para diferentes tamanhos populacionais ainda não foi estudada. Diante do exposto, o objetivo deste estudo, foi avaliar a performance da RQ em estudos de GWAS quanto à capacidade de detectar QTLs associados as características fenotípicas de interesse, considerando diferentes tamanhos populacionais. Para isso, foram utilizados dados simulados, com características de diferentes níveis de herdabilidade (ℎ 2 = 0,30 e 0,50), controlados por 3 e 100 QTLs. Foi simulada uma população de 1000 indivíduos e posteriormente foram realizadas reduções aleatórias de 100 indivíduos até atingir uma população de tamanho 200. O poder de detecção de QTLs e a taxa de falsos positivos foram obtidos por meio do GLM e também por meio da RQ considerando três quantis diferentes (𝜏 = 0,10; 0,50 e 0,90). Como resultado, observou-se que os modelos RQ, apresentaram maior poder de detecção de QTLs em todos os cenários avaliados e taxa de falsos positivos relativamente baixa em cenários com maior número de indivíduos. Os modelos de RQ nos quantis extremos (𝜏 = 0,1 e 0,90) foram aqueles que obtiveram maior poder de detecção de QTLs verdadeiros. Em contrapartida, a análise baseada no GLM detectou poucos (cenários com maior tamanho populacional) ou nenhum QTL nos cenários avaliados. Nos cenários com baixa herdabilidade, o RQ obteve um alto poder de detecção. Dessa forma, verificou-se que a utilização da RQ em GWAS é eficaz, permitindo a detecção de QTLs associados a características de interesse, mesmo em cenários com poucos indivíduos genotipados e fenotipados. Palavras-chave: GWAS. Melhoramento genético. Modelo Linear Geral. Simulação. Quantis condicionais.Item Análise de componentes principais e análise de fatores em acessos de Capsicum annuum L. no estudo de variabilidade genética(Universidade Federal de Viçosa, 2023-08-30) Santos, Raquel Cordeiro; Cecon, Paulo Roberto; http://lattes.cnpq.br/8324411827990437As pimenteiras pertencem a família Solanácea e ao gênero Capsicum, a qual representa grande variabilidade de plantas. As pimentas são consumidas em todo o mundo e em razão de seus diversos usos e demanda de mercado é necessário buscar opções de maior qualidade e produtividade, o que pode ser feito pela escolha de genótipos superiores. O objetivo dessa pesquisa foi estudar a variabilidade genética de acessos de pimenta (C. annuum) por meio de técnicas de análise de componentes principais e análise de fatores. Utilizando o delineamento experimental inteiramente casualizado, com quatro repetições foram analisados nove acessos de Capsicum annuum L., são eles: Pimenta Vulcão, Pimenta Cayene, Pimenta Peter, Pimenta Picante para vaso, Pimenta Jamaica Yellow, Pimenta Doce Italiana, Pimentão Quadrado, Pimentão Cascadura Ikeda e Pimentão Rubi Gigante. As características avaliadas foram: peso total do fruto (PT, g), comprimento do fruto (COM, mm), largura do fruto (LAR, mm), espessura do pericarpo (ESP, mm), número de sementes por fruto (NS), massa da matéria total do fruto fresca (MF, g), Massa da matéria total do fruto maduro seco (MS, g), Teor de sólidos solúveis (BRIX), Teor de Vitamina C (VIT, mg100g −1 ). Foi aplicada a técnica de análise multivariada denominada de componentes principais (ACP), que permitiu reduzir a dimensão da amostra, pela qual foram retidos dois componentes que juntos explicaram mais de 90% da variabilidade contida nos dados. A análise de divergência genética entre os acessos foi realizada por meio da técnica de análise multivariada denominada de análise de fatores (AF), seguido da rotação Varimax, levando a identificação de três grupos geneticamente divergentes o que permite abordagens mais direcionadas para otimizar as características-chave relacionadas ao mercado de pimentas. Palavras-chave: Análise multivariada. Variabilidade genética. Pimenta.Item Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis(Universidade Federal de Viçosa, 2023-02-16) Costa, Noé Mitterhofer Eiterer Ponce de Leon da; Nascimento, Moysés; http://lattes.cnpq.br/9184271760739064O aumento populacional gera uma demanda para o aumento da produção agrícola, principalmente no quesito da produtividade, uma vez que quase todas as áreas agricultáveis já produzem alimentos. Dentro da demanda do aumento de produtividade, o melhoramento genético aliado a estatística é fundamental para alcançar as atuais demandas. A Estatística oferece diversos métodos para análises dos dados agropecuários, entre esses métodos estão os classificadores. Tais métodos são capazes de alocar cada observação em uma das classes de interesse. Entre os métodos disponíveis, o classificador Naive Bayes (NB) se destaca pela sua simplicidade e bom desempenho. Entretanto, o mesmo tem como pressuposição a independência entre as variáveis preditoras. Diante do fato de que tal pressuposição é dificilmente alcançada na prática, este trabalho tem por objetivo avaliar métodos híbridos na tentativa de melhorar seu desempenho considerando diferentes níveis de dependência entre variáveis. As metodologias combinadas ao NB foram à análise de componentes principais (PCA + NB), componentes esparsos (SPCA + NB) e análise discriminante (AD + NB). Foram simulados dados com diferentes níveis de correlação (0,10; 0,50 e 0,90) e diferentes vetores de médias. Todos os cenários foram avaliados considerando 2, 4, 8 e 16 variáveis. As metodologias usadas na comparação dos métodos propostos foram Random Forest, Bagging e Rede Neural Artificial através do cálculo da acurácia média e o respectivo erro padrão da média. A partir dos resultados obtidos por simulação pôde-se concluir que a pressuposição de independência é importante, uma vez que o aumento na correlação sempre resultou em redução da acurácia média dos classificadores. Os classificadores híbridos propostos no trabalho apresentaram-se como boas alternativas ao NB, uma vez que apresentaram resultados semelhantes ou superiores ao próprio NB e demais métodos avaliados quanto a acurácia média. Palavras-chave: Classificador híbrido. Metodologias combinadas. Simulação.Item Testes F e de normalidade avaliados sob diferentes condições experimentais(Universidade Federal de Viçosa, 2023-02-17) Ribeiro Neto, Homero; Santos, Nerilson Terra; http://lattes.cnpq.br/1186796802413495A pressuposição de normalidade dos erros experimentais é uma das exigências que se impõe para a aplicação de importantes procedimentos inferenciais, como o teste F da Análise de Variância (ANOVA), muito empregada em diversos campos científicos, como as Ciências Agrárias. Nesse sentido, resultados importantes e conhecidos da Estatística, como o Teorema Central do Limite, não impõem, teoricamente, muitas dificuldades para se obter, a partir de praticamente qualquer variável aleatória não normal, uma nova variável aleatória, que seja normal, com a finalidade de não violar essa pressuposição. No entanto, por questões de ordem prática, nem sempre é possível obter um número de repetições por tratamento suficientemente elevado para que o Teorema supracitado seja aplicado. Assim, algumas das alternativas mais empregadas são os testes de normalidade, para, com quantidades limitadas de observações amostrais, inferir a respeito da normalidade dos dados. Porém, as efetividades desses testes, assim como de outros testes de hipóteses, em termos de poder (probabilidade de rejeitar uma hipótese nula falsa) e nível de significância (probabilidade de rejeitar uma hipótese nula verdadeira cometendo o erro tipo I), são influenciadas pelas condições experimentais. Por isso, este trabalho foi realizado com o objetivo de comparar o desempenho dos testes de normalidade mais comuns em condições de igualdade (desigualdade) das médias dos tratamentos, homogeneidade (heterogeneidade) de suas variâncias residuais, número de repetições de cada um e simetria (assimetria) das distribuições de probabilidades dos erros experimentais. Foi possível também analisar o desempenho do próprio teste F, inclusive quando a pressuposição de normalidade foi violada. De maneira geral, foi possível concluir, ao realizar simulações, que o poder empírico dos testes de normalidade tende a cair quando a distribuição empírica dos erros experimentais é simétrica e o número total de observações é muito baixo, e que as taxas de erro tipo I, tanto dos testes de normalidade, quanto do teste F, tendem a aumentar quando as variâncias residuais dos tratamentos são heterogêneas. Palavras-chave: Testes de Hipóteses. Nível de Significância. Erro Tipo I. Erro tipo II. Análise de Variância (ANOVA). Delineamento Inteiramente Casualizado (DIC). Distribuição Normal. Erros Experimentais.Item Associação genômica via regiões cromossômicas sob a abordagem bayesiana(Universidade Federal de Viçosa, 2023-02-16) Rossinol, Aline Marçal; Azevedo, Camila Ferreira; http://lattes.cnpq.br/5027877150927165Com os avanços na biotecnologia se tornou possível novas descobertas na área da biologia molecular, o que favorece cada vez mais os estudos de associação genômica ampla (Genome Wide Association Studies - GWAS). A GWAS utiliza marcadores moleculares, principalmente, os SNPs (Single Nucleotide Polymorphism), tendo como objetivo identificar as variantes causais no genoma e investigar as regiões do cromossomo em que estas variantes se encontram. Um dos principais métodos estatísticos em GWAS é o método via regressão em marcas únicas, que visa estudar a associação entre o fenótipo e um único marcador. No entanto, esse método apresenta problemas estatísticos, como, por exemplo, necessidade de grandes amostras e alta taxa de falsos positivos. Atualmente, os métodos utilizando grupos de marcadores vêm ganhando cada vez mais destaque, devido ao fato de que, os marcadores moleculares podem estar em alto desequilíbrio de ligação (Linkage Disequilibrium – LD) entre si e, com isso, influenciar conjuntamente o fenótipo. Um desses métodos é o Mapeamento de Herdabilidade Regional (Regional Heritability Mapping - RHM). Atualmente, os estudos de associação sob abordagem Bayesianas e utilizando grupos de marcadores, ou regiões genômicas, vêm ganhando cada vez mais destaque. Isto ocorre devido ao fato de que nesses métodos é possível estimar simultaneamente os efeitos dos marcadores ao invés de um único marcador, o que reduz a taxa de falsos positivos. A literatura ainda não apresenta nenhuma proposta sobre o método de RHM sob uma abordagem bayesiana e também sobre a estimação simultânea dos efeitos das regiões em um único modelo. Desta forma, no capítulo 1 desta dissertação é realizada uma revisão de literatura sobre as metodologias estatísticas utilizadas. O capítulo 2 visa comparar a eficiência de se estimar o efeito de todas as regiões genômicas simultaneamente através de um modelo bayesiano em relação ao procedimento de se estimar o efeito de cada região por vez através de dados simulados e depois para elucidar a utilização deste modelo nos programas de melhoramento, as estimações usando uma única região e todas as regiões simultaneamente também foram performadas em dados reais de arroz Oryza sativa. Esse estudo utilizou dados simulados através do pacote AlphaSimR e dados de arroz provenientes do Rice Diversity Project. O tamanho das regiões foi determinado como sendo a distância na qual o LD é metade do seu valor máximo e, para verificar se as regiões eram associadas as características fenotípicas, foi utilizada a Probabilidade a Posteriori da Associação da Janela (Window Posterior Probability of Association - WPPA). Para os dados simulados, a eficiência da estimação simultânea dos efeitos das regiões genômicas utilizando a estimação bayesiana, apresentou resultados superiores. Nos dados de arroz, a estimação simultânea detectou uma quantidade superior de regiões já relatadas na literatura em detrimento a estimação única, além de apresentar novas regiões genômicas que podem ser estudadas em analises pós-GWAS. Essa é uma metodologia que apresenta potencial para aplicação, descoberta e investigação de novas regiões genômicas associadas a características fenotípicas. Palavras-chave: Mapeamento de Herdabilidade Regional. Poder de detecção. Probabilidade a posterioriItem Modelo de regressão aleatória utilizando o software R(Universidade Federal de Viçosa, 2022-12-13) Carlos, Giuvaney Martins; Silva, Carlos Henrique Osório; http://lattes.cnpq.br/3885773652788162Neste presente trabalho buscou-se implementar a análise do modelo de regressão aleatória (MRA) no software R, utilizando o pacote sommer (COVARRUBIAS-PAZARAN, 2016). Os modelos de regressão aleatória MRA são implementados em dados longitudinais, ou seja, medidas repetidas ao longo do tempo. Henderson Junior (1982) propôs essa metodologia para estimar parâmetros e predizer valores genéticos utilizando-se um modelo misto adicionando coeficientes de regressão aleatório na análise, de onde vem o termo modelo de regressão aleatória. Para encontrar esses coeficientes de regressão é necessário uma função contínua, a qual tem-se destacado o polinômio de Legendre. Então o que se faz é estimar um polinômio que explique a variação da característica em função do tempo. Diante do exposto, foi gerado um conjunto de dados para cinco indivíduos contendo nesse conjunto, o indivíduo, o sexo, os pais e o peso. O objetivo foi estimar os parâmetros para os efeitos fixos (sexo) e predizer os valores genéticos. Inicialmente a análise desse conjunto foi realizada utilizando-se um modelo misto utilizando as funções básicas do R. Em seguida foi acrescentado a esse conjunto de dados mais variações de pesos ao longo do tempo para cada indivíduo, obtendo os dados longitudinais e, consequentemente, tornando possível a análise do MRA. Realizou-se a análise do MRA utilizando-se o pacote sommer do R e suas respectivas funções, mmer e leg. O polinômio de Legendre escolhido para a análise foi o de ordem um devido ao conjunto de valores de peso variar linearmente. O MRA pode ser implementado por meio do pacote sommer do R. Palavras-chave: Modelo misto. Dados longitudinais. Sommer. Polinômios de Legendre.Item Análise de fatores para redução de dimensionalidade em estudos de predição genômica(Universidade Federal de Viçosa, 2022-12-12) Oliveira, Cristiano Ferreira; Cruz, Cosme DamiãoO conceito de seleção genômica tem como base o desequilíbrio de ligação (LD) entre locos de características quantitativas (QTLs) e marcadores. Uma variação genética que se relaciona com a forma que o fenótipo é expresso conduz a múltiplas associações estatísticas em marcadores próximos em termos de ligação fatorial ou de desequilíbrio, podendo estas associações ser ou não de causa e efeito. Assim ao construir modelos preditivos, em geral não é conhecido quais SNPs possuem de fato associação de causa e efeito com o fenótipo de interesse, consequentemente o modelo é construído utilizando todas as informações genotípicas. Com o intuito de aumentar a acurácia dos modelos de predição, diferentes abordagens de seleção de marcadores foram propostas. São estratégias utilizadas para isto selecionar SNPs relatados anteriormente em estudos de associação para a característica de interesse, estimar a significância dos SNPs no conjunto de dados para cada característica utilizando um modelo preditivo e o efeito dos marcadores estimados pelo modelo, ou a seleção subconjuntos dos marcadores uniformemente espaçados ao longo do genoma. Dentre as abordagens citadas anteriormente, a seleção uniformemente espaçada ao longo do genoma é a mais versátil, uma vez que um painel de baixa densidade formado por meio dela pode ser utilizado em estudos de predição de valores genéticos de qualquer característica, diferentemente das outras abordagens citadas. Porém esta seleção está sujeita a possibilidade de excluir por completo blocos de haplótipos em LD relacionados com o fenótipo de interesse. Este trabalho foi desenvolvido com o objetivo de propor uma abordagem de seleção de marcadores espaçados dentro de blocos de haplótipos construídos utilizando Análise de Fatores (AF). Mostramos, utilizando dados simulados que a Análise de Fatores pode ser utilizada para construir os blocos de haplótipos, sendo ela capaz de sintetizar a relação linear entre marcadores e criar fatores comuns que podem ser interpretados como blocos de LD. Em seguida utilizamos em um conjunto de dados de soja, contendo 41985 marcadores do tipo SNPs com informação de 20087 acessos de soja, esta abordagem para construir os blocos e então foi feito a seleção espaçada dentro dos blocos formados a partir da AF. Três painéis de SNPs foram considerados, contendo 1%, 5% e 100% dos marcadores. Para avaliar o êxito desta abordagem, foi considerado a acurácia em uma tarefa de predição do valor fenotípico dos indivíduos utilizando os painéis reduzidos e o painel completo. Os resultados mostram que ao utilizar os painéis reduzidos não há diferença significativa de acurácia seletiva comparado a acurácia obtida utilizando o painel completo e para uma das características avaliadas também não foi encontrada diferença significativa para acurácia preditiva. Palavras-chave: SNP. GWS. Seleção de Marcadores. Análise Fatorial. Soja. Aprendizado de Máquina. Blocos de Haplótipos.