Estatística Aplicada e Biometria
URI permanente para esta coleçãohttps://locus.ufv.br/handle/123456789/195
Navegar
179 resultados
Resultados da Pesquisa
Item Estimativa da lucratividade no processo de produção de leite por meio da regressão de dados em painel(Universidade Federal de Viçosa, 2024-07-31) Sediyama, Jaqueline Akemi Suzuki; Ribeiro Júnior, José Ivo; http://lattes.cnpq.br/6051260154847913Um importante desafio do produtor de leite no Brasil é a pequena margem de lucro, já que os produtores não conseguem definir o preço de venda do leite e estão sujeitos a custos de produção cada vez maiores. Desta forma, esta tese teve como objeto de interesse a lucratividade, por meio do retorno sobre ativos. O objetivo foi determinar um modelo de regressão com dados em painel mais adequado para estimar a lucratividade, avaliada em diferentes anos, para diferentes fazendas produtoras de leite do estado de Minas Gerais. Foram estimados modelos de regressão com dados em painel sem estratificação e estratificados por tamanho da fazenda e por mesorregião. O modelo de regressão com dados em painel que melhor se ajustou aos dados, com e sem estratificação, foi o modelo de efeitos fixos. Foi possível observar que, as duas estratificações não aumentaram, consideravelmente, o grau de explicação do modelo ajustado. Além disso, não houve homogeneidade das variâncias residuais. Estes resultados ratificam a heterogeneidade dos produtores de leite e que o modelo sem estratificação pode ser adequado às fazendas produtoras de leite, independentemente do tamanho e da mesorregião. De acordo com o ajuste do modelo de regressão com dados em painel de efeitos fixos, para que um produtor melhore a sua lucratividade, às vezes, será necessária uma mudança estrutural, uma vez que apenas a melhoria de algumas variáveis não será suficiente para que a sua fazenda se torne lucrativa. Palavras-chave: Dados longitudinais; Pecuária de leite; Retorno sobre ativos.Item Decision tree e geoestatística na redução do número de análises de micronutrientes do solo(Universidade Federal de Viçosa, 2024-02-23) Batista, Luciano Gonçalves; Santos, Nerilson Terra; http://lattes.cnpq.br/4291726476430377Para realizar a interpolação por krigagem, é importante que cada ponto num semivariograma seja obtido com base no mínimo da combinação de 30 pares de pontos. Além disso, alguns autores alegam que é necessário ter pelo menos 100 amostras para fazer a interpolação. Sendo assim, o processo de amostragem se torna caro para o produtor rural. Como alternativa de contornar este problema de amostragem, foi utilizado metodologias de machine learning. O objetivo principal deste trabalho é avaliar o uso da metodologia de decision tree na redução do adensamento amostral para atributos do solo visando a realização da krigagem ordinária com tamanho amostral reduzido. Para isso, foi realizado 50 amostragem pelo algoritmo Latin Hypercube Sampling (LHS), com malhas contendo 82, 112 e 127 pontos amostrados e os valores faltantes foram preditos com decision tree, até completar 150 pontos e logo em seguida foi realizado a krigagem ordinária para as malhas 𝑀𝑅127, 𝑀𝑅112 e 𝑀𝑅82 , que foi gerado pela combinação das 50 predições por decision tree e avaliados os valores da Raiz Quadrada do Erro Médio (RMSE) e Média do Erro Absoluto (MAE), denominados RMSE_Krig e MAE_Krig. Foi percebido que há uma redução nestas estatísticas ao passo que aumentamos a redução amostral. A redução das estatísticas de validação indica que à medida que aumentamos a quantidade de amostras preditas com decision tree, há uma melhoria no modelo de krigagem ordinária. Ao fazer o mapa de atributos para as malhas reduzidas, é percebido que o padrão de concentração de nutrientes dos solos nas malhas reduzidas segue semelhante ao padrão original, ou seja, regiões com maiores concentrações ainda mantêm níveis elevados, enquanto aquelas com menores concentrações continuam a apresentar índices reduzidos. Ao fazer o mapa de atributos das malhas reduzidas é percebido que o padrão de concentração de micronutrientes dos solos nas malhas reduzidas segue semelhante ao padrão original, ou seja, zonas com maiores concentrações ainda continuam com concentrações elevadas e regiões com menores concentrações continuam com concentrações menores. Com isso, a decision tree, se mostrou eficiente em preservar o padrão de distribuição dos micronutrientes. Palavras-chave: Adensamento amostral; Aprendizado estatístico; Krigagem ordinária.Item Otimização do mapeamento de micronutrientes do solo com base em macronutrientes e técnicas de aprendizado estatístico(Universidade Federal de Viçosa, 2024-02-22) Oliveira, Samantha Gouvêa; Santos, Nerilson Terra; http://lattes.cnpq.br/1414362412644484O constante crescimento da população mundial acarreta diretamente no setor agronô- mico, resultando em um aumento na demanda por produção de alimentos, além de gerar preocupações relacionadas a limitações de áreas de cultivo e escassez de mão de obra. Surgem então a agricultura de precisão e a agricultura digital, que são res- ponsáveis por processar um grande volume de informações com o objetivo de promo- ver retorno econômico, vantagem competitiva para o produtor e minimizar os efeitos ao meio ambiente. Nota-se, portanto, a necessidade intrínseca de lidar de forma mais eficiente com os recursos e a variabilidade dos atributos do solo. Um dos ferramentais utilizados para a descrição da variabilidade espacial e mapeamento de atributos é conhecido como geoestatística. Contudo, um dos grandes desafios do método está relacionado com um número mínimo de amostras para realizar as interpolações, o que pode aumentar consideravelmente os gastos e necessidade de mão de obra para um projeto, pois a amostragem envolve a coleta e análise de atributos de todos os pontos previamente estipulados. Com o intuito de contornar a problemática relacionada a amostragem de dados em campo, este trabalho tem como objetivo reduzir o número de amostras analisadas quimicamente para micronutrientes ao predizer suas concen- trações com base nos macronutrientes, utilizando uma combinação de krigagem e métodos de machine learning (KNN). A área experimental é referente a uma parcela da fazenda “Sozinha” localizada em Goianápolis. As 150 amostras foram recolhidas nas profundidades de 0 a 0,2 𝑚, sendo cada uma composta por dez subamostras co- letadas a uma distância de até 5 𝑚 do ponto. Posteriormente foram realizadas análises físicas e químicas para quantificar os atributos presentes. Em seguida foram selecio- nadas grades modificadas (através dos métodos de amostragem aleatória simples (𝐴𝐴𝑆) e Conditioned Latin Hypercube Sampling (𝑐𝐿𝐻𝑆)) com redução de 15, 25 e 35% dos pontos originais, os quais resultaram em conjuntos de treinamento para o KNN. Posteriormente, o algoritmo KNN foi utilizado para predizer esses 23, 38 e 53 pontos amostrados e esses valores preditos foram então substituídos no conjunto de dados original. A seguir os mapas interpolados por malha e tipo de amostragem de cada um dos métodos empregados (krigagem ordinária (OK) e da diferença entre a OK e a krigagem ordinária combinada com KNN) foram obtidos. Todo o processo, desde a amostragem até as interpolações por krigagem, foi repetido por 50 vezes. Para com- parar as interpolações da krigagem ordinária no banco de dados original e nas grades modificadas foi analisada a razão entre a média da raiz quadrada do erro quadrático médio (𝑅𝑀𝑆𝐸) e do erro absoluto médio (𝑀𝐴𝐸) de ambas amostragens e o 𝑅𝑀𝑆𝐸 e 𝑀𝐴𝐸 da krigagem dos dados originais. A amostragem 𝑐𝐿𝐻𝑆 se mostrou melhor em manter as características espaciais do solo (com perda da variabilidade espacial) para os atributos estudados frente a todas as reduções de dimensionalidade quando com- parada a 𝐴𝐴𝑆. Sugere-se para trabalhos futuros, que sejam estudadas novas meto- dologias de machine learning combinadas à krigagem ordinária, além de tipos de amostragem diferentes como forma a avaliar seu comportamento frente a redução do adensamento amostral. Palavras-chave: Redução do adensamento amostral; Krigagem; KNN, Random Forest.Item Redes neurais regularizadas na predição de características agronômicas de soja(Universidade Federal de Viçosa, 2024-04-03) Costa, Noé Mitterhofer Eiterer Ponce de Leon da; Nascimento, Moysés; http://lattes.cnpq.br/9184271760739064Um dos métodos de aprendizado de máquina utilizado atualmente na Seleção Genômica (SG) são as Redes Neurais Artificiais (RNAs) e, dentre estas, a Rede Perceptron de Múltiplas Camadas (PMC). O PMC destaca-se na solução de problemas de classificação ou regressão pelo fato de não exigir um modelo funcional, nem de atender pressuposições e não requerer conhecimento a priori sobre o fenômeno em estudo. No entanto, um problema comum nas PMC é o overfitting, que se trata de um superajustamento da rede aos dados de treinamento. Nestes casos, o modelo não possui capacidade de generalização fazendo que ele seja menos eficaz nas predições em um novo conjunto de dados ou no conjunto de teste. Para contornar este problema, algumas alternativas são as regularizações L1 e L2, que se baseiam nas regressões em penalizações similares aos métodos Lasso e Ridge, respectivamente. O objetivo deste estudo foi avaliar a eficiência do uso da regularização em modelos de PMC aplicados na predição genômica. Além disso, os resultados obtidos foram comparados com outros utilizados em predição genômica, tais como o Perceptron de Múltiplas Camadas (PMC), Árvore de Decisão (AD), Random Forest (RF), Bagging (BAG), Boosting (BOO) e Genomic Best Linear Unbiased Prediction (GBLUP). Os dados são provenientes de 100 genótipos de soja, em um experimento conduzido de setembro a novembro de 2021, no delineamento em blocos ao acaso com três repetições, em que cada parcela foi constituída de uma planta cultivada em um vaso dentro de uma casa de vegetação. Foram avaliadas as características diâmetro de hipocótilo (DH, em milímetros), altura de planta (AP, em centímetros), comprimento total de raiz (CR, em centímetros) e área superficial projetada de raiz (AR, em centímetros quadrados). Na avaliação do PMC regularizado (PMCR), foram utilizados as medidas de capacidade preditiva (CP) e raiz do erro quadrático médio (RMSE) para comparação dos métodos. Em geral, o PMC com regularização L2 melhorou o desempenho em comparação com métodos avaliados em termos de CP e RMSE. Os valores de CP obtidos pelas redes regularizadas L2 foram melhores que todos os métodos avaliados. Especificamente, quando comparado com o segundo o melhor método, os ganhos em termos de CP foram de 6,05%, 25,86%, 32,90% e 0,16% para as características, respectivamente, AP, DH, CR e AR. Já em termos de RMSE, o PMCR apresentou resultados inferiores e desejáveis em 10,81%, 15,00%, 13,62% e 20,41% para as características AP, DH, CR e AR, respectivamente, quando comparado com as redes sem regularização. Quando a comparação é entre todas as metodologias comparativas, o GBLUP obteve o menor valor de RMSE para todas características avaliadas. Palavras-chave: Capacidade Preditiva. Machine Learning. Predição Genômica.Item Modelagem estatística híbrida multidimensional utilizando geoestatística e aprendizagem de máquina(Universidade Federal de Viçosa, 2023-09-01) Pires, Jandresson Dias; Santos, Gerson Rodrigues dos; http://lattes.cnpq.br/9820750667158994A Modelagem Estatística Multidimensional é uma abordagem que busca representar, graficamente, dados de um determinado domínio de aplicação e fornece mecanismos interativos para a interpretação e compreensão das informações apresentadas. Nesta tese, a aplicação dessa abordagem, foi explorada em diferentes contextos, demonstrando sua eficácia na representação de informações multidimensionais. O objetivo foi a elaboração de modelos multidimensionais dos atributos físicos ou químicos do solo, bem como a predição das propriedades dos maciços rochosos, com base em técnicas de Estatística, Geoestatística e Inteligência Geográfica. Os dados utilizados foram provenientes de furos de sondagem em uma mina em Minas Gerais, Brasil, e de amostras de solo e inventário de castanhais nativos no estado do Amazonas, Brasil. Para alcançar esse objetivo, foram empregados mecanismos de aprendizado de máquina e técnicas de visualização, reconhecendo que, nenhuma técnica isolada, oferece o melhor desempenho para todas as tarefas de representação de dados multidimensionais. Portanto, uma estratégia interessante adotada foi analisar várias representações simultaneamente, mantendo uma conexão semântica entre elas, permitindo que, as ações realizadas em uma técnica, sejam refletidas, automaticamente, nas demais. Os resultados obtidos demonstraram a aplicabilidade e confiabilidade dos modelos desenvolvidos, tanto na visualização e interatividade do usuário com os resultados, quanto na qualidade das informações em si. Além disso, ressalta-se que a abordagem proposta neste trabalho pode ser aplicada em outras áreas e contextos geológico-geomecânicos, contribuindo para uma melhor compreensão e tomada de decisão, em diversos campos da engenharia e ciências ambientais. Em suma, esta tese oferece uma contribuição significativa para a Modelagem Estatística Multidimensional, mostrando sua utilidade na representação de dados complexos, como atributos do solo e propriedades geomecânicas dos maciços rochosos. Os resultados obtidos proporcionam insights valiosos para a comunidade científica e para os profissionais envolvidos no estudo e análise desses domínios, promovendo avanços no entendimento e gerenciamento de questões ambientais e geotécnicas. Palavras-chave: Inteligência Geográfica. Krigagem. Ciência de Dados.Item PGV equitativa – planta genérica de valores com princípios de equidade imobiliária utilizando geoestatística e aprendizagem de máquina(Universidade Federal de Viçosa, 2023-07-07) Torres Filho, Hudson Costa; Santos, Gérson Rodrigues dos; http://lattes.cnpq.br/0567790591976852Muitos municípios brasileiros tiveram seu crescimento econômico acentuado nos últimos anos, promovendo, consequentemente, transações imobiliárias sem padronização, com alta especulação e praticamente sem qualquer fonte de informações de equilíbrio tributário. Por outro lado, apesar dos cadastros imobiliários estarem em funcionamento, suas informações e de mercado estão muitas vezes desatualizadas e/ou com insuficiência para a formulação de qualquer modelo estatístico que garanta a confiabilidade da determinação dos valores. Os municípios de pequeno porte (até 30 mil habitantes), em sua grande maioria, enfrentam grandes dificuldades também no processo de avaliação em massa de imóveis, principalmente na atualização da Planta Genérica de Valores - PGV, importante instrumento do Código Tributário Municipal - CTM. Entre outros problemas, esses municípios apresentam pouca infraestrutura para utilização de métodos estatísticos padronizados e aplicação dos mesmos. Assim, a solução mais eficiente seria a utilização de um conjunto metodológico cuja aplicação do princípio da equidade imobiliária evidenciasse a busca pela justiça tributária na arrecadação de tributos municipais, mais especificamente o Imposto Predial Urbano (IPTU). Dessa forma, a partir de um cadastro imobiliário urbano completamente atualizado, objetiva-se propor a criação de uma PGV com princípios científicos de equidade imobiliária. Para tanto, a NBR 14.653 de 2019 foi adotada, além da Geoestatística, Aprendizagem de Máquina e Geoprocessamento. Palavras-Chave: Planta de valores, IPTU, Cadastro imobiliário, Avaliação em Massa.Item Seleção de marcadores utilizando probabilidade a posteriori de inclusão no modelo para predição genômica(Universidade Federal de Viçosa, 2023-07-18) Begnami, Vinicius Silva; Azevedo, Camila Ferreira; http://lattes.cnpq.br/3707637931879411Com o aumento constante da população mundial, a demanda por alimentos está crescendo diariamente, embora as áreas agricultáveis estejam chegando ao seu limite territorial. Uma solução para enfrentar esse desafio é a aplicação do melhoramento genético, que ganha cada vez mais destaque devido à sua capacidade de aumentar a produtividade e melhorar a qualidade dos alimentos em uma área de cultivo limitada. Com os avanços na genética molecular, é possível obter informações genéticas diretamente do DNA por meio de marcadores moleculares, especialmente os SNP (Single Nucleotide Polimorphism), que têm sido utilizados em estudos de Seleção Genômica Ampla (GWS, Genome Wide Selection). A GWS busca estimar os valores genéticos genômicos (GEBV, Genomic Estimated Breeding Value) dos indivíduos com base em informações genotípicas. No entanto, ao ajustar o modelo de predição, a alta dimensionalidade e multicolinearidade representam desafios, uma vez que o número de marcadores é muito superior ao número de indivíduos avaliados. Como nem todos os marcadores do genoma influenciam uma característica fenotípica específica, é comum realizar uma seleção prévia desses marcadores. Neste contexto, este estudo propõe a seleção os marcadores mais relevantes para a predição genômica com base em sua probabilidade de inclusão. Para atingir esse objetivo, a dissertação foi dividida em dois capítulos. O Capítulo 1 consiste em uma revisão de literatura sobre as metodologias estatísticas que serão aplicadas no próximo capítulo. O Capítulo 2 tem como principal objetivo a seleção dos marcadores mais relevantes a partir de um conjunto de dados reais originários do arroz Oryza Sativa. Este conjunto de dados contém 413 acessos genotipados para 44.100 marcadores do tipo SNP. A seleção dos marcadores é realizada com base na probabilidade a posteriori de inclusão, com cálculos apoiados na matriz de efeitos dos marcadores moleculares, estimados por meio do método BayesDπ, e no número total de iterações salvas. Após a seleção dos marcadores mais relevantes, eles são agrupados em conjuntos de 2.000, 4.000, 6.000, ..., até 36.901, de acordo com sua importância. Em seguida, cada grupo tem seu efeito estimado pelo método BayesA, e a capacidade preditiva do modelo de predição é calculada. Essa métrica é comparada com a capacidade preditiva dos modelos de predição ajustados pelos métodos bayesianos BayesA e BayesD𝜋, quando aplicados separadamente e sem a prévia seleção dos marcadores. Os resultados obtidos indicam que a seleção de marcadores mais relevantes para a predição genômica se mostra eficaz, com alta capacidade preditiva em comparação aos métodos BayesA e BayesD𝜋 quando usados isoladamente e sem a prévia seleção. Além disso, a probabilidade a posteriori de inclusão também demonstrou ser eficaz na compreensão da arquitetura genética da característica em estudo. Assim, a seleção de marcadores contribui para a redução da alta dimensionalidade, o aumento da capacidade preditiva do modelo de predição genômica e a redução do esforço computacional, abordando problemas recorrentes na seleção genômica. Palavras-chave: Marcadores Moleculares. Arroz. Seleção Genômica. Genética. Melhoramento Genético.Item Tamanho populacional na detecção de QTL utilizando regressão quantílica em estudos de associação genômica ampla(Universidade Federal de Viçosa, 2023-06-15) Oliveira, Gabriela França; Nascimento, Ana Carolina Campana; http://lattes.cnpq.br/9895689990102944Estudos de associação genômica (Genome-Wide Association Studies - GWAS) são aqueles que buscam identificar marcadores significativos que podem estar relacionadas às características de interesse nos programas de melhoramento. O Modelo Linear Geral (General Linear Model - GLM) é um dos principais procedimentos de avaliação de associações significativas entre marcadores e QTLs (Quantitative Trait Locus). A estimação dos efeitos dos marcadores por meio do GLM é baseada em médias condicionais. No entanto, esta estimação pode ser inadequada quando os erros não seguem distribuição normal e/ou não possuem variâncias homogêneas. Uma metodologia alternativa e que recentemente vem sendo explorada em estudos de associação genômica é a Regressão Quantílica (RQ), a qual possibilita a estimação do efeito dos marcadores ao longo de toda distribuição dos valores fenotípicos. A RQ já foi avaliada com sucesso em estudos de GWAS em um conjunto de dados reais que apresentava um número reduzido de indivíduos. Porém, a performance da técnica para diferentes tamanhos populacionais ainda não foi estudada. Diante do exposto, o objetivo deste estudo, foi avaliar a performance da RQ em estudos de GWAS quanto à capacidade de detectar QTLs associados as características fenotípicas de interesse, considerando diferentes tamanhos populacionais. Para isso, foram utilizados dados simulados, com características de diferentes níveis de herdabilidade (ℎ 2 = 0,30 e 0,50), controlados por 3 e 100 QTLs. Foi simulada uma população de 1000 indivíduos e posteriormente foram realizadas reduções aleatórias de 100 indivíduos até atingir uma população de tamanho 200. O poder de detecção de QTLs e a taxa de falsos positivos foram obtidos por meio do GLM e também por meio da RQ considerando três quantis diferentes (𝜏 = 0,10; 0,50 e 0,90). Como resultado, observou-se que os modelos RQ, apresentaram maior poder de detecção de QTLs em todos os cenários avaliados e taxa de falsos positivos relativamente baixa em cenários com maior número de indivíduos. Os modelos de RQ nos quantis extremos (𝜏 = 0,1 e 0,90) foram aqueles que obtiveram maior poder de detecção de QTLs verdadeiros. Em contrapartida, a análise baseada no GLM detectou poucos (cenários com maior tamanho populacional) ou nenhum QTL nos cenários avaliados. Nos cenários com baixa herdabilidade, o RQ obteve um alto poder de detecção. Dessa forma, verificou-se que a utilização da RQ em GWAS é eficaz, permitindo a detecção de QTLs associados a características de interesse, mesmo em cenários com poucos indivíduos genotipados e fenotipados. Palavras-chave: GWAS. Melhoramento genético. Modelo Linear Geral. Simulação. Quantis condicionais.Item Análise de componentes principais e análise de fatores em acessos de Capsicum annuum L. no estudo de variabilidade genética(Universidade Federal de Viçosa, 2023-08-30) Santos, Raquel Cordeiro; Cecon, Paulo Roberto; http://lattes.cnpq.br/8324411827990437As pimenteiras pertencem a família Solanácea e ao gênero Capsicum, a qual representa grande variabilidade de plantas. As pimentas são consumidas em todo o mundo e em razão de seus diversos usos e demanda de mercado é necessário buscar opções de maior qualidade e produtividade, o que pode ser feito pela escolha de genótipos superiores. O objetivo dessa pesquisa foi estudar a variabilidade genética de acessos de pimenta (C. annuum) por meio de técnicas de análise de componentes principais e análise de fatores. Utilizando o delineamento experimental inteiramente casualizado, com quatro repetições foram analisados nove acessos de Capsicum annuum L., são eles: Pimenta Vulcão, Pimenta Cayene, Pimenta Peter, Pimenta Picante para vaso, Pimenta Jamaica Yellow, Pimenta Doce Italiana, Pimentão Quadrado, Pimentão Cascadura Ikeda e Pimentão Rubi Gigante. As características avaliadas foram: peso total do fruto (PT, g), comprimento do fruto (COM, mm), largura do fruto (LAR, mm), espessura do pericarpo (ESP, mm), número de sementes por fruto (NS), massa da matéria total do fruto fresca (MF, g), Massa da matéria total do fruto maduro seco (MS, g), Teor de sólidos solúveis (BRIX), Teor de Vitamina C (VIT, mg100g −1 ). Foi aplicada a técnica de análise multivariada denominada de componentes principais (ACP), que permitiu reduzir a dimensão da amostra, pela qual foram retidos dois componentes que juntos explicaram mais de 90% da variabilidade contida nos dados. A análise de divergência genética entre os acessos foi realizada por meio da técnica de análise multivariada denominada de análise de fatores (AF), seguido da rotação Varimax, levando a identificação de três grupos geneticamente divergentes o que permite abordagens mais direcionadas para otimizar as características-chave relacionadas ao mercado de pimentas. Palavras-chave: Análise multivariada. Variabilidade genética. Pimenta.Item Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis(Universidade Federal de Viçosa, 2023-02-16) Costa, Noé Mitterhofer Eiterer Ponce de Leon da; Nascimento, Moysés; http://lattes.cnpq.br/9184271760739064O aumento populacional gera uma demanda para o aumento da produção agrícola, principalmente no quesito da produtividade, uma vez que quase todas as áreas agricultáveis já produzem alimentos. Dentro da demanda do aumento de produtividade, o melhoramento genético aliado a estatística é fundamental para alcançar as atuais demandas. A Estatística oferece diversos métodos para análises dos dados agropecuários, entre esses métodos estão os classificadores. Tais métodos são capazes de alocar cada observação em uma das classes de interesse. Entre os métodos disponíveis, o classificador Naive Bayes (NB) se destaca pela sua simplicidade e bom desempenho. Entretanto, o mesmo tem como pressuposição a independência entre as variáveis preditoras. Diante do fato de que tal pressuposição é dificilmente alcançada na prática, este trabalho tem por objetivo avaliar métodos híbridos na tentativa de melhorar seu desempenho considerando diferentes níveis de dependência entre variáveis. As metodologias combinadas ao NB foram à análise de componentes principais (PCA + NB), componentes esparsos (SPCA + NB) e análise discriminante (AD + NB). Foram simulados dados com diferentes níveis de correlação (0,10; 0,50 e 0,90) e diferentes vetores de médias. Todos os cenários foram avaliados considerando 2, 4, 8 e 16 variáveis. As metodologias usadas na comparação dos métodos propostos foram Random Forest, Bagging e Rede Neural Artificial através do cálculo da acurácia média e o respectivo erro padrão da média. A partir dos resultados obtidos por simulação pôde-se concluir que a pressuposição de independência é importante, uma vez que o aumento na correlação sempre resultou em redução da acurácia média dos classificadores. Os classificadores híbridos propostos no trabalho apresentaram-se como boas alternativas ao NB, uma vez que apresentaram resultados semelhantes ou superiores ao próprio NB e demais métodos avaliados quanto a acurácia média. Palavras-chave: Classificador híbrido. Metodologias combinadas. Simulação.