Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis

dc.contributorNascimento, Ana Carolina Campana
dc.contributor.advisorNascimento, Moysés
dc.contributor.authorCosta, Noé Mitterhofer Eiterer Ponce de Leon da
dc.contributor.authorLatteshttp://lattes.cnpq.br/9184271760739064pt-BR
dc.date.accessioned2023-07-10T12:55:41Z
dc.date.available2023-07-10T12:55:41Z
dc.date.issued2023-02-16
dc.degree.date2023-02-16
dc.degree.departmentDepartamento de Estatísticapt-BR
dc.degree.grantorUniversidade Federal de Viçosapt-BR
dc.degree.levelMestradopt-BR
dc.degree.localViçosa - MGpt-BR
dc.degree.programMestre em Estatística Aplicada e Biometriapt-BR
dc.description.abstractO aumento populacional gera uma demanda para o aumento da produção agrícola, principalmente no quesito da produtividade, uma vez que quase todas as áreas agricultáveis já produzem alimentos. Dentro da demanda do aumento de produtividade, o melhoramento genético aliado a estatística é fundamental para alcançar as atuais demandas. A Estatística oferece diversos métodos para análises dos dados agropecuários, entre esses métodos estão os classificadores. Tais métodos são capazes de alocar cada observação em uma das classes de interesse. Entre os métodos disponíveis, o classificador Naive Bayes (NB) se destaca pela sua simplicidade e bom desempenho. Entretanto, o mesmo tem como pressuposição a independência entre as variáveis preditoras. Diante do fato de que tal pressuposição é dificilmente alcançada na prática, este trabalho tem por objetivo avaliar métodos híbridos na tentativa de melhorar seu desempenho considerando diferentes níveis de dependência entre variáveis. As metodologias combinadas ao NB foram à análise de componentes principais (PCA + NB), componentes esparsos (SPCA + NB) e análise discriminante (AD + NB). Foram simulados dados com diferentes níveis de correlação (0,10; 0,50 e 0,90) e diferentes vetores de médias. Todos os cenários foram avaliados considerando 2, 4, 8 e 16 variáveis. As metodologias usadas na comparação dos métodos propostos foram Random Forest, Bagging e Rede Neural Artificial através do cálculo da acurácia média e o respectivo erro padrão da média. A partir dos resultados obtidos por simulação pôde-se concluir que a pressuposição de independência é importante, uma vez que o aumento na correlação sempre resultou em redução da acurácia média dos classificadores. Os classificadores híbridos propostos no trabalho apresentaram-se como boas alternativas ao NB, uma vez que apresentaram resultados semelhantes ou superiores ao próprio NB e demais métodos avaliados quanto a acurácia média. Palavras-chave: Classificador híbrido. Metodologias combinadas. Simulação.pt-BR
dc.description.abstractPopulation growth generates a demand for increased agricultural production, especially in terms of productivity, since almost all arable areas already produce food. Within the demand for increased productivity, plant breeding combined with statistics is essential to meet current demands. Statistics offers several methods for analyzing agricultural data, among these methods are the classifiers. Such methods are capable of allocating each observation into one of the classes of interest. Among the available methods, the Naive Bayes (NB) classifier stands out for its simplicity and good performance. However, it presupposes independence between the predictor variables. Given the fact that such an assumption is difficult to achieve in practice, this work aims to evaluate hybrid methods in an attempt to improve their performance considering different levels of dependence between variables. The methodologies combined with NB were principal component analysis (PCA + NB), sparse components (SPCA + NB) and discriminant analysis (AD + NB). Data with different levels of correlation (0.10; 0.50 and 0.90) and different mean vectors were simulated. All scenarios were evaluated considering 2, 4, 8 and 16 variables. The methodologies used in the comparison of the proposed methods were Random Forest, Bagging and Artificial Neural Network through the calculation of the average accuracy and the respective standard error of the average. From the results obtained by simulation, it can be concluded that the assumption of independence is important, since the increase in correlation always resulted in a reduction in the average accuracy of the classifiers. The hybrid classifiers proposed in the work are presented as good alternatives to the NB, since they presented results similar to or superior to the NB itself and other methods evaluated in terms of average accuracy. Keywords: Hybrid classifier. Combined methodologies. Simulation.en
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt-BR
dc.identifier.citationCOSTA, Noé Mitterhofer Eiterer Ponce de Leon da. Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis. 2023. 66 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.pt-BR
dc.identifier.doihttps://doi.org/10.47328/ufvbbt.2023.275pt-BR
dc.identifier.urihttps://locus.ufv.br//handle/123456789/31192
dc.language.isoporpt-BR
dc.publisherUniversidade Federal de Viçosapt-BR
dc.publisher.programEstatística Aplicada e Biometriapt-BR
dc.rightsAcesso Abertopt-BR
dc.subjectTeoria bayesiana de decisão estatísticapt-BR
dc.subjectSimulação (Computadores híbridos)pt-BR
dc.subjectAnálise multivariadapt-BR
dc.subjectCultivos agrícolas - Melhoramento genético - Métodos estatísticospt-BR
dc.subject.cnpqMelhoramento Vegetalpt-BR
dc.titleRobustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveispt-BR
dc.titleRobustness of hybrid Naive Bayes classifiers in breaking variable independence guidelinesen
dc.typeDissertaçãopt-BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
texto completo.pdf
Tamanho:
3.47 MB
Formato:
Adobe Portable Document Format
Descrição:
texto completo

Licença do pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura Disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: