Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis
Data
2023-02-16
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Viçosa
Resumo
O aumento populacional gera uma demanda para o aumento da produção agrícola, principalmente no quesito da produtividade, uma vez que quase todas as áreas agricultáveis já produzem alimentos. Dentro da demanda do aumento de produtividade, o melhoramento genético aliado a estatística é fundamental para alcançar as atuais demandas. A Estatística oferece diversos métodos para análises dos dados agropecuários, entre esses métodos estão os classificadores. Tais métodos são capazes de alocar cada observação em uma das classes de interesse. Entre os métodos disponíveis, o classificador Naive Bayes (NB) se destaca pela sua simplicidade e bom desempenho. Entretanto, o mesmo tem como pressuposição a independência entre as variáveis preditoras. Diante do fato de que tal pressuposição é dificilmente alcançada na prática, este trabalho tem por objetivo avaliar métodos híbridos na tentativa de melhorar seu desempenho considerando diferentes níveis de dependência entre variáveis. As metodologias combinadas ao NB foram à análise de componentes principais (PCA + NB), componentes esparsos (SPCA + NB) e análise discriminante (AD + NB). Foram simulados dados com diferentes níveis de correlação (0,10; 0,50 e 0,90) e diferentes vetores de médias. Todos os cenários foram avaliados considerando 2, 4, 8 e 16 variáveis. As metodologias usadas na comparação dos métodos propostos foram Random Forest, Bagging e Rede Neural Artificial através do cálculo da acurácia média e o respectivo erro padrão da média. A partir dos resultados obtidos por simulação pôde-se concluir que a pressuposição de independência é importante, uma vez que o aumento na correlação sempre resultou em redução da acurácia média dos classificadores. Os classificadores híbridos propostos no trabalho apresentaram-se como boas alternativas ao NB, uma vez que apresentaram resultados semelhantes ou superiores ao próprio NB e demais métodos avaliados quanto a acurácia média. Palavras-chave: Classificador híbrido. Metodologias combinadas. Simulação.
Population growth generates a demand for increased agricultural production, especially in terms of productivity, since almost all arable areas already produce food. Within the demand for increased productivity, plant breeding combined with statistics is essential to meet current demands. Statistics offers several methods for analyzing agricultural data, among these methods are the classifiers. Such methods are capable of allocating each observation into one of the classes of interest. Among the available methods, the Naive Bayes (NB) classifier stands out for its simplicity and good performance. However, it presupposes independence between the predictor variables. Given the fact that such an assumption is difficult to achieve in practice, this work aims to evaluate hybrid methods in an attempt to improve their performance considering different levels of dependence between variables. The methodologies combined with NB were principal component analysis (PCA + NB), sparse components (SPCA + NB) and discriminant analysis (AD + NB). Data with different levels of correlation (0.10; 0.50 and 0.90) and different mean vectors were simulated. All scenarios were evaluated considering 2, 4, 8 and 16 variables. The methodologies used in the comparison of the proposed methods were Random Forest, Bagging and Artificial Neural Network through the calculation of the average accuracy and the respective standard error of the average. From the results obtained by simulation, it can be concluded that the assumption of independence is important, since the increase in correlation always resulted in a reduction in the average accuracy of the classifiers. The hybrid classifiers proposed in the work are presented as good alternatives to the NB, since they presented results similar to or superior to the NB itself and other methods evaluated in terms of average accuracy. Keywords: Hybrid classifier. Combined methodologies. Simulation.
Population growth generates a demand for increased agricultural production, especially in terms of productivity, since almost all arable areas already produce food. Within the demand for increased productivity, plant breeding combined with statistics is essential to meet current demands. Statistics offers several methods for analyzing agricultural data, among these methods are the classifiers. Such methods are capable of allocating each observation into one of the classes of interest. Among the available methods, the Naive Bayes (NB) classifier stands out for its simplicity and good performance. However, it presupposes independence between the predictor variables. Given the fact that such an assumption is difficult to achieve in practice, this work aims to evaluate hybrid methods in an attempt to improve their performance considering different levels of dependence between variables. The methodologies combined with NB were principal component analysis (PCA + NB), sparse components (SPCA + NB) and discriminant analysis (AD + NB). Data with different levels of correlation (0.10; 0.50 and 0.90) and different mean vectors were simulated. All scenarios were evaluated considering 2, 4, 8 and 16 variables. The methodologies used in the comparison of the proposed methods were Random Forest, Bagging and Artificial Neural Network through the calculation of the average accuracy and the respective standard error of the average. From the results obtained by simulation, it can be concluded that the assumption of independence is important, since the increase in correlation always resulted in a reduction in the average accuracy of the classifiers. The hybrid classifiers proposed in the work are presented as good alternatives to the NB, since they presented results similar to or superior to the NB itself and other methods evaluated in terms of average accuracy. Keywords: Hybrid classifier. Combined methodologies. Simulation.
Descrição
Palavras-chave
Teoria bayesiana de decisão estatística, Simulação (Computadores híbridos), Análise multivariada, Cultivos agrícolas - Melhoramento genético - Métodos estatísticos
Citação
COSTA, Noé Mitterhofer Eiterer Ponce de Leon da. Robustez de classificadores Naive Bayes híbridos quanto a quebra do pressuposto de independência das variáveis. 2023. 66 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2023.