Comparação de métodos de classificação em dados de espectroscopia NIR

Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Universidade Federal de Viçosa

Abstract

A crescente demanda de biomassa para produção de energia e etanol de segunda geração tem impulsionado a seleção de cultivares de cana-de-açúcar com maiores teores de fibra e sacarose aparente. Nesse sentido, torna-se importante buscar métodos de classificação aliados a técnica de espectroscopia do infravermelho próximo (NIR) para facilitar a seleção desses indivíduos. O objetivo desse trabalho é comparar os métodos de classificação: Análise Discriminante por Quadrados Mínimos Parciais (PLS-DA), Máquinas de Vetores de Suporte (SVM) e Florestas Aleatórias (RF) para verificar qual deles apresenta um melhor desempenho para a classificação dessas propriedades a partir de dados de espectroscopia NIR. Foi utilizado um conjunto de dados NIR composto por 460 amostras para classificação de fibra (FIB) e sacarose aparente (PC). A análise foi realizada em duas etapas. Na primeira etapa o conjunto de dados foi separado em conjunto treino e conjunto teste via algoritmo Kernard-Stone para a escolha dos pré-tratamentos. Na segunda etapa foi utilizado o pré-tratamento selecionado para cada método, separando novamente o conjunto original (460 amostras) em conjunto de treino e conjunto de teste, de forma aleatória com 10 repetições. Após todos os procedimentos, os resultados obtidos na comparação dos métodos mostraram que o PLS-DA e o SVM não apresentam diferença significativa (p ≥ 0,05) e ambos diferiram do RF para a classificação das propriedades %PC e %FIB (p < 0,05). Foram avaliados os parâmetros de erro de classificação, sensibilidade e especificidade. Para todos esses parâmetros o PLS-DA e o SVM foram mais satisfatórios que o RF, pois apresentaram menores valores de erro de classificação e maiores valores para sensibilidade e especificidade podendo, assim, serem considerados métodos eficazes para classificação do dado de espectroscopia NIR utilizados nesse trabalho. Palavras-chave: Cana-de-açúcar. Máquinas de Vetor Suporte. Floresta Aleatória. Análise Discriminante por Quadrados Mínimos Parciais. Infravermelho Próximo.
The growing demand for biomass for power generation and second-generation ethanol has driven the selection of sugarcane cultivars with higher fiber and apparent sucrose levels. In this sense, it is crucial to seek classification methods combined with near-infrared spectroscopy (NIR) to facilitate the desired selection. The objective of this work is to compare the classification methods: Discriminant Analysis by Partial Least Squares (PLS-DA), Support Vector Machines (SVM), and Random Forests (RF) to see which one performs better for the classification of these properties from NIR spectroscopy data. A set of NIR data composed of 460 samples was used, classified as fiber (FIB) and apparent sucrose (PC). We performed the analysis in two stages. In the first stage, the data set was separated into training and test sets via the Kernard-Stone algorithm to choose pre-treatments. The pre-treatment selected for each method was used in the second stage, separating the original set (460 samples) again into a training set and test set, randomly with ten repetitions. After all the procedures, the results obtained in the comparison of the methods indicated that PLS-DA and SVM do not present significant differences (p ≥ 0.05) and both differed from RF for the classification of properties %PC and %FIB (p < 0.05). We evaluated the classification error, sensitivity, and specificity among these methods. PLS-DA and SVM were more satisfactory for all these parameters than RF since the former presented lower classification errors and higher values of sensitivity and specificity. Therefore, these methods can be considered useful for classifying the NIR spectroscopy data used in this work. Keywords: Sugarcane. Support Vector Machines. Random Forest. Partial Least Squares Discriminant Analysis. Near Infrared.

Description

Citation

DIAS, Cristina Silva. Comparação de métodos de classificação em dados de espectroscopia NIR. 2020. 44 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.

Endorsement

Review

Supplemented By

Referenced By