New Features of Ordered Predictors Selection for Multivariate Regression and Classification

Imagem de Miniatura

Data

2019-08-02

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Viçosa

Resumo

New variable selection methods for multivariate regression and classification based on ordered predictors selection (OPS) were developed in this work. Initially, the new OPS strategies for regression were developed and applied to the six datasets used in the original OPS paper to compare their prediction performances. After that, twelve new datasets were used to test and compare the new OPS approaches for regression with other variable selection methods, genetic algorithm (GA), the interval successive projections algorithm for partial least squares (iSPA), and recursive weighted partial least squares (rPLS). Simulated datasets were used to evaluate the computational performance of variable selection methods, being then the new OPS approaches for regression, GA, iSPA, and rPLS. All methods were evaluated by using a central composite design varying the matrix dimensions of simulated datasets and the number of latent variables. For classification, OPS methods for feature selection in the discriminant analysis (OPSDA) were developed. OPSDA methods were applied to three datasets with different numbers of classes, and classification models were built using different classification methods. The new OPS approaches for regression outperformed the first OPS version and the other variable selection methods. Results showed that in addition to higher predictive capacity, the accuracy in the selection of expected variables is highly superior with the new OPS approaches for regression. The computational performance of OPS approaches was mainly influenced by the number columns of the data matrix, as well as the GA. On the other hand, iSPA and rPLS were mainly influenced by the number of rows. In classification, the OPSDA methods provided the best set of selected variables to build more predictive models using different classification methods. Besides, they could be applied to classification problems, independent of the number of classes. Overall, the new OPS methods provided the best set of selected variables to build more predictive and interpretative regression and classification models. The new OPS methods proved to be efficient for variable selection in different types of datasets. Keywords: Variable Selection, Multivariate Regression, Supervised Pattern Recognition.
Neste trabalho foram desenvolvidos novos métodos de seleção de variáveis para regressão multivariada e classificação baseados na seleção dos preditores ordenados (OPS). Inicialmente, novas estratégias do OPS para regressão foram desenvolvidas e aplicadas nos seis conjuntos de dados usados no artigo original do OPS. Em seguida, doze novos conjuntos de dados foram usados para testar e comparar as novas abordagens do OPS para regressão com outros métodos de seleção de variáveis, como o algoritmo genético (GA), o algoritmo de projeções sucessivas em intervalos para quadrados mínimos parciais (iSPA) e quadrados mínimos parciais ponderados recursivos (rPLS). Conjuntos de dados simulados foram usados para avaliar o desempenho computacional de métodos de seleção de variáveis, sendo eles as novas abordagens OPS para regressão, GA, iSPA e rPLS. Esta análise foi realizada usando um planejamento composto central variando as dimensões dos dados simulados e o número de variáveis latentes. Para classificação, foram desenvolvidos novos métodos OPS para análise discriminante (OPSDA). Diferentes métodos de classificação foram usados para construir modelos. Os métodos OPSDA foram aplicados em três conjuntos de dados com diferentes números de classes. As novas abordagens do OPS para regressão selecionaram variáveis que proporcionaram a construção de modelos mais preditivos que a primeira versão OPS e que os outros métodos de seleção de variáveis. Os resultados mostraram que, além de maior capacidade preditiva, a exatidão na seleção das variáveis interpretativas foi superior com os novos métodos OPS para regressão. O desempenho computacional desses métodos foi influenciado principalmente pelo número de colunas da matriz de dados, bem como para o GA. Por outro lado, o iSPA e rPLS foram influenciados principalmente pelo número de linhas. Os métodos OPSDA forneceram o melhor conjunto de variáveis selecionadas para construir modelos mais preditivos usando diferentes métodos de classificação, independentemente do número de classes. No geral, os novos métodos OPS forneceram o melhor conjunto de variáveis selecionadas para construir modelos de regressão e classificação mais preditivos e interpretativos, provando serem eficientes para seleção de variáveis em diferentes tipos de conjuntos de dados. Palavras-chave: Seleção de variáveis, Regressão multivariada, Reconhecimento de padrões supervisionado.

Descrição

Palavras-chave

Variáveis (Matemática), Sistema de reconhecimento de padrões, Calibração, Mínimos quadrados, Análise discriminatória

Citação

ROQUE, Jussara Valente. New Features of Ordered Predictors Selection for Multivariate Regression and Classification. 2019. 109 f. Tese (Doutorado em Agroquímica) - Universidade Federal de Viçosa, Viçosa. 2019.

Avaliação

Revisão

Suplementado Por

Referenciado Por