Roque, Jussara ValenteTeófilo, Reinaldo FranciscoCardoso, Wilson Júnior2023-10-102023-10-102023-03-09CARDOSO, Wilson Júnior. Improving the accuracy of multivariate models: a study of sample dehydration and data preprocessing optimization. 2023. 93 f. Tese (Doutorado em Agroquímica) - Universidade Federal de Viçosa, Viçosa. 2023.https://locus.ufv.br//handle/123456789/31619The aim of this thesis is to study approaches to improve the accuracy of multivariate models. Two approaches were considered, one relating to sample preparation and the other related to data preprocessing. The first chapter aimed to study sample dehydration to improve the prediction of sucrose, glucose, and fructose in sugarcane juice using near-infrared (NIR) spectroscopy and partial least squares (PLS) regression models. Models using the NIR spectra acquired using the liquid (LSJ) and dehydrated sugarcane juice (DSJ) were compared. In addition, the NIR spectra were acquired using a benchtop and a portable instrument. Ordered predictors selection (OPS) was applied to select the most informative variable. The results indicated better predictions for all sugars using the DSJ for both instruments, being the benchtop statistically better than the portable instrument. To sum up, the dehydration approach showed to be a great technique to improve the predictability of PLS-OPS models for sugars in sugarcane juice using NIR spectra by removing the water and concentrating the analytes. The second chapter presented an algorithm that automatically searches for the best preprocessing strategy without fixing their order based on the artifact they fix, i.e., baseline correction, scatter correction, noise removal, and scaling. The number of preprocessing methods in each strategy and their hyperparameters were evaluated. The algorithm was compared with methods presented in the literature by Gerretzen et al. (2015) and Jiao et al. (2020). A fair, extensive, and comprehensive study was carried out, evaluating 67 different calibration datasets. This work demonstrated that not fixing the order in which the preprocessing is applied was essential to find the best models with a significant reduction in the RMSEP values when compared with the other methods, therefore presenting a comprehensive insight into data preprocessing. These results showed that a proper sample preparation and a proper optimization of the data preprocessing strategy are fundamental to build the best models. Keywords: Chemometrics. Sample Preparation. Water Removal. Data Preprocessing.O objetivo desta tese é estudar diferentes metodologias para melhorar a acurácia de modelos multivariados. Duas abordagens foram consideradas, uma relativa ao preparo de amostra e outra relacionada ao pré-processamento dos dados. O objetivo do primeiro capítulo foi estudar a desidratação como forma de melhorar a predição da concentração de sacarose, glicose e frutose no caldo de cana-de-açúcar usando espectroscopia de infravermelho próximo (NIR) e regressão por quadrados mínimos parciais (PLS). Os modelos utilizando os espectros NIR adquiridos a partir do caldo líquido (LSJ) e desidratado (DSJ) foram comparados. Além disso, os espectros NIR foram adquiridos usando um instrumento de bancada e um instrumento portátil. A seleção de preditores ordenados (OPS) foi aplicada para selecionar as variáveis mais informativas. Os resultados indicaram melhores predições para todos os açúcares utilizando o DSJ para ambos os instrumentos, sendo o de bancada estatisticamente melhor que o instrumento portátil. Em suma, a desidratação da amostra mostrou ser uma ótima técnica para melhorar a acurácia dos modelos, removendo a água e concentrando os analitos. O objetivo do segundo capítulo foi apresentar um algoritmo que busca a melhor estratégia de pré-processamento sem fixar sua ordem com base no artefato que eles corrigem, ou seja, correção de linha de base, correção de dispersão, remoção de ruído e dimensionamento. O número de métodos de pré-processamento em cada estratégia e seus hiper-parâmetros foram avaliados. O algoritmo foi comparado com métodos apresentados na literatura por Gerretzen et al. (2015) e Jiao et al. (2020). Um estudo imparcial, extenso e abrangente foi realizado neste trabalho, avaliando 67 conjuntos de dados de calibração diferentes. Este trabalho demonstrou que não fixar a ordem de aplicação do pré- processamento foi essencial para encontrar os melhores modelos com redução significativa nos valores de RMSEP quando comparados com os outros métodos, apresentando, portanto, uma visão abrangente sobre o pré-processamento de dados. Esses resultados mostraram que uma preparação adequada da amostra e uma otimização adequada da estratégia de pré- processamento de dados são fundamentais para construir os melhores modelos. Palavras-chave: Quimiometria. Preparo de Amostra. Remoção de Água. Pré-processamento de dados.engAcesso AbertoEspectroscopia de infravermelho próximoQuimiometria - Processamento de dadosAnálise multivariadaDesidrataçãoCana-de-açúcarImproving the accuracy of multivariate models: a study of sample dehydration and data preprocessing optimizationMelhorando a eficiência de modelos multivariados usando a desidratação de amostra e otimizando o pré-processamento de dadosTesehttps://doi.org/10.47328/ufvbbt.2023.297Química Analítica