Organic carbon modeling in tropical soils of Brazil through proximal and remote sensing
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidade Federal de Viçosa
Abstract
Soil organic carbon (SOC) is vital for both food security and climate regulation, playing a crucial role in the carbon biogeochemical cycle and maintaining soil fertility and agricultural production. Therefore, this thesis aims to improve the estimates and understanding of SOC levels using proximal and remote sensing methods. The central hypothesis posits that in tropical soils, the accuracy of SOC prediction using soil spectral libraries (SSL) in the visible (Vis: 350 – 700 nm), near-infrared (NIR: 700 – 1000 nm), and short-wave infrared (SWIR: 1000 – 2500 nm) ranges can be enhanced by incorporating environmental variables and radar vegetation indices into the modeling, focusing on the transparency and generalization of machine learning (ML) models. The study is structured into three scientific articles. The first article investigates improving the generalization error and transparency of regression models using soil reflectance as covariables. It tests whether the LASSO (least absolute shrinkage and selection operator) method can produce more transparent models than PLS (partial least squares) and highlights the importance of considering the vertical spatial structure of SOC in soil profiles to avoid overfitting. For this purpose, SSLs containing 701 soil layer samples (from 127 profiles) from the Brazilian biomes Atlantic Forest and Caatinga, in the Vis- NIR-SWIR and mid-infrared ranges, are used. Models adjusted with profile-oriented cross-validation show higher accuracy in tests, suggesting this methodology to avoid overfitting. Additionally, LASSO models are as accurate as PLS but more transparent, allowing direct association of the selected spectral bands with bands of electronic transitions and vibrational bonds caused by organic compounds. The second article explores the application of radar images from the Sentinel-1 satellite and their vegetation indices to predict SOC. The goal is to test whether radar vegetation indices, as proxies for vegetation biomass, can predict SOC in soil layers. For this purpose, 123 soil profiles from the Cerrado and Caatinga biomes sampled in 7 soil layers (0 – 5, 5 – 10, 10 – 15, 15 – 20, 20 – 40, 40 – 60, and 60 – 100 cm) are used. Radar vegetation indices efficiently capture the spatial variability of SOC in the topsoil layers (up to 10 cm depth) but are ineffective in predicting SOC in deeper layers (10 to 100 cm). The third article integrates soil reflectance signatures in the Vis-NIR-SWIR with radar vegetation indices and environmental descriptors to predict SOC. This approach combines various data sources (SSL, land use and cover classes, soil types, climate, elevation, and radar vegetation indices) and modeling techniques, significantly improving the accuracy and reliability of SOC estimates. In soils of the Caatinga and Atlantic Forest, SOC estimation using only SSL results in a root mean square error (RMSE) of 4.52 g kg -1 and a coefficient of determination (R2) of 0.62, while the inclusion of all covariables reduces the RMSE to 3.93 g kg-1 and increases the R2 to 0.72. This thesis demonstrates the effectiveness of combining remote and proximal sensing with advanced ML methods to improve SOC estimates, contributing to soil science and the monitoring of soil management and carbon sequestration strategies. Keywords: soil organic matter; soil healthy; diffuse reflectance; synthetic aperture radar; chemometrics; machine learning.
O carbono orgânico do solo (SOC) é essencial tanto para a segurança alimentar quanto para a regulação do clima, desempenhando um papel crucial no ciclo biogeoquímico do carbono e na manutenção da fertilidade do solo e produção agropecuária. Por isso, nesta tese buscou-se aprimorar as estimativas e compreensão de teores de SOC utilizando métodos de sensoriamento próximo e remoto. A hipótese central é que, em solos tropicais, a acurácia da predição de SOC utilizando bibliotecas espectrais de solo (SSL) nas faixas do visível (Vis: 350 – 700 nm), infravermelho próximo (NIR: 700 – 1000 nm) e infravermelho de ondas curtas (SWIR: 1000 – 2500 nm) pode ser aumentada com a inclusão de variáveis ambientais e índices de vegetação de radar na modelagem, focando na transparência e generalização dos modelos de machine learning (ML). Assim, o estudo foi estruturado em três artigos científicos. No primeiro artigo, foi investigada a melhoria do erro de generalização e da transparência de modelos de regressão usando reflectância do solo como covariáveis. Testou-se se o método LASSO (least absolute shrinkage and selection operator) poderia produzir modelos mais transparentes que o PLS (partial least squares) e a importância de considerar a estrutura espacial vertical do SOC em perfis de solo para evitar overfitting. Para isso, SSLs contendo 701 amostras de camadas de solos (pertencentes a 127 perfis) dos biomas brasileiros Mata Atlântica e Caatinga, nas faixas Vis-NIR-SWIR e infravermelho médio, foram utilizadas. Modelos ajustados com validação cruzada orientada aos perfis do solo mostraram-se mais acurados nos testes, sugerindo o uso dessa metodologia para evitar overfitting. Além disso, os modelos LASSO foram tão acurados quanto os PLS, mas mais transparentes, possibilitando associar diretamente as bandas espectrais selecionadas com bandas de transições eletrônicas e ligações vibracionais causadas por compostos orgânicos. No segundo artigo foi explorada a aplicação de imagens de radar do satélite Sentinel-1 e seus índices de vegetação para predizer SOC. O objetivo foi testar se os índices de vegetação de radar, como proxies para biomassa da vegetação, poderiam ser usados na predição de SOC em camadas do solo. Para isso, foram utilizados 123 perfis de solos do bioma Cerrado amostrados em 7 camadas (0 – 5, 5 – 10, 10 – 15, 15 – 20, 20 – 40, 40 – 60 e 60 – 100 cm). Os índices de vegetação por radar foram eficientes em capturar a variabilidade espacial do SOC nas camadas superficiais do solo (até 10 cm de profundidade), mas não foram eficazes ao predizer o SOC em camadas mais profundas (de 10 a 100 cm). No terceiro artigo, assinaturas de reflectância do solo no Vis-NIR-SWIR foram integradas aos índices de vegetação de radar e descritores ambientais para predizer o SOC. Essa abordagem combinou diversas fontes de dados (SSL, classes de uso e cobertura da terra, tipos de solo, clima, elevação e índices de vegetação de radar) e técnicas de modelagem, melhorando significativamente a acurácia e confiabilidade das estimativas de SOC. Em solos da Caatinga e Mata Atlântica, a estimativa de SOC apenas com SSL resultou em raiz do erro quadrático médio (RMSE) de 4,52 g kg-1 e coeficiente de determinação (R2) de 0,62, enquanto a inclusão de todas as covariáveis reduziu o RMSE para 3,93 g kg -1 e aumentou o R2 para 0,72. Na tese foi possível demonstrar a eficácia da combinação de sensoriamento remoto e próximo com métodos avançados de ML para melhorar as estimativas de SOC, contribuindo para a ciência do solo e monitoramento de estratégias de manejo do solo e de sequestro de carbono. Palavras-chave: matéria orgânica do solo; saúde do solo; reflectância difusa; radar de abertura sintética; quimiometria; aprendizado de máquina.
O carbono orgânico do solo (SOC) é essencial tanto para a segurança alimentar quanto para a regulação do clima, desempenhando um papel crucial no ciclo biogeoquímico do carbono e na manutenção da fertilidade do solo e produção agropecuária. Por isso, nesta tese buscou-se aprimorar as estimativas e compreensão de teores de SOC utilizando métodos de sensoriamento próximo e remoto. A hipótese central é que, em solos tropicais, a acurácia da predição de SOC utilizando bibliotecas espectrais de solo (SSL) nas faixas do visível (Vis: 350 – 700 nm), infravermelho próximo (NIR: 700 – 1000 nm) e infravermelho de ondas curtas (SWIR: 1000 – 2500 nm) pode ser aumentada com a inclusão de variáveis ambientais e índices de vegetação de radar na modelagem, focando na transparência e generalização dos modelos de machine learning (ML). Assim, o estudo foi estruturado em três artigos científicos. No primeiro artigo, foi investigada a melhoria do erro de generalização e da transparência de modelos de regressão usando reflectância do solo como covariáveis. Testou-se se o método LASSO (least absolute shrinkage and selection operator) poderia produzir modelos mais transparentes que o PLS (partial least squares) e a importância de considerar a estrutura espacial vertical do SOC em perfis de solo para evitar overfitting. Para isso, SSLs contendo 701 amostras de camadas de solos (pertencentes a 127 perfis) dos biomas brasileiros Mata Atlântica e Caatinga, nas faixas Vis-NIR-SWIR e infravermelho médio, foram utilizadas. Modelos ajustados com validação cruzada orientada aos perfis do solo mostraram-se mais acurados nos testes, sugerindo o uso dessa metodologia para evitar overfitting. Além disso, os modelos LASSO foram tão acurados quanto os PLS, mas mais transparentes, possibilitando associar diretamente as bandas espectrais selecionadas com bandas de transições eletrônicas e ligações vibracionais causadas por compostos orgânicos. No segundo artigo foi explorada a aplicação de imagens de radar do satélite Sentinel-1 e seus índices de vegetação para predizer SOC. O objetivo foi testar se os índices de vegetação de radar, como proxies para biomassa da vegetação, poderiam ser usados na predição de SOC em camadas do solo. Para isso, foram utilizados 123 perfis de solos do bioma Cerrado amostrados em 7 camadas (0 – 5, 5 – 10, 10 – 15, 15 – 20, 20 – 40, 40 – 60 e 60 – 100 cm). Os índices de vegetação por radar foram eficientes em capturar a variabilidade espacial do SOC nas camadas superficiais do solo (até 10 cm de profundidade), mas não foram eficazes ao predizer o SOC em camadas mais profundas (de 10 a 100 cm). No terceiro artigo, assinaturas de reflectância do solo no Vis-NIR-SWIR foram integradas aos índices de vegetação de radar e descritores ambientais para predizer o SOC. Essa abordagem combinou diversas fontes de dados (SSL, classes de uso e cobertura da terra, tipos de solo, clima, elevação e índices de vegetação de radar) e técnicas de modelagem, melhorando significativamente a acurácia e confiabilidade das estimativas de SOC. Em solos da Caatinga e Mata Atlântica, a estimativa de SOC apenas com SSL resultou em raiz do erro quadrático médio (RMSE) de 4,52 g kg-1 e coeficiente de determinação (R2) de 0,62, enquanto a inclusão de todas as covariáveis reduziu o RMSE para 3,93 g kg -1 e aumentou o R2 para 0,72. Na tese foi possível demonstrar a eficácia da combinação de sensoriamento remoto e próximo com métodos avançados de ML para melhorar as estimativas de SOC, contribuindo para a ciência do solo e monitoramento de estratégias de manejo do solo e de sequestro de carbono. Palavras-chave: matéria orgânica do solo; saúde do solo; reflectância difusa; radar de abertura sintética; quimiometria; aprendizado de máquina.
Description
Citation
SANTOS, Erli Pinto dos. Organic carbon modeling in tropical soils of Brazil through proximal and remote sensing. 2024. 159 f. Tese (Doutorado em Engenharia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2024.
