Uso de aprendizado de máquina interpretável na avaliação da produtividade de povoamentos de eucalipto

Imagem de Miniatura

Data

2024-06-24

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Viçosa

Resumo

As ferramentas de inteligência artificial, como os algoritmos de aprendizado de máquina e as redes neurais artificiais, evoluíram rapidamente a partir de ideias baseadas nas teorias do aprendizado comportamental e cognitivo, até alcançarem os princípios do aprendizado de máquina interpretável. Técnicas post-hoc de interpretabilidade podem ser úteis para modelar a produtividade de povoamentos florestais, possibilitando compreender as relações entre as variáveis preditoras e a produção volumétrica na idade de corte. O objetivo desta tese foi aplicar e avaliar diferentes tipos de técnicas de aprendizado de máquina interpretável para predizer a produtividade média aos 7 anos (IMA7) de povoamentos de eucalipto no norte de Minas Gerais. Para tal, a tese foi estruturada em três capítulos: I) Revisão de literatura sobre aprendizado de máquina; II) Técnicas post-hoc de aprendizado de máquina para predizer a produtividade de povoamentos de eucalipto; III) Interpretabilidade de variáveis preditoras da produtividade de povoamentos de eucalipto utilizando perturbação de redes neurais artificiais. Utilizou-se uma base de dados composta por 320 talhões localizados em povoamentos de clones de híbridos de Eucalyptus urophylla x Eucalyptus grandis em Minas Gerais. Os algoritmos random forest, gradient boosting machine, árvore de decisão e redes neurais artificiais (RNA) foram treinados para generalizar a produtividade aos 7 anos em função de 304 variáveis preditoras classificadas em silviculturais, ambientais e de manejo. Técnicas de interpretabilidade pós-hoc e de perturbação de RNA foram aplicadas para identificar as variáveis com maiores importâncias relativas. As técnicas post-hoc permitiram visualizar os efeitos das variáveis de maior importância para o IMA7: altitude 9,7 m³ha⁻¹ano⁻¹ (38%), teor de argila no solo 4,9 m³ha⁻¹ano⁻¹ (19,3%), teor de matéria orgânica 2,4 m³ha⁻¹ano⁻¹ (9,5%) e dias úmidos na idade de um ano do povoamento 1,7 m³ha⁻¹ano⁻¹ (6,7%). A ampliação de bancos de dados a partir da simulação de variáveis e adição de novas variáveis gerou importâncias relativas distintas pela perturbação de RNA. Todas as técnicas de interpretabilidade de modelos de aprendizado de máquina incluíram a altitude, o teor de matéria orgânica e o teor de argila como variáveis de maior importância relativa para predizer o IMA7. Palavras-chave: Tratos silviculturais; Perturbação de redes neurais artificiais; Eucalipto-produtividade; Gradient boosting machine; Random forest; Árvore de decisão; Redes neurais artificiais.
Artificial intelligence tools, such as machine learning algorithms and artificial neural networks, have rapidly evolved from ideas based on behavioral and cognitive learning theories to the principles of interpretable machine learning. Post-hoc interpretability techniques can be useful for modeling the productivity of forest stands, enabling an understanding of the relationships between predictor variables and volumetric production at the cutting age. The objective of this thesis was to apply and evaluate different types of interpretable machine learning techniques to predict the average productivity at 7 years (IMA7) of eucalypt stands in northern Minas Gerais. To this end, the thesis was structured into three chapters: I) Literature review on machine learning; II) Post-hoc machine learning techniques to predict the productivity of eucalypt stands; III) Interpretability of predictor variables of eucalypt stands productivity using artificial neural network perturbation. A database composed of 320 plots located in hybrid Eucalyptus urophylla x Eucalyptus grandis clone stands in Minas Gerais was used. The random forest (RF), gradient boosting machine (GBM), decision tree (CART), and artificial neural network (ANN) algorithms were trained to generalize productivity at 7 years based on 304 predictor variables classified as silvicultural, environmental, and management. Post-hoc interpretability techniques and ANN perturbation were applied to identify the variables with the highest relative importance. The post-hoc techniques allowed visualizing the effects of the most important variables for IMA7: altitude 9.7 m³ha⁻¹year⁻¹ (38%), soil clay content 4.9 m³ha⁻¹year⁻¹ (19.3%), organic matter content 2.4 m³ha⁻¹year⁻¹ (9.5%), and humid days at one year of age of the stand 1.7 m³ha⁻¹year⁻¹ (6.7%). The expansion of databases through variable simulation and the addition of new variables generated distinct relative importance through ANN perturbation. All machine learning model interpretability techniques included altitude, organic matter content, and clay content as variables of greatest relative importance for predicting IMA7.Keywords: Silvicultural treatments; Perturbation of artificial neural networks; Eucalyptus-productivity; Gradient boosting machine; Random forest; Decision tree; Artificial neural networks.

Descrição

Palavras-chave

Silvicultura, Eucalipto, Redes neurais, Aprendizado de máquina

Citação

LOPES, Lucas Sérgio de Sousa. Uso de aprendizado de máquina interpretável na avaliação da produtividade de povoamentos de eucalipto. 2024. 111 f. Tese (Doutorado em Ciência Florestal) - Universidade Federal de Viçosa, Viçosa. 2024.

Avaliação

Revisão

Suplementado Por

Referenciado Por