Segmentação semântica de lavouras de café utilizando arquitetura U-Net e imagens de satélite

Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Universidade Federal de Viçosa

Abstract

A estimativa de áreas cultivadas com café é fundamental para o planejamento estratégico da cafeicultura e elaboração de políticas públicas, o que beneficia todo o setor. Este estudo teve como objetivo segmentar lavouras de café na região das Matas de Minas, estado de Minas Gerais, Brasil. Para isto, foram selecionadas sete cenas e extraídas 54 imagens do satélite PlanetScope entre os anos de 2021 e 2024, priorizando baixa cobertura de nuvens. Utilizou-se a arquitetura U-Net para segmentação semântica de uso e cobertura do solo, com foco na identificação de lavouras de café. As imagens das cenas 2 e 7 foram utilizadas para treinamento e validação, enquanto as demais serviram para teste. A rotulagem das imagens dessas duas cenas foi feita manualmente seguindo a abordagem de rotulagem densa para quatro classes: Coffee Crops, Forest, City e Other, totalizando 1.264.844.800 pixels classificados. Para as cinco cenas independentes (1, 3, 4, 5 e 6), utilizadas no conjunto de teste, aplicou-se a mesma metodologia de rotulagem densa empregada no treinamento e validação. As imagens foram divididas em patches de 256x256 pixels e submetidas a normalização. Foram testadas diferentes combinações de bandas espectrais: (B, G, R), (B, G, NIR), (B, R, NIR) e (G, R, NIR), visando entender a influência de combinações de bandas na segmentação por classe. O modelo foi treinado por 10 épocas com early stopping e redução de taxa de aprendizado, utilizando o otimizador Adam e função de perda categorical crossentropy. A estrutura da U-Net foi adaptada para entradas de 256x256 pixels e quatro classes de saída, mantendo as conexões skip e a simetria entre os caminhos codificador e decodificador. A rede U-Net apresentou desempenho consistente na segmentação das classes definidas, com destaque para a combinação espectral (B, G, R), que obteve os melhores resultados gerais no conjunto de validação com IoU de 0,9354 e F1-score de 0,9663. No entanto, a combinação (G, R, NIR) foi a que melhor identificou a classe Coffee Crops, com IoU de 0,9260 e F1-score de 0,9616 para a classe. A análise das predições para as quatro combinações espectrais evidenciou que os principais erros ocorreram entre Coffee Crops e Other, indicando sobreposição espectral entre essas classes. O modelo final, que apresentou o melhor desempenho na classe Coffee Crops, que foi com a combinação (G, R, NIR), foi aplicado nas imagens das cenas do conjunto de teste e manteve desempenho geral consistente, com IoU de 0,8082 e F1-score de 0,8929, com resultados satisfatórios para a classe Coffee Crops, com IoU de 0,7851 e F1-score de 0,8796. As demais classes, especialmente City e Forest, apresentaram alto desempenho. Os resultados confirmam a capacidade de generalização do modelo, e também que a combinação espectral influencia diretamente na segmentação, com as combinações (B, G, R) e (G, R, NIR) destacando-se, sendo que, a presença simultânea das bandas G e R se mostraram essenciais para discriminação da classe Coffee Crops e a combinação (G, R, NIR) demonstrou ser a mais eficaz para identificar a classe. No entanto, a confusão na predição entre Coffee Crops e Other, impacta na delimitação espacial precisa das classes, resultando em valores discrepantes de F1-score e IoU. O que evidencia os desafios inerentes à segmentação exata de classes espectralmente semelhantes. Esta interpretação é crucial para compreender que o modelo mantém uma boa capacidade de identificação, mas que a precisão de seus contornos pode ser aprimorada em trabalhos futuros. Palavras-chave: Cafeicultura, Segmentação Semântica, Sensoriamento Remoto, Agricultura Digital, Combinação de bandas.
The estimation of areas cultivated with coffee is fundamental for the strategic planning of coffee farming and the development of public policies, which benefits the entire sector. This study aimed to segment coffee crops in the Matas de Minas region, in the state of Minas Gerais, Brazil. For this purpose, seven scenes were selected and 54 images were extracted from the PlanetScope satellite between 2021 and 2024, prioritizing low cloud coverage. The U-Net architecture was used for semantic segmentation of land use and land cover, focusing on coffee crop identification. Scenes 2 and 7 were used for training and validation, while the others served for testing. The labeling of the images from these two scenes was done manually following a dense labeling approach for four classes: Coffee Crops, Forest, City, and Other, totaling 1,264,844,800 classified pixels. For the five independent scenes (1, 3, 4, 5, and 6) used in the test set, the same dense labeling methodology applied in the training and validation was used. The images were divided into 256x256 pixel patches and subjected to normalization. Different combinations of spectral bands were tested: (B, G, R), (B, G, NIR), (B, R, NIR), and (G, R, NIR), aiming to understand the influence of band combinations on class segmentation. The model was trained for 10 epochs with early stopping and learning rate reduction, using the Adam optimizer and the categorical crossentropy loss function. The U-Net structure was adapted for 256x256 pixel inputs and four output classes, maintaining the skip connections and the symmetry between the encoder and decoder paths. The U-Net network showed consistent performance in segmenting the defined classes, with the (B, G, R) spectral combination standing out, as it achieved the best overall results on the validation set with an IoU of 0.9354 and an F1-score of 0.9663. However, the (G, R, NIR) combination was the most effective at identifying the Coffee Crops class, with an IoU of 0.9260 and an F1-score of 0.9616 for that class. The analysis of the predictions for the four spectral combinations showed that the main errors occurred between Coffee Crops and Other, indicating spectral overlap between these classes. The final model, which demonstrated the best performance for the Coffee Crops class using the (G, R, NIR) combination, was applied to the images from the test set and maintained consistent overall performance, with an IoU of 0.8082 and an F1-score of 0.8929, achieving satisfactory results for the Coffee Crops class with an IoU of 0.7851 and an F1-score of 0.8796. The other classes, especially City and Forest, showed high performance. The results confirm the model's generalization capability and also that the spectral combination directly influences segmentation, with the (B, G, R) and (G, R, NIR) combinations standing out. The simultaneous presence of the G and R bands proved to be essential for discriminating the Coffee Crops class, and the (G, R, NIR) combination was shown to be the most effective for identifying this class. However, the prediction confusion between Coffee Crops and Other impacts the precise spatial delimitation of the classes, resulting in discrepant F1-score and IoU values. This highlights the inherent challenges of accurately segmenting spectrally similar classes. This interpretation is crucial for understanding that while the model maintains a good identification capability, the precision of its boundaries can be improved in future work. Keywords: Coffee Crops, Semantic Segmentation, Remote Sensing, Digital Agriculture, Band Combination.

Description

Citation

LEITE, Daniel Henrique. Segmentação semântica de lavouras de café utilizando arquitetura U-Net e imagens de satélite. 2025. 54 f. Dissertação (Mestrado em Engenharia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2025.

Endorsement

Review

Supplemented By

Referenced By