Rastreamento de trajetória para robôs agrícolas via aprendizado por reforço em ambientes simulados com modelos de incertezas

Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Universidade Federal de Viçosa

Abstract

A adoção de tecnologias de robótica na agricultura tem se intensificado nas últimas décadas, impulsionada por avanços em navegação de alta precisão, automação de tarefas e integração de sensores inteligentes. Plataformas robóticas têm se mostrado promissoras em diferentes atividades, como aplicação de defensivos agrícolas, controle de plantas daninhas, colheita, plantio, monitoramento de pragas e doenças, e automação de processos de fenotipagem. A consolidação dessas tecnologias depende de sistemas de orientação robustos, capazes de operar de forma confiável diante de falhas sensoriais, variações de relevo e irregularidades no cultivo. No contexto de deslocamento robótico, o problema de seguimento de trajetória (path tracking) consiste em guiar uma plataforma robótica ao longo de uma rota previamente definida, minimizando desvios laterais e angulares. Métodos tradicionais de controle, como Pure Pursuit, Stanley, MPC e PID, ainda são amplamente empregados, mas podem apresentar fragilidades em ambientes sujeitos a incertezas. Em contrapartida, algoritmos de Aprendizado por Reforço (Reinforcement Learning – RL) vêm surgindo como alternativas promissoras, por permitirem que agentes aprendam políticas de navegação adaptativas. Entre os algoritmos de aprendizado por reforço utilizados, destaca-se o Double Deep Q- Network (DDQN), que vêm sendo aplicado com sucesso nos últimos anos em diferentes tarefas relacionadas ao deslocamento robótico. Apesar de avanços reportados no emprego do DDQN no problema de path tracking, a literatura carece de avaliações sistemáticas e quantitativas sobre a capacidade desses modelos de aprendizado por reforço lidarem com falhas sensoriais críticas. Paralelamente, a aplicação de RL na robótica agrícola enfrenta um desafio metodológico relevante: a escassez de ambientes de simulação padronizados, realistas e reutilizáveis. Diante desse contexto, este estudo teve dois objetivos principais: (i) propor um framework de simulação paramétrico, desenvolvido em ROS2 e Gazebo, capaz de gerar áreas agrícolas virtuais com diferentes características e modelar incertezas de sensores e atuadores; e (ii) realizar uma avaliação comparativa entre o controlador Pure Pursuit e um agente DDQN no problema de path tracking, considerando tanto condições de navegação precisa quanto falhas bruscas no sinal GNSS. Para isso, uma plataforma robótica com rotação diferencial foi modelada e equipada com sensores GNSS, LiDAR e IMU no sistema ROS2/Gazebo. Os experimentos abrangeram três áreas distintas geradas com o framework desenvolvido, totalizando 12 combinações experimentais. As áreas geradas demonstraram conformidade com os parâmetros configurados, tanto em termos de dimensões geométricas quanto na inserção dos ruídos controlados. Os resultados evidenciam que o framework proposto se apresentou como uma solução eficiente, ágil e flexível para a criação de ambientes virtuais destinados ao treinamento e à validação de modelos de controle autônomo em sistemas robóticos agrícolas. Nas áreas avaliadas, sob condições nominais (navegação de alta precisão), ambos os controladores concluíram todas as trajetórias de forma precisa, sem colisões. Sob falhas críticas do GNSS, o DDQN obteve valores inferiores de erro absoluto máximo em todas as áreas, destacando-se na prevenção de desvios extremos, obtendo um maior percentual das áreas deslocadas sem a presença de colisões, além de apresentar menor variabilidade e maior estabilidade em comparação ao Pure Pursuit. Os resultados indicam que o DDQN é capaz de desenvolver políticas de controle mais adaptativas e resilientes frente a incertezas severas, em contraste com a resposta mais rígida e reativa do controlador geométrico. Palavras-chave: robótica agrícola; algoritmo de navegação; falhas sensoriais; inteligência artificial; máquinas agrícolas
The adoption of robotic technologies in agriculture has intensified in recent decades, driven by advances in high-precision navigation, task automation, and the integration of intelligent sensors. Robotic platforms have shown great potential in a wide range of agricultural applications, including pesticide spraying, weed control, harvesting, planting, pest and disease monitoring, and the automation of phenotyping processes. The consolidation of these technologies relies on robust guidance systems capable of operating reliably under sensor failures, terrain variations, and crop irregularities. In the context of robotic navigation, the path tracking problem consists of guiding a robotic platform along a predefined route while minimizing lateral and angular deviations. Traditional control methods such as Pure Pursuit, Stanley, Model Predictive Control (MPC), and Proportional-Integral-Derivative (PID) controllers remain widely used, but may exhibit limitations in uncertain and dynamic environments. In contrast, Reinforcement Learning (RL) algorithms have emerged as promising alternatives, enabling agents to learn adaptive navigation policies through interaction with the environment. Among RL approaches, the Double Deep Q- Network (DDQN) has gained attention in recent years due to its successful application in various robotic navigation tasks. Despite these advances, systematic and quantitative evaluations of RL models under critical sensor failures remain scarce in the literature. Moreover, the application of RL in agricultural robotics faces a methodological challenge stemming from the lack of standardized, realistic, and reusable simulation environments. In this context, the present study had two main objectives: (i) to propose a parametric simulation framework, developed in ROS2 and Gazebo, capable of generating virtual agricultural fields with varying characteristics and modeling sensor and actuator uncertainties; and (ii) to conduct a comparative evaluation between the Pure Pursuit controller and a DDQN agent in the path tracking problem, considering both nominal navigation conditions and abrupt GNSS signal failures. To this end, a differential-drive robotic platform was modeled and equipped with GNSS, LiDAR, and IMU sensors within the ROS2/Gazebo environment. The experiments involved three distinct virtual fields generated using the proposed framework, totaling 12 experimental combinations. The generated fields exhibited compliance with the configured parameters, both in terms of geometric dimensions and in the insertion of controlled noise. The results demonstrate that the proposed framework constitutes an efficient, agile, and flexible solution for the creation of virtual environments aimed at training and validating autonomous control models in agricultural robotics. Under nominal conditions (high-precision navigation), both controllers successfully completed all trajectories without collisions. However, under critical GNSS failures, the DDQN consistently achieved lower maximum absolute error values across all fields, outperforming Pure Pursuit in preventing extreme deviations. Furthermore, the DDQN achieved a higher percentage of collision-free coverage, while also exhibiting lower variability and greater stability compared to the Pure Pursuit controller. These findings indicate that the DDQN is capable of developing more adaptive and resilient control policies under severe uncertainties, in contrast to the more rigid and reactive behavior of the geometric controller. Keywords: agricultural robotics; navigation algorithm; sensor failures; artificial intelligence; agricultural machinery

Description

Citation

PEREIRA, Neuller Alves. Rastreamento de trajetória para robôs agrícolas via aprendizado por reforço em ambientes simulados com modelos de incertezas. 2025. 53 f. Dissertação (Mestrado em Engenharia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2025.

Endorsement

Review

Supplemented By

Referenced By