Vision-based gesture classifier for UAV teleoperation
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Universidade Federal de Viçosa
Abstract
Gesture-based control emerges as a promising alternative for the teleoperation of unmanned aerial vehicles (UAVs), offering an intuitive and natural interaction paradigm. Traditional control methods, such as joysticks and pre-programmed commands, often present usability challenges, particularly in dynamic outdoor environments where rapid decision-making and hands-free operation are essential. However, real-world implementation of gesture-based UAV control systems remains challenging due to environmental variability, lighting conditions, and user-specific differences in gesture execution. This dissertation designs and implements a UAV- integrated gesture recognition system optimized for outdoor teleoperation. The proposed approach leverages computer vision and machine learning techniques to enable robust, real-time gesture classification without reliance on specialized infrastructure. Initially, a motion capture-based approach (OptiTrack) facilitates experiments in controlled environments. To enhance adaptability for outdoor settings, the system transitions to a vision-based model utilizing YOLOv8, MediaPipe Hands, and BlazePose for hand and body tracking, combined with K-Nearest Neighbors (KNN) classification. Additionally, an onboard servo-visual control module, implemented using an ESP32CAM, enables the UAV to dynamically adjust its camera orientation and maintain continuous user tracking. Experimental validation demonstrates that the proposed system achieves a gesture classification accuracy of 92.57% across 14 predefined gestures, maintaining real-time performance even in outdoor conditions. The research also explores gesture-based UAV applications in light painting, showcasing the system's versatility for both creative and operational use cases. Despite these advancements, challenges such as gesture variability, low- light conditions, and image transmission latency persist. By addressing key limitations in real-world gesture recognition, this dissertation advances human-robot interaction (HRI) and UAV teleoperation, providing a scalable and adaptable framework for autonomous aerial systems controlled via gestures. Keywords: Gesture Recognition; UAV Teleoperation; Computer Vision; Human-Robot Interaction; Real-Time Classification
O controle baseado em gestos surge como uma alternativa promissora para a teleoperação de veículos aéreos não tripulados (UAVs), oferecendo um paradigma de interação intuitivo e natural. Os métodos de controle tradicionais, como joysticks e comandos pré-programados, geralmente apresentam desafios de usabilidade, principalmente em ambientes externos dinâmicos, onde a tomada rápida de decisões e a operação com as mãos livres são essenciais. No entanto, a implementação no mundo real de sistemas de controle de UAV baseados em gestos continua sendo um desafio devido à variabilidade ambiental, às condições de iluminação e às diferenças específicas do usuário na execução de gestos. Esta dissertação projeta e implementa um sistema de reconhecimento de gestos integrado ao VANT otimizado para teleoperação externa. A abordagem proposta aproveita a visão computacional e as técnicas de aprendizado de máquina para permitir uma classificação de gestos robusta e em tempo real, sem depender de infraestrutura especializada. Inicialmente, uma abordagem baseada em captura de movimento (OptiTrack) facilita os experimentos em ambientes controlados. Para aumentar a adaptabilidade a ambientes externos, o sistema faz a transição para um modelo baseado em visão que utiliza YOLOv8, MediaPipe Hands e BlazePose para rastreamento de mãos e corpos, combinado com a classificação K-Nearest Neighbors (KNN). Além disso, um módulo de controle servo-visual integrado, implementado usando um ESP32CAM, permite que o UAV ajuste dinamicamente a orientação da câmera e mantenha o rastreamento contínuo do usuário. A validação experimental demonstra que o sistema proposto atinge uma precisão de classificação de gestos de 92,57% em 14 gestos predefinidos, mantendo o desempenho em tempo real mesmo em condições externas. A pesquisa também explora aplicações de UAV baseadas em gestos em pintura leve, demonstrando a versatilidade do sistema para casos de uso criativos e operacionais. Apesar desses avanços, persistem desafios como a variabilidade dos gestos, condições de baixa luminosidade e latência na transmissão de imagens. Ao abordar as principais limitações do reconhecimento de gestos no mundo real, esta dissertação promove a interação homem-robô (HRI) e a teleoperação de VANTs, fornecendo uma estrutura dimensionável e adaptável para sistemas aéreos autônomos controlados por gestos. Palavras-chave: Reconhecimento de gestos; Teleoperação de UAV; Visão computacional; Interação homem-robô; Classificação em tempo real
O controle baseado em gestos surge como uma alternativa promissora para a teleoperação de veículos aéreos não tripulados (UAVs), oferecendo um paradigma de interação intuitivo e natural. Os métodos de controle tradicionais, como joysticks e comandos pré-programados, geralmente apresentam desafios de usabilidade, principalmente em ambientes externos dinâmicos, onde a tomada rápida de decisões e a operação com as mãos livres são essenciais. No entanto, a implementação no mundo real de sistemas de controle de UAV baseados em gestos continua sendo um desafio devido à variabilidade ambiental, às condições de iluminação e às diferenças específicas do usuário na execução de gestos. Esta dissertação projeta e implementa um sistema de reconhecimento de gestos integrado ao VANT otimizado para teleoperação externa. A abordagem proposta aproveita a visão computacional e as técnicas de aprendizado de máquina para permitir uma classificação de gestos robusta e em tempo real, sem depender de infraestrutura especializada. Inicialmente, uma abordagem baseada em captura de movimento (OptiTrack) facilita os experimentos em ambientes controlados. Para aumentar a adaptabilidade a ambientes externos, o sistema faz a transição para um modelo baseado em visão que utiliza YOLOv8, MediaPipe Hands e BlazePose para rastreamento de mãos e corpos, combinado com a classificação K-Nearest Neighbors (KNN). Além disso, um módulo de controle servo-visual integrado, implementado usando um ESP32CAM, permite que o UAV ajuste dinamicamente a orientação da câmera e mantenha o rastreamento contínuo do usuário. A validação experimental demonstra que o sistema proposto atinge uma precisão de classificação de gestos de 92,57% em 14 gestos predefinidos, mantendo o desempenho em tempo real mesmo em condições externas. A pesquisa também explora aplicações de UAV baseadas em gestos em pintura leve, demonstrando a versatilidade do sistema para casos de uso criativos e operacionais. Apesar desses avanços, persistem desafios como a variabilidade dos gestos, condições de baixa luminosidade e latência na transmissão de imagens. Ao abordar as principais limitações do reconhecimento de gestos no mundo real, esta dissertação promove a interação homem-robô (HRI) e a teleoperação de VANTs, fornecendo uma estrutura dimensionável e adaptável para sistemas aéreos autônomos controlados por gestos. Palavras-chave: Reconhecimento de gestos; Teleoperação de UAV; Visão computacional; Interação homem-robô; Classificação em tempo real
Description
Citation
ALVES, Wérikson Frederiko de Oliveira. Vision-based gesture classifier for UAV teleoperation. 2025. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2025.
