A framework for semantic and musical hyperlapses
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidade Federal de Viçosa
Abstract
With the growing prevalence of portable cameras—such as smartphones, action cameras, and smart glasses—recording first-person videos of daily activities has become increasingly common. However, these recordings often suffer from shaky footage caused by the wearer's continuous movements, making them physically uncomfortable to watch, and include repetitive or irrelevant segments that make them tedious to watch. To address these challenges, hyperlapse methods fast-forward egocentric videos while stabilizing camera motion, and semantic hyperlapse methods additionally preserve the most important segments. Although audio is an important part of watching videos, it is often overlooked in hyperlapse creation, leaving the choice of soundtrack to the user. In this dissertation, we introduce a multimodal hyperlapse algorithm that jointly optimizes semantic content retention, visual stability, and playback alignment with a user-chosen song's loudness. Specifically, the hyperlapse slows down during quiet parts of the song to highlight important frames and speeds up during louder segments to de-emphasize less critical content. We also propose strategies to select songs that best complement the hyperlapse. Our experiments show that this approach outperforms existing methods in semantic retention and loudness–speed correlation, while maintaining comparable camera stability and temporal continuity. Keywords: video summarization; semantic fast-forward; egocentric videos; hyperlapse; loudness
Com a crescente prevalência de câmeras portáteis—como smartphones, câmeras de ação e óculos inteligentes—gravar vídeos em primeira pessoa das atividades diárias tornou-se cada vez mais comum. No entanto, essas gravações frequentemente sofrem com filmagens tremidas causadas pelos movimentos contínuos do usuário, tornando-as fisicamente desconfortáveis de assistir, além de incluírem segmentos repetitivos ou irrelevantes que as tornam tediosas de acompanhar. Para lidar com esses desafios, os métodos de hyperlapse aceleram vídeos egocêntricos enquanto estabilizam o movimento da câmera, e os métodos de hyperlapse semântico preservam adicionalmente os segmentos mais importantes. Embora o áudio seja uma parte importante da experiência de assistir vídeos, ele é frequentemente negligenciado na criação de hyperlapses, deixando a escolha da trilha sonora para o usuário. Nesta dissertação, apresentamos um algoritmo multimodal de hyperlapse que otimiza conjuntamente a retenção de conteúdo semântico, a estabilidade visual e o alinhamento da reprodução com o volume de uma música escolhida pelo usuário. Especificamente, o hyperlapse desacelera durante as partes silenciosas da música para destacar quadros importantes e acelera durante os segmentos mais altos para minimizar a ênfase em conteúdos menos críticos. Além disso, propomos estratégias para selecionar músicas que melhor complementem o hyperlapse. Nossos experimentos mostram que essa abordagem supera os métodos existentes em retenção semântica e na correlação entre intensidade sonora e velocidade, enquanto mantém níveis comparáveis de estabilidade de câmera e continuidade temporal. Palavras-chave: resumo de vídeo; aceleração semântica; vídeos egocêntricos; hyperlapse; intensidade sonora
Com a crescente prevalência de câmeras portáteis—como smartphones, câmeras de ação e óculos inteligentes—gravar vídeos em primeira pessoa das atividades diárias tornou-se cada vez mais comum. No entanto, essas gravações frequentemente sofrem com filmagens tremidas causadas pelos movimentos contínuos do usuário, tornando-as fisicamente desconfortáveis de assistir, além de incluírem segmentos repetitivos ou irrelevantes que as tornam tediosas de acompanhar. Para lidar com esses desafios, os métodos de hyperlapse aceleram vídeos egocêntricos enquanto estabilizam o movimento da câmera, e os métodos de hyperlapse semântico preservam adicionalmente os segmentos mais importantes. Embora o áudio seja uma parte importante da experiência de assistir vídeos, ele é frequentemente negligenciado na criação de hyperlapses, deixando a escolha da trilha sonora para o usuário. Nesta dissertação, apresentamos um algoritmo multimodal de hyperlapse que otimiza conjuntamente a retenção de conteúdo semântico, a estabilidade visual e o alinhamento da reprodução com o volume de uma música escolhida pelo usuário. Especificamente, o hyperlapse desacelera durante as partes silenciosas da música para destacar quadros importantes e acelera durante os segmentos mais altos para minimizar a ênfase em conteúdos menos críticos. Além disso, propomos estratégias para selecionar músicas que melhor complementem o hyperlapse. Nossos experimentos mostram que essa abordagem supera os métodos existentes em retenção semântica e na correlação entre intensidade sonora e velocidade, enquanto mantém níveis comparáveis de estabilidade de câmera e continuidade temporal. Palavras-chave: resumo de vídeo; aceleração semântica; vídeos egocêntricos; hyperlapse; intensidade sonora
Description
Citation
NEPOMUCENO, Raphael Carmo Silva. A framework for semantic and musical hyperlapses. 2025. 68 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2025.
