A framework for semantic and musical hyperlapses

Nepomuceno, Raphael Carmo Silva

doi:https://doi.org/10.47328/ufvbbt.2025.688

A framework for semantic and musical hyperlapses

Files

texto completo.pdf (7.47 MB)

Date

2025-01-31

Authors

Nepomuceno, Raphael Carmo Silva

Publisher

Universidade Federal de Viçosa

Abstract

With the growing prevalence of portable cameras—such as smartphones, action cameras, and smart glasses—recording first-person videos of daily activities has become increasingly common. However, these recordings often suffer from shaky footage caused by the wearer's continuous movements, making them physically uncomfortable to watch, and include repetitive or irrelevant segments that make them tedious to watch. To address these challenges, hyperlapse methods fast-forward egocentric videos while stabilizing camera motion, and semantic hyperlapse methods additionally preserve the most important segments. Although audio is an important part of watching videos, it is often overlooked in hyperlapse creation, leaving the choice of soundtrack to the user. In this dissertation, we introduce a multimodal hyperlapse algorithm that jointly optimizes semantic content retention, visual stability, and playback alignment with a user-chosen song's loudness. Specifically, the hyperlapse slows down during quiet parts of the song to highlight important frames and speeds up during louder segments to de-emphasize less critical content. We also propose strategies to select songs that best complement the hyperlapse. Our experiments show that this approach outperforms existing methods in semantic retention and loudness–speed correlation, while maintaining comparable camera stability and temporal continuity. Keywords: video summarization; semantic fast-forward; egocentric videos; hyperlapse; loudness
Com a crescente prevalência de câmeras portáteis—como smartphones, câmeras de ação e óculos inteligentes—gravar vídeos em primeira pessoa das atividades diárias tornou-se cada vez mais comum. No entanto, essas gravações frequentemente sofrem com filmagens tremidas causadas pelos movimentos contínuos do usuário, tornando-as fisicamente desconfortáveis de assistir, além de incluírem segmentos repetitivos ou irrelevantes que as tornam tediosas de acompanhar. Para lidar com esses desafios, os métodos de hyperlapse aceleram vídeos egocêntricos enquanto estabilizam o movimento da câmera, e os métodos de hyperlapse semântico preservam adicionalmente os segmentos mais importantes. Embora o áudio seja uma parte importante da experiência de assistir vídeos, ele é frequentemente negligenciado na criação de hyperlapses, deixando a escolha da trilha sonora para o usuário. Nesta dissertação, apresentamos um algoritmo multimodal de hyperlapse que otimiza conjuntamente a retenção de conteúdo semântico, a estabilidade visual e o alinhamento da reprodução com o volume de uma música escolhida pelo usuário. Especificamente, o hyperlapse desacelera durante as partes silenciosas da música para destacar quadros importantes e acelera durante os segmentos mais altos para minimizar a ênfase em conteúdos menos críticos. Além disso, propomos estratégias para selecionar músicas que melhor complementem o hyperlapse. Nossos experimentos mostram que essa abordagem supera os métodos existentes em retenção semântica e na correlação entre intensidade sonora e velocidade, enquanto mantém níveis comparáveis de estabilidade de câmera e continuidade temporal. Palavras-chave: resumo de vídeo; aceleração semântica; vídeos egocêntricos; hyperlapse; intensidade sonora

Keywords

Gravação em vídeo - Simulação por computador

Citation

NEPOMUCENO, Raphael Carmo Silva. A framework for semantic and musical hyperlapses. 2025. 68 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2025.

URI

https://locus.ufv.br/handle/123456789/34783

Collections

Ciência da Computação

Full item page

A framework for semantic and musical hyperlapses

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By