Redes neurais profundas para identificação de ritmo em músicas de forró: uma abordagem exploratória rumo à inclusão de dançarinos surdos

Lopes, Hugo Gonçalves

doi:https://doi.org/10.47328/ufvbbt.2025.363

Redes neurais profundas para identificação de ritmo em músicas de forró: uma abordagem exploratória rumo à inclusão de dançarinos surdos

dc.contributor.advisor	Neves, Rodolpho Vilela Alves
dc.contributor.author	Lopes, Hugo Gonçalves
dc.contributor.authorLattes	http://lattes.cnpq.br/4288334724968075
dc.date.accessioned	2025-06-10T17:51:29Z
dc.date.issued	2025-02-20
dc.degree.date	2025-02-20
dc.degree.department	Departamento de Informática	pt-BR
dc.degree.grantor	Universidade Federal de Viçosa
dc.degree.level	Mestrado
dc.degree.local	Viçosa - MG
dc.degree.program	Mestre em Ciência da Computação
dc.description.abstract	Este trabalho investiga a aplicação de redes neurais profundas para a detecção da Duração do Passo Base (DPB) em músicas de forró, visando desenvolver um sistema de auxílio à sincronização de movimentos para dançarinos Surdos e/ou com Deficiência Auditiva (S/DA). A DPB corresponde à duração do passo de base da dança, mensurada como dois compassos da música, sendo utilizada para a coordenação rítmica entre os dançarinos e a estrutura musical. A conversão dessa informação em estímulos táteis ou visuais permitiria a inclusão de dançarinos S/DA em ambientes sociais de dança. Foram exploradas três arquiteturas de redes neurais: Perceptron Multicamadas (PMC), Densely Connected Convolutional Network (DenseNet121) e Residual Network (ResNet50), com diferentes configurações de entrada para reduzir o erro na estimação da DPB. O treinamento e a avaliação utilizaram métricas de Erro Quadrático Médio (EQM), Erro Percentual Absoluto Médio (EPAM) e correlação de Pearson, com folds estratificados por músicas para garantir generalização. Os resultados indicaram que a DenseNet121 e a Resnet50 superaram a PMC, especialmente na correlação de Pearson, com ganhos de 167,66% e 181,41%, respectivamente. Em gravações de estúdio, esses modelos alcançaram menor EPAM (inferior a 9%) e maior correlação (superior a 0,7), enquanto em ambientes ruidosos obtiveram EPAM de 10% e correlação de 0,6. As diferenças em EQM e EPAM entre os modelos foram menores (variações de 24,24% a 40,69%), a correlação das redes profundas sugere que suas previsões acompanham proporcionalmente a variação da DPB real. Conclui-se que as redes profundas são promissoras para detecção da DPB em condições controladas, porém a degradação em ambientes reais ressalta a necessidade de técnicas de pré- processamento de áudio mais robustas. Ambas as arquiteturas (DenseNet121 e ResNet50) apresentaram desempenho semelhante entre si. Palavras-chave: música de forró; inclusão de surdos; redes neurais profundas; processamento de sinais de áudio	pt-BR
dc.description.abstract	This work investigates the application of deep neural networks for the detection of Base Step Duration (BSD) in Forró music, with the aim to develop a system to aid movement synchronization for Deaf and/or Hard of Hearing (D/HH) dancers. The BSD corresponds to the duration of the base step of the dance, measured as two bars of the music, and is used for rhythmic coordination between the dancers and the musical structure. The conversion of this information into tactile or visual stimuli would allow the inclusion of D/HH dancers in social dance environments. Three neural network architectures were explored: Multilayer Perceptron (MPC), Densely Connected Convolutional Network (DenseNet121) and Residual Network (ResNet50), with different input configurations to reduce the error in the BSD estimation. Training and evaluation used Mean Squared Error (MSE), Mean Absolute Percentage Error (MAPE) and Pearson correlation metrics, with folds stratified by songs to ensure generalizability. The results indicated that DenseNet121 and Resnet50 outperformed PMC, especially in Pearson correlation, with gains of 167.66% and 181.41%, respectively. In studio recordings, these models achieved lower MSE (less than 9%) and higher correlation (greater than 0.7), while in noisy environments they obtained MSE of 10% and correlation of 0.6. The differences in MSE and MSE between the models were smaller (variations from 24.24% to 40.69%), the correlation of the deep networks suggesting that their predictions proportionally follow the variation of the true DPB. It is concluded that deep networks are promising for BSD detection under controlled conditions, but the degradation in real environments highlights the need for more robust audio preprocessing techniques. Both architectures (DenseNet121 and ResNet50) presented similar performance. Keywords: forró music; deaf inclusion; deep neural networks; audio signal processing	en
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
dc.identifier.citation	LOPES, Hugo Gonçalves. Redes neurais profundas para identificação de ritmo em músicas de forró: uma abordagem exploratória rumo à inclusão de dançarinos surdos. 2025. 55 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2025.
dc.identifier.doi	https://doi.org/10.47328/ufvbbt.2025.363
dc.identifier.uri	https://locus.ufv.br/handle/123456789/34210
dc.language.iso	por
dc.publisher	Universidade Federal de Viçosa
dc.publisher.program	Ciência da Computação	pt-BR
dc.rights	Acesso Aberto
dc.subject	Redes neurais (Computação)	pt-BR
dc.subject	Forró (Música)	pt-BR
dc.subject	Surdos	pt-BR
dc.subject	Processamento de sinais	pt-BR
dc.subject.cnpq	Ciência da Computação	pt-BR
dc.title	Redes neurais profundas para identificação de ritmo em músicas de forró: uma abordagem exploratória rumo à inclusão de dançarinos surdos	pt-BR
dc.title	Deep neural networks for rhythm identification in forró music: an exploratory approach towards the inclusion of deaf dancers	en
dc.type	Dissertação

Files

Original bundle

Now showing 1 - 1 of 1

Name:: texto completo.pdf
Size:: 2.33 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Ciência da Computação