Redes neurais profundas para identificação de ritmo em músicas de forró: uma abordagem exploratória rumo à inclusão de dançarinos surdos

dc.contributor.advisorNeves, Rodolpho Vilela Alves
dc.contributor.authorLopes, Hugo Gonçalves
dc.contributor.authorLatteshttp://lattes.cnpq.br/4288334724968075
dc.date.accessioned2025-06-10T17:51:29Z
dc.date.issued2025-02-20
dc.degree.date2025-02-20
dc.degree.departmentDepartamento de Informáticapt-BR
dc.degree.grantorUniversidade Federal de Viçosa
dc.degree.levelMestrado
dc.degree.localViçosa - MG
dc.degree.programMestre em Ciência da Computação
dc.description.abstractEste trabalho investiga a aplicação de redes neurais profundas para a detecção da Duração do Passo Base (DPB) em músicas de forró, visando desenvolver um sistema de auxílio à sincronização de movimentos para dançarinos Surdos e/ou com Deficiência Auditiva (S/DA). A DPB corresponde à duração do passo de base da dança, mensurada como dois compassos da música, sendo utilizada para a coordenação rítmica entre os dançarinos e a estrutura musical. A conversão dessa informação em estímulos táteis ou visuais permitiria a inclusão de dançarinos S/DA em ambientes sociais de dança. Foram exploradas três arquiteturas de redes neurais: Perceptron Multicamadas (PMC), Densely Connected Convolutional Network (DenseNet121) e Residual Network (ResNet50), com diferentes configurações de entrada para reduzir o erro na estimação da DPB. O treinamento e a avaliação utilizaram métricas de Erro Quadrático Médio (EQM), Erro Percentual Absoluto Médio (EPAM) e correlação de Pearson, com folds estratificados por músicas para garantir generalização. Os resultados indicaram que a DenseNet121 e a Resnet50 superaram a PMC, especialmente na correlação de Pearson, com ganhos de 167,66% e 181,41%, respectivamente. Em gravações de estúdio, esses modelos alcançaram menor EPAM (inferior a 9%) e maior correlação (superior a 0,7), enquanto em ambientes ruidosos obtiveram EPAM de 10% e correlação de 0,6. As diferenças em EQM e EPAM entre os modelos foram menores (variações de 24,24% a 40,69%), a correlação das redes profundas sugere que suas previsões acompanham proporcionalmente a variação da DPB real. Conclui-se que as redes profundas são promissoras para detecção da DPB em condições controladas, porém a degradação em ambientes reais ressalta a necessidade de técnicas de pré- processamento de áudio mais robustas. Ambas as arquiteturas (DenseNet121 e ResNet50) apresentaram desempenho semelhante entre si. Palavras-chave: música de forró; inclusão de surdos; redes neurais profundas; processamento de sinais de áudiopt-BR
dc.description.abstractThis work investigates the application of deep neural networks for the detection of Base Step Duration (BSD) in Forró music, with the aim to develop a system to aid movement synchronization for Deaf and/or Hard of Hearing (D/HH) dancers. The BSD corresponds to the duration of the base step of the dance, measured as two bars of the music, and is used for rhythmic coordination between the dancers and the musical structure. The conversion of this information into tactile or visual stimuli would allow the inclusion of D/HH dancers in social dance environments. Three neural network architectures were explored: Multilayer Perceptron (MPC), Densely Connected Convolutional Network (DenseNet121) and Residual Network (ResNet50), with different input configurations to reduce the error in the BSD estimation. Training and evaluation used Mean Squared Error (MSE), Mean Absolute Percentage Error (MAPE) and Pearson correlation metrics, with folds stratified by songs to ensure generalizability. The results indicated that DenseNet121 and Resnet50 outperformed PMC, especially in Pearson correlation, with gains of 167.66% and 181.41%, respectively. In studio recordings, these models achieved lower MSE (less than 9%) and higher correlation (greater than 0.7), while in noisy environments they obtained MSE of 10% and correlation of 0.6. The differences in MSE and MSE between the models were smaller (variations from 24.24% to 40.69%), the correlation of the deep networks suggesting that their predictions proportionally follow the variation of the true DPB. It is concluded that deep networks are promising for BSD detection under controlled conditions, but the degradation in real environments highlights the need for more robust audio preprocessing techniques. Both architectures (DenseNet121 and ResNet50) presented similar performance. Keywords: forró music; deaf inclusion; deep neural networks; audio signal processingen
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
dc.identifier.citationLOPES, Hugo Gonçalves. Redes neurais profundas para identificação de ritmo em músicas de forró: uma abordagem exploratória rumo à inclusão de dançarinos surdos. 2025. 55 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2025.
dc.identifier.doihttps://doi.org/10.47328/ufvbbt.2025.363
dc.identifier.urihttps://locus.ufv.br/handle/123456789/34210
dc.language.isopor
dc.publisherUniversidade Federal de Viçosa
dc.publisher.programCiência da Computaçãopt-BR
dc.rightsAcesso Aberto
dc.subjectRedes neurais (Computação)pt-BR
dc.subjectForró (Música)pt-BR
dc.subjectSurdospt-BR
dc.subjectProcessamento de sinaispt-BR
dc.subject.cnpqCiência da Computaçãopt-BR
dc.titleRedes neurais profundas para identificação de ritmo em músicas de forró: uma abordagem exploratória rumo à inclusão de dançarinos surdospt-BR
dc.titleDeep neural networks for rhythm identification in forró music: an exploratory approach towards the inclusion of deaf dancersen
dc.typeDissertação

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
texto completo.pdf
Size:
2.33 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: