Use este identificador para citar ou linkar para este item: https://locus.ufv.br//handle/123456789/31750
Tipo: Dissertação
Título: Estimação automática de ritmo para auxiliar surdos no aprendizado da dança do forró
Automatic Rhythm Estimation to Assist the Deaf in Forró Dance Learning
Autor(es): Paiva, Lucas Ferreira
Abstract: Os Surdos e deficientes auditivos representam cerca de 5% da população mundial. Apesar disso, não gozam das mesmas oportunidades dos ouvintes. Um exemplo disso é o acesso à música e à dança, onde mesmo sendo tão capazes quanto os ouvintes para identificarem sentimentos e seguirem o ritmo de músicas, são estigmatizados como não musicais. Esse estigma acaba por resultar em poucas iniciativas voltadas para a criação de tecnologias que potencializem o contato dos surdos com a musicalidade. O principal trabalho encontrado na literatura consistiu na criação de um modelo baseado em redes neurais capaz de estimar o ritmo de músicas de forró para passar esse ritmo por vibração para Surdos. Apesar de resultados promissores terem sidos encontrados, limitações no banco de dados como pequeno número de amostras, falta de diversidade e imprecisão nas anotações do ritmo, inviabilizam a implantação da abordagem. Neste trabalho são apresentadas iniciativas para viabilizar a construção de um modelo para sinalizar o ritmo para Surdos por meio de vibração. A primeira abordagem foi a adição de músicas com ruído real de um espaço de dança junto com o banco de dados do trabalho anterior, o modelo baseado em redes neurais treinado alcançou erro percentual médio menor que 7%. Apesar deste banco de dados ser ainda pequeno e com anotações manuais, foi observado potencial do modelo para ser utilizado em condições reais. Devido a isso foram realizados trabalhos na direção de aumentar o banco de dados. Um deles é uma revisão de literatura para encontrar técnicas de aumento de dados de áudio. Foram encontradas 30 técnicas usadas em variadas tarefas de classificação de áudio, aumentando em até 30 pp a acurácia dos modelos para datasets pequenos. Além do aumento artificial dos dados, foram reali- zados trabalhos para a criação de um novo banco de dados, com instâncias suficientes para treinar modelos convolucionais. Inicialmente foi criado o Forroset, um banco de dados com 2977 músicas de forró, contendo 40 informações diferentes, dentre elas, os arquivos de áudio em MP3, a popularidade e o BPM, fornecidos pelo Spotify. Por fim, para adicionar a duração do passo base às músicas do Forroset, foi realizado um experimento onde 9 pessoas se filmaram dançando 380 músicas no total e tiveram a duração do passo base estimada por um modelo de visão computacional proposto. Esse modelo conseguiu estimar a duração do passo base com erro percentual médio inferior a 3%. Além das anotações da duração do passo base, foram adicionadas ao Forroset, versões com ruído domestico das músicas dançadas, obtidas através dos áudios dos vídeos, criando assim o Forroset+. Estas iniciativas poderão possibilitar o treinamento de modelos com maior capacidade de generalização. Devido ao maior número de músicas será possível também a utilização de redes neurais profundas como redes convolucionais e recorrentes. Apesar da estrutura fornecida propiciar o treinamento e validação destes modelos, não foram realizados experimentos para verificar se de fato os esforços foram suficientes. Portanto, técnicas desenvolvidas em trabalhos futuros (e.g., redes neurais profundas) deverão ser comparadas aos modelos aqui utilizados, além da avaliação das técnicas de aumento de dados para áudio. Palavras-chave: Aprendizado de Máquinas. Banco de Dados. Dança. Inclusão.
Despite making up a sizable portion of the population, hearing impaired and Deaf people do not have the same opportunities as hearing people. Access to music and dancing is an example of this, when people are stereotyped as unmusical despite their ability to perceive sentiments and follow musical rhythms on par with listeners. Few efforts are consequently carried out to develop technologies that improve the deaf people’s interaction with music. The key contribution to the literature involves deve- loping a neural network-based model that could estimate the forró music’s rhythm and pass it by vibration to Deaf people. Despite the promising results, the approach is challenging to put into practice due to the database’s constraints, including its size, lack of diversity, and imprecision in rhythm notes. Initiatives for the development of a model to vibrate and signal the rhythm for Deaf people are presented in this study. The first approach was to add songs with actual noise to the prior work’s database. The model based on neural networks was shown to achieve an average percentage error of less than 7% even in a real noise scenario of a dancing space. Regardless of the fact that the database is currently limited and has manual annotations, the model has the potential to be employed in real-world scenarios. As a result, work was done to expand the database. The first step is to conduct a literature review to identify audio data augmentation techniques. We discovered 30 techniques used in various audio classification tasks, which increased model accuracy by up to 30 pp for small datasets. A new database with enough instances to train convolutional models was created in addition to artificially increasing the data. Initially, Forroset was created, a dataset containing 2977 forró songs and 40 different pieces of information from Spo- tify, such as audio files, popularity, and BPM. Finally, in order to add the duration of the base step to the Forroset songs, 9 people filmed themselves dancing to 380 songs in total and had the duration of the base step estimated by a proposed computer vi- sion model. With an average percentage error of less than 3%, this model was able to estimate the duration of the base step. In addition to the annotations of the dura- tion of the base step, versions of the danced songs with domestic noise were added to Forroset; these recordings were obtained via the audio of the videos, resulting in Forroset+. These initiatives may make it possible to train models with greater gene- ralization capacity. Because there will be more songs, deep neural networks such as convolutional and recurrent networks will be possible to use. Despite the provided structure for training and validation of these models, no experiments were conduc- ted to determine whether the efforts were sufficient. As a result, in future works, the models already used with deep approaches, as well as the evaluation of data augmentation techniques for audio, should be compared. Keywords: Machine Learning. Dataset. Dance. Inclusion.
Palavras-chave: Redes neurais (Computação)
Aprendizado do computador
Forró (Música) - Banco de dados
Surdos - Meios de comunicação
Integração social
CNPq: Ciência da Computação
Editor: Universidade Federal de Viçosa
Titulação: Mestre em Ciência da Computação
Citação: PAIVA, Lucas Ferreira. Estimação automática de ritmo para auxiliar surdos no aprendizado da dança do forró. 2022. 89 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2022.
Tipo de Acesso: Acesso Aberto
Identificador DOI: https://doi.org/10.47328/ufvbbt.2023.165
URI: https://locus.ufv.br//handle/123456789/31750
Data do documento: 21-Dez-2022
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
texto completo.pdftexto completo6,7 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.