Abordagens computacionais baseadas em modelos de aprendizado profundo e voltadas ao deficiente visual para geração e avaliação automática de descrições textuais de cenas de webinários
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidade Federal de Viçosa
Abstract
Estudos recentes preveem que pelo menos 2, 2 bilhões de pessoas no mundo sofrem de cegueira ou alguma deficiência visual (como a baixa visão) e que esse número continuará a crescer. Essas pessoas precisarão de algum tipo de cuidado apropriado e o uso de Tecnologias Assistivas é uma forma valiosa para que elas possam mitigar seus obstáculos diários. Nesse contexto, com o rápido avanço da Inteligência Artificial e dos sistemas portáteis embarcados, tem-se testemunhado um aumento no desenvolvimento e oferecimento de vários serviços e tecnologias que proporcionam comodidade e suporte para esse público. Apesar desses avanços, muitas dessas tecnologias têm fatores restritivos, como funcionalidades limitadas ou preços elevados. Além disso, estão disponíveis apenas para uma pequena parcela da população necessitada. Com a pandemia de COVID-19, a vida cotidiana e o local de trabalho tornaram-se mais dependentes das tecnologias, como o consumo intensivo de conteúdos online e o aumento significativo no uso de ferramentas de videoconferência. Embora um mundo altamente conectado permita o trabalho remoto como substituto para o deslocamento e o trabalho de escritório – assim como webinários/videoconferências como sucessores de conferências presenciais, entrevistas, reuniões ou até mesmo aulas – isso também levanta novas barreiras de acessibilidade para as pessoas com deficiência visual. Como a informação visual é complementar à própria mensagem, a baixa ou nenhuma visão impede que essas pessoas capturem informações visuais, o que pode dificultar a compreensão do contexto geral do conteúdo compartilhado em uma apresentação remota. Com isso, aumentou-se a necessidade de prover mais acesso a informações contidas em webinários, em especial, sobre contexto. Para suprir essa necessidade, iniciativas vêm sendo realizadas no sentido de incentivar os usuários da Internet a produzirem descrições textuais de imagens on-line. No entanto, esse é um processo manual e lento que depende da disposição das pessoas com visão em ajudar. Como consequência, muitas imagens carecem de descrições ou apresentam explicações de baixa qualidade. A maioria dos métodos existentes na literatura sobre descrição automática de imagens baseados em Inteligência Artificial, quando utilizados como Tecnologias Assistivas, negligencia as necessidades de indivíduos cegos ou com baixa visão. Esses métodos tendem a comprimir todos os elementos visuais em legendas breves, criar frases desconexas para cada região da imagem ou fornecer descrições extensas, não se concentrando no fornecimento das informações pertinentes para esse grupo específico. Isso ocorre também devido à escassez de conjuntos de dados específicos para atender necessidades de deficientes visuais; logo, esses métodos são treinados em conjuntos para domínios de dados gerais, considerando o uso por pessoas com visão. Para lidar com essas limitações, nesta tese, propõe-se um conjunto de metodologias por meio da integração de técnicas de Visão Computacional e Processamento de Linguagem Natural que possibilitam a implementação e avaliação de uma abordagem para construir descrições de imagens baseada em normas e diretrizes de acessibilidade direcionadas a pessoas com deficiência visual, focando em cenas de webinários. Como parte do processo, o trabalho também desenvolve um conjunto de dados direcionado para este público e propõe uma métrica de avaliação de adequabilidade de descrição textual, levando em conta os aspectos importantes para pessoas cegas ou de baixa visão. Os experimentos demonstraram estatisticamente que a abordagem proposta produziu descrições alinhadas com o conteúdo das imagens, com características linguísticas escritas por humanos e com as diretrizes de acessibilidade para deficientes visuais, apresentando melhor desempenho nesses aspectos quando comparada a métodos anteriores de descrição de imagens. Palavras-chave: Inteligência artificial. Visão computacional. Processamento de linguagem natural. Descrição de imagens. Tecnologias assistivas. Deficiente visual.
Recent studies predict that at least 2.2 billion people worldwide suffer from blindness or some form of visual impairment (such as low vision) and that this number will continue to grow. These people will require some form of appropriate care and the use of Assistive Technologies is a valuable way for them to mitigate their daily obstacles. In this context, with the rapid advancement of Artificial Intelligence and portable embedded systems, there has been an increase in the development and provision of various services and technologies that provide convenience and support to this audience. Despite these advancements, many of these technologies have restrictive factors such as limited functionality or high prices. Additionally, they are available to only a small portion of the population in need. With the COVID-19 pandemic, daily life and workplace have become more dependent on technologies, such as the intensive consumption of online content and the significant increase in the use of videoconferencing tools. While a highly connected world allows for remote work as a substitute for commuting and office work – as well as webinars/videoconferences as successors to in-person conferences, interviews, meetings, or even classes – it also raises new accessibility barriers for visually impaired people. Since visual information complements the message itself, low or no vision prevents these individuals from capturing visual information, which can make it difficult for them to understand the overall context of the content shared in a remote presentation. Consequently, there has been an increased need to provide more access to the information contained in webinars, particularly regarding context. To meet this need, initiatives have been carried out to motivate Internet users to produce textual descriptions of online images. However, this is a manual and slow process that depends on the willingness of sighted people to help. As a result, many images lack descriptions or have low-quality explanations. Most existing methods in the literature for automatic image description based on Artificial Intelligence, when used as Assistive Technologies, neglect the needs of blind or low-vision individuals. These methods tend to compress all visual elements into brief captions, create disjointed sentences for each region of the image, or provide extensive descriptions without focusing on providing the relevant information for this specific group. This is also due to the scarcity of datasets specifically designed to meet the needs of visually impaired individuals; thus, these methods are trained on datasets for general domains, considering use by sighted people. To address these limitations, this thesis proposes a set of methodologies through the integration of Computer Vision and Natural Language Processing techniques that enable the implementation and evaluation of an image description approach based on accessibility standards and guidelines aimed at visually impaired people, focusing on webinar scenes. As part of the process, this work also develops a dataset targeted at this audience and proposes a metric for evaluating the adequacy of textual descriptions, taking into account the important aspects for blind or low-vision individuals. The experiments statistically demonstrated that the proposed approach produced descriptions aligned with the content of the images, with human-written linguistic characteristics, and with accessibility guidelines for visually impaired individuals, presenting better performance in these aspects when compared to previous image description methods. Keywords: Artificial intelligence. Computer vision. Natural language processing. Image description. Assistive technologies. Visually impaired.
Recent studies predict that at least 2.2 billion people worldwide suffer from blindness or some form of visual impairment (such as low vision) and that this number will continue to grow. These people will require some form of appropriate care and the use of Assistive Technologies is a valuable way for them to mitigate their daily obstacles. In this context, with the rapid advancement of Artificial Intelligence and portable embedded systems, there has been an increase in the development and provision of various services and technologies that provide convenience and support to this audience. Despite these advancements, many of these technologies have restrictive factors such as limited functionality or high prices. Additionally, they are available to only a small portion of the population in need. With the COVID-19 pandemic, daily life and workplace have become more dependent on technologies, such as the intensive consumption of online content and the significant increase in the use of videoconferencing tools. While a highly connected world allows for remote work as a substitute for commuting and office work – as well as webinars/videoconferences as successors to in-person conferences, interviews, meetings, or even classes – it also raises new accessibility barriers for visually impaired people. Since visual information complements the message itself, low or no vision prevents these individuals from capturing visual information, which can make it difficult for them to understand the overall context of the content shared in a remote presentation. Consequently, there has been an increased need to provide more access to the information contained in webinars, particularly regarding context. To meet this need, initiatives have been carried out to motivate Internet users to produce textual descriptions of online images. However, this is a manual and slow process that depends on the willingness of sighted people to help. As a result, many images lack descriptions or have low-quality explanations. Most existing methods in the literature for automatic image description based on Artificial Intelligence, when used as Assistive Technologies, neglect the needs of blind or low-vision individuals. These methods tend to compress all visual elements into brief captions, create disjointed sentences for each region of the image, or provide extensive descriptions without focusing on providing the relevant information for this specific group. This is also due to the scarcity of datasets specifically designed to meet the needs of visually impaired individuals; thus, these methods are trained on datasets for general domains, considering use by sighted people. To address these limitations, this thesis proposes a set of methodologies through the integration of Computer Vision and Natural Language Processing techniques that enable the implementation and evaluation of an image description approach based on accessibility standards and guidelines aimed at visually impaired people, focusing on webinar scenes. As part of the process, this work also develops a dataset targeted at this audience and proposes a metric for evaluating the adequacy of textual descriptions, taking into account the important aspects for blind or low-vision individuals. The experiments statistically demonstrated that the proposed approach produced descriptions aligned with the content of the images, with human-written linguistic characteristics, and with accessibility guidelines for visually impaired individuals, presenting better performance in these aspects when compared to previous image description methods. Keywords: Artificial intelligence. Computer vision. Natural language processing. Image description. Assistive technologies. Visually impaired.
Description
Citation
FERNANDES, Daniel Louzada. Abordagens computacionais baseadas em modelos de aprendizado profundo e voltadas ao deficiente visual para geração e avaliação automática de descrições textuais de cenas de webinários. 2024. 176 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.
