Abordagens computacionais baseadas em modelos de aprendizado profundo e voltadas ao deﬁciente visual para geração e avaliação automática de descrições textuais de cenas de webinários

Fernandes, Daniel Louzada

doi:https://doi.org/10.47328/ufvbbt.2024.588

Abordagens computacionais baseadas em modelos de aprendizado profundo e voltadas ao deﬁciente visual para geração e avaliação automática de descrições textuais de cenas de webinários

Files

texto completo.pdf (7.99 MB)

Date

2024-06-17

Authors

Fernandes, Daniel Louzada

Publisher

Universidade Federal de Viçosa

Abstract

Estudos recentes preveem que pelo menos 2, 2 bilhões de pessoas no mundo sofrem de cegueira ou alguma deﬁciência visual (como a baixa visão) e que esse número continuará a crescer. Essas pessoas precisarão de algum tipo de cuidado apropriado e o uso de Tecnologias Assistivas é uma forma valiosa para que elas possam mitigar seus obstáculos diários. Nesse contexto, com o rápido avanço da Inteligência Artiﬁcial e dos sistemas portáteis embarcados, tem-se testemunhado um aumento no desenvolvimento e oferecimento de vários serviços e tecnologias que proporcionam comodidade e suporte para esse público. Apesar desses avanços, muitas dessas tecnologias têm fatores restritivos, como funcionalidades limitadas ou preços elevados. Além disso, estão disponíveis apenas para uma pequena parcela da população necessitada. Com a pandemia de COVID-19, a vida cotidiana e o local de trabalho tornaram-se mais dependentes das tecnologias, como o consumo intensivo de conteúdos online e o aumento signiﬁcativo no uso de ferramentas de videoconferência. Embora um mundo altamente conectado permita o trabalho remoto como substituto para o deslocamento e o trabalho de escritório – assim como webinários/videoconferências como sucessores de conferências presenciais, entrevistas, reuniões ou até mesmo aulas – isso também levanta novas barreiras de acessibilidade para as pessoas com deﬁciência visual. Como a informação visual é complementar à própria mensagem, a baixa ou nenhuma visão impede que essas pessoas capturem informações visuais, o que pode diﬁcultar a compreensão do contexto geral do conteúdo compartilhado em uma apresentação remota. Com isso, aumentou-se a necessidade de prover mais acesso a informações contidas em webinários, em especial, sobre contexto. Para suprir essa necessidade, iniciativas vêm sendo realizadas no sentido de incentivar os usuários da Internet a produzirem descrições textuais de imagens on-line. No entanto, esse é um processo manual e lento que depende da disposição das pessoas com visão em ajudar. Como consequência, muitas imagens carecem de descrições ou apresentam explicações de baixa qualidade. A maioria dos métodos existentes na literatura sobre descrição automática de imagens baseados em Inteligência Artiﬁcial, quando utilizados como Tecnologias Assistivas, negligencia as necessidades de indivíduos cegos ou com baixa visão. Esses métodos tendem a comprimir todos os elementos visuais em legendas breves, criar frases desconexas para cada região da imagem ou fornecer descrições extensas, não se concentrando no fornecimento das informações pertinentes para esse grupo especíﬁco. Isso ocorre também devido à escassez de conjuntos de dados especíﬁcos para atender necessidades de deﬁcientes visuais; logo, esses métodos são treinados em conjuntos para domínios de dados gerais, considerando o uso por pessoas com visão. Para lidar com essas limitações, nesta tese, propõe-se um conjunto de metodologias por meio da integração de técnicas de Visão Computacional e Processamento de Linguagem Natural que possibilitam a implementação e avaliação de uma abordagem para construir descrições de imagens baseada em normas e diretrizes de acessibilidade direcionadas a pessoas com deﬁciência visual, focando em cenas de webinários. Como parte do processo, o trabalho também desenvolve um conjunto de dados direcionado para este público e propõe uma métrica de avaliação de adequabilidade de descrição textual, levando em conta os aspectos importantes para pessoas cegas ou de baixa visão. Os experimentos demonstraram estatisticamente que a abordagem proposta produziu descrições alinhadas com o conteúdo das imagens, com características linguísticas escritas por humanos e com as diretrizes de acessibilidade para deﬁcientes visuais, apresentando melhor desempenho nesses aspectos quando comparada a métodos anteriores de descrição de imagens. Palavras-chave: Inteligência artiﬁcial. Visão computacional. Processamento de linguagem natural. Descrição de imagens. Tecnologias assistivas. Deﬁciente visual.
Recent studies predict that at least 2.2 billion people worldwide suffer from blindness or some form of visual impairment (such as low vision) and that this number will continue to grow. These people will require some form of appropriate care and the use of Assistive Technologies is a valuable way for them to mitigate their daily obstacles. In this context, with the rapid advancement of Artiﬁcial Intelligence and portable embedded systems, there has been an increase in the development and provision of various services and technologies that provide convenience and support to this audience. Despite these advancements, many of these technologies have restrictive factors such as limited functionality or high prices. Additionally, they are available to only a small portion of the population in need. With the COVID-19 pandemic, daily life and workplace have become more dependent on technologies, such as the intensive consumption of online content and the signiﬁcant increase in the use of videoconferencing tools. While a highly connected world allows for remote work as a substitute for commuting and ofﬁce work – as well as webinars/videoconferences as successors to in-person conferences, interviews, meetings, or even classes – it also raises new accessibility barriers for visually impaired people. Since visual information complements the message itself, low or no vision prevents these individuals from capturing visual information, which can make it difﬁcult for them to understand the overall context of the content shared in a remote presentation. Consequently, there has been an increased need to provide more access to the information contained in webinars, particularly regarding context. To meet this need, initiatives have been carried out to motivate Internet users to produce textual descriptions of online images. However, this is a manual and slow process that depends on the willingness of sighted people to help. As a result, many images lack descriptions or have low-quality explanations. Most existing methods in the literature for automatic image description based on Artiﬁcial Intelligence, when used as Assistive Technologies, neglect the needs of blind or low-vision individuals. These methods tend to compress all visual elements into brief captions, create disjointed sentences for each region of the image, or provide extensive descriptions without focusing on providing the relevant information for this speciﬁc group. This is also due to the scarcity of datasets speciﬁcally designed to meet the needs of visually impaired individuals; thus, these methods are trained on datasets for general domains, considering use by sighted people. To address these limitations, this thesis proposes a set of methodologies through the integration of Computer Vision and Natural Language Processing techniques that enable the implementation and evaluation of an image description approach based on accessibility standards and guidelines aimed at visually impaired people, focusing on webinar scenes. As part of the process, this work also develops a dataset targeted at this audience and proposes a metric for evaluating the adequacy of textual descriptions, taking into account the important aspects for blind or low-vision individuals. The experiments statistically demonstrated that the proposed approach produced descriptions aligned with the content of the images, with human-written linguistic characteristics, and with accessibility guidelines for visually impaired individuals, presenting better performance in these aspects when compared to previous image description methods. Keywords: Artiﬁcial intelligence. Computer vision. Natural language processing. Image description. Assistive technologies. Visually impaired.

Keywords

Inteligência artiﬁcial, Visão computacional, Processamento de imagens, Processamento de linguagem natural (Computação), Dispositivos de autoajuda para pessoas com deficiência, Pessoas com deficiência visual

Citation

FERNANDES, Daniel Louzada. Abordagens computacionais baseadas em modelos de aprendizado profundo e voltadas ao deﬁciente visual para geração e avaliação automática de descrições textuais de cenas de webinários. 2024. 176 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.

URI

https://locus.ufv.br/handle/123456789/33020

Collections

Ciência da Computação

Full item page

Abordagens computacionais baseadas em modelos de aprendizado profundo e voltadas ao deﬁciente visual para geração e avaliação automática de descrições textuais de cenas de webinários

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By