ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural

dc.contributor.advisorOliveira, Alcione de Paiva
dc.contributor.authorCosta, Lucas Mucida
dc.contributor.authorLatteshttp://lattes.cnpq.br/4192005936413557
dc.date.accessioned2024-10-15T18:52:38Z
dc.date.issued2024-06-03
dc.degree.date2024-06-03
dc.degree.departmentDepartamento de Informáticapt-BR
dc.degree.grantorUniversidade Federal de Viçosa
dc.degree.levelDoutorado
dc.degree.localViçosa - MG
dc.degree.programDoutor em Ciência da Computação
dc.description.abstractEm uma sociedade complexa, a habilidade de simplificar textos pode ser bastante útil. Uma comunicação clara, concisa e de fácil compreensão são características bem-vindas na interação entre pessoas. Em virtude dessa necessidade, pesquisas voltadas ao desen- volvimento de modelos capazes de produzir textos mais simples importantes, e a busca por corpus adequados para treinar e aperfeiçoar esses modelos é um campo de pesquisa ativo. No entanto, para cumprirmos essa exigência, é necessário que possamos desenvolver métricas que possibilitem verificar o quanto uma sentença é mais simples que outra com significado similar. Nesta pesquisa, desenvolvemos uma métrica de simplificação de textos para a área de Processamento de Linguagem Natural (PLN), denominada ISiM. A mé- trica proposta supera as limitações das métricas existentes, oferecendo uma abordagem rápida, simples, livre de intervenção humana e independente da língua contribuindo na avaliação da qualidade da simplificação textual. Além disso, ISiM se demonstrou eficiente na criação e no refinamento de corpora de pares de sentenças complexo/simples, sendo essa uma contribuição para as pesquisas na área. Também, foi criado nesta pesquisa, um modelo gerador de textos simplificados, utilizando para Ąne tunning um corpus otimizado pela métrica ISiM. Durante os experimentos, a métrica demonstrou sua eficácia em di- versas aplicações, como sua velocidade ao gerar resultados em poucos segundos, obtendo uma taxa de acerto de 96,94% ao ser testada em um corpus existente de pares de frase complexo/simples, 77,5% de acerto ao confrontada com um formulário respondido por humanos, e também superando outros modelos de geração de frases simplificadas da li- teratura. Além disso, a pesquisa destaca a relevância social da simplificação de textos, especialmente em um contexto como o do Brasil, onde o analfabetismo funcional atinge mais de 62 milhões de pessoas, sendo um desafio significativo a ser superado. A dificuldade de compreensão de textos complexos devido à deficiências na educação da população mos- tra o quanto ainda precisamos melhorar nosso sistema de ensino, e reforça a importância de desenvolver ferramentas como a ISiM para ajudar a tornar a informação mais acessível e compreensível para todos. Palavras-chave: Inteligência Artificial; Processamento de Linguagem Natural; Simplifi- cação de Texto; Métrica; ISiM; Mucimples.pt-BR
dc.description.abstractIn a complex society, the ability to simplify texts can be quite useful. Clear, concise, and easily understandable communication is highly valued in interactions between people. Due to this necessity, research focused on the development of models capable of produc- ing simpler texts is important, and the search for suitable corpora to train and improve these models is an active field of research. However, to meet this demand, it is necessary to develop metrics that allow us to verify how much simpler one sentence is compared to another with a similar meaning. In this research, we developed a text simplification metric for the field of Natural Language Processing (NLP), named ISiM. The proposed metric overcomes the limitations of existing metrics, offering a quick, simple, language- independent, and human-intervention-free approach, contributing to the evaluation of the quality of text simplification. Additionally, ISiM proved to be efficient in creating and refining corpora of complex/simple sentence pairs, making it a valuable contribution to research in the area. Moreover, in this research, a simplified text generator model was created, using a corpus optimized by the ISiM metric for fine-tuning. During the experi- ments, the metric demonstrated its effectiveness in various applications, such as its speed in generating results within seconds, achieving an accuracy rate of 96.94% when tested on an existing corpus of complex/simple sentence pairs, and 77.5% accuracy when compared with a human-answered form, also surpassing other simplified sentence generation mod- els from the literature. Furthermore, the research highlights the social relevance of text simplification, especially in a context like Brazil, where functional illiteracy affects more than 62 million people, representing a significant challenge to be overcome. The difficulty in understanding complex texts due to deficiencies in the population’s education shows how much we still need to improve our education system and reinforces the importance of developing tools like ISiM to help make information more accessible and comprehensible for everyone. Keywords: Artificial Intelligence; Natural Language Processing; Text Simplification; Metric; ISiM; Mucimplesen
dc.identifier.citationCOSTA, Lucas Mucida. ISiM: proposta de uma métrica para simplificação de sentenças em linguagem natural. 2024. 84 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.
dc.identifier.doihttps://doi.org/10.47328/ufvbbt.2024.593
dc.identifier.urihttps://locus.ufv.br/handle/123456789/33026
dc.language.isopor
dc.publisherUniversidade Federal de Viçosa
dc.publisher.programCiência da Computaçãopt-BR
dc.rightsAcesso Aberto
dc.subjectInteligência artificialpt-BR
dc.subjectProcessamento de linguagem natural (Computação)pt-BR
dc.subject.cnpqCiência da Computaçãopt-BR
dc.titleISiM: proposta de uma métrica para simplificação de sentenças em linguagem naturalpt-BR
dc.titleISiM: proposal of a metric for sentence simplification in natural languageen
dc.typeTese

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
texto completo.pdf
Size:
1.1 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: