Processamento de linguagem natural de normas técnicas da construção civil: estudo da NBR 15.575
Arquivos
Data
2024-03-14
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual de Campinas
Resumo
A ABNT NBR 15.575 é um dos principais mecanismos disponíveis para promover a qualidade das habitações no Brasil e vem sendo implementada desde 2013. Atualmente a indústria da construção civil nacional é mediada por uma grande quantidade de regulamentos, dificultando o alinhamento entre eles e favorecendo a ocorrência de conflitos na sua aplicação. Acrescido a isso, os regulamentos são documentos complexos que exigem a interpretação por especialistas porque apresentam diversos parâmetros que devem ser verificados durante todo o ciclo de vida da edificação. Os regulamentos são preparados em linguagem natural exigindo uma análise manual, propensa a erros e demandando um alto nível de capacitação para a programação das regras em plataformas dedicadas à avaliação de conformidade automatizada. As pesquisas nacionais relacionadas ao tema se atêm a tentativas isoladas de conversão manual das diretrizes objetivas da norma em regras para plataformas especializadas de avaliação de conformidade. Esta pesquisa tem como objetivo a criação de um método de extração de informações baseado em regras para a tradução automática da Norma de Desempenho (ND) em formato aberto semiestruturado capaz de ser computado ou incorporado em plataformas de verificação automática de regras. A solução classifica-se na área de Processamento de Linguagem Natural da Inteligência Artificial. A pesquisa adota o método Design Science Research a fim de orientar a produção de uma sequência de contribuições. O resultado compreende um algoritmo baseado em regras de extração de informações gerando um modelo semântico de representação da ND. O algoritmo é composto por diversas técnicas de Processamento de Linguagem Natural baseados em padrões linguísticos do português. O modelo semântico da Parte 1 da Norma de Desempenho é expresso em linguagem formal, semiestruturada em Extensible Marckup Language, que pode ser processada em aplicações relacionadas à verificação de conformidade e traduzidas para Information Delivery Specification. A acurácia do algoritmo indica a necessidade de incorporação de novos métodos baseados em inteligência artificial, destacando a técnica de Retrieval-Augmented Generation em grandes modelos de linguagem. A pesquisa descartou a adoção de uma ontologia visando o aumento do desempenho dos algoritmos de análise e mapeamento textual dada a inexistência de uma ontologia para o contexto da construção civil em português ou a não adequação da adoção de ontologias genéricas ou específicas na língua inglesa. Desta forma, foi apontada com precisão uma lacuna brasileira. A contribuição e ineditismo da pesquisa está na formalização algorítmica de PLN auditável de requisitos em português em linguagem neutra e aberta. Palavras-chave: processamento de linguagem natural, extração de informações, modelo semântico de representação, NBR 15.575, verificação automática de conformidade.
ABNT NBR 15.575 is one of the main mechanisms available to encoraje the quality of housing in Brazil and has been implemented since 2013. Currently, the national construction industry is mediated by a large number of regulations, complicating the alignment between them and causing possible conflicts in their application. In addition, regulations are complex documents that require interpretation by experts because they present various parameters that must be verified throughout the building's lifecycle. The regulations are prepared in natural language requiring manual analysis, prone to errors, and demanding a high level of expertise for programming the rules on platforms dedicated to automated compliance checking. National research related to the theme is limited to isolated attempts at manual conversion of the standard's objective guidelines into rules for specialized conformity checking platforms. This research aims to create a rule-based information extraction method for the automatic translation of the Performance Standard (PS) into an open, semi-structured format that can be computed or incorporated into automatic rule verification platforms. The solution is classified in the field of Natural Language Processing of Artificial Intelligence. The research adopts the Design Science Research method to guide the production of a sequence of contributions. The result includes a rule-based information extraction algorithm generating a semantic model representation of the PS. The algorithm comprises various Natural Language Processing techniques based on portuguese linguistic patterns. The semantic model of Part 1 of the Performance Standard is expressed in formal, semi-structured language in Extensible Markup Language, which can be processed in applications related to conformity verification and translated into Information Delivery Specification. The accuracy of the algorithm indicates the need for incorporating new methods based on artificial intelligence, highlighting the Retrieval-Augmented Generation technique in large language models. The research dismissed the adoption of an ontology to increase the performance of text analysis and mapping algorithms given the absence of an ontology for the construction context in portuguese or the inadequacy of adopting generic or specific ontologies in english. Thus, a brazilian gap was precisely identified. The contribution and novelty of the research lie in the algorithmic formalization of auditable NLP of requirements in portuguese in neutral and open language. Key-words: natural language processing, information extraction, semantic representation model, NBR 15.575, automatic compliance checking.
ABNT NBR 15.575 is one of the main mechanisms available to encoraje the quality of housing in Brazil and has been implemented since 2013. Currently, the national construction industry is mediated by a large number of regulations, complicating the alignment between them and causing possible conflicts in their application. In addition, regulations are complex documents that require interpretation by experts because they present various parameters that must be verified throughout the building's lifecycle. The regulations are prepared in natural language requiring manual analysis, prone to errors, and demanding a high level of expertise for programming the rules on platforms dedicated to automated compliance checking. National research related to the theme is limited to isolated attempts at manual conversion of the standard's objective guidelines into rules for specialized conformity checking platforms. This research aims to create a rule-based information extraction method for the automatic translation of the Performance Standard (PS) into an open, semi-structured format that can be computed or incorporated into automatic rule verification platforms. The solution is classified in the field of Natural Language Processing of Artificial Intelligence. The research adopts the Design Science Research method to guide the production of a sequence of contributions. The result includes a rule-based information extraction algorithm generating a semantic model representation of the PS. The algorithm comprises various Natural Language Processing techniques based on portuguese linguistic patterns. The semantic model of Part 1 of the Performance Standard is expressed in formal, semi-structured language in Extensible Markup Language, which can be processed in applications related to conformity verification and translated into Information Delivery Specification. The accuracy of the algorithm indicates the need for incorporating new methods based on artificial intelligence, highlighting the Retrieval-Augmented Generation technique in large language models. The research dismissed the adoption of an ontology to increase the performance of text analysis and mapping algorithms given the absence of an ontology for the construction context in portuguese or the inadequacy of adopting generic or specific ontologies in english. Thus, a brazilian gap was precisely identified. The contribution and novelty of the research lie in the algorithmic formalization of auditable NLP of requirements in portuguese in neutral and open language. Key-words: natural language processing, information extraction, semantic representation model, NBR 15.575, automatic compliance checking.
Descrição
Palavras-chave
Processamento de linguagem natural (Computação), Extração de informações, Regulamentos, Construção civil - Normas - Brasil
Citação
SOUZA, Douglas Lopes de. Processamento de linguagem natural de normas técnicas da construção civil: estudo da NBR 15.575. 2024. 324 f. Tese (Doutorado em Arquitetura, Tecnologia e Cidade) - Universidade Estadual de Campinas, Campinas. 2024.