Extração automática de informações em imagens de notas fiscais
| dc.contributor.advisor | Brandão, Alexandre Santos | |
| dc.contributor.author | Souza, Mateus Fonseca de | |
| dc.contributor.authorLattes | http://lattes.cnpq.br/0363802323004958 | |
| dc.date.accessioned | 2025-11-07T14:40:31Z | |
| dc.date.issued | 2025-03-24 | |
| dc.degree.date | 2025-03-24 | |
| dc.degree.department | Departamento de Informática | pt-BR |
| dc.degree.grantor | Universidade Federal de Viçosa | |
| dc.degree.level | Mestrado | |
| dc.degree.local | Viçosa - MG | |
| dc.degree.program | Mestre em Ciência da Computação | |
| dc.description.abstract | Este trabalho propõe uma metodologia para a extração automatizada de informações a partir de imagens de notas fiscais de energia elétrica, um processo essencial no setor elétrico, especialmente para o gerenciamento de crédito. A metodologia desenvolvida abrange diversas etapas de processamento de imagens e visão computacional. Inicialmente, é realizada a segmentação de instâncias, detecção do documento e correção de perspectiva por meio da transformação de perspectiva. Além disso, são propostos dois algoritmos para a correção de distorções de orientação; o primeiro utiliza a dilatação dos pixels de uma imagem binarizada, enquanto o segundo se baseia na Transformada de Fourier. Para melhorar a qualidade das imagens processadas, também é realizada a remoção de ruídos de alta frequência com um filtro gaussiano e realizado o realce de contornos com máscara de nitidez. A fim de garantir a qualidade das imagens utilizadas, é introduzido um método de análise de qualidade. Para tornar o processamento mais adaptável, são empregados classificadores de documentos baseados em imagens e textos. Além disso, é proposta a utilização do modelo de consultas do serviço Amazon Textract, treinado para compreender tanto o texto quanto o layout dos documentos, permitindo a extração automática de informações específicas das notas fiscais de energia elétrica. Em faturas da distribuidora CEMIG, o modelo treinado atingiu uma precisão de 0,973 no conjunto de testes. O sistema desenvolvido demonstrou ser capaz de extrair todas as informações necessárias com um tempo médio de processamento de 35,273 segundos. Dessa forma, o projeto apresenta uma solução eficaz para a extração automatizada de informações de notas fiscais de energia elétrica, com alto potencial para aplicações empresariais. Palavras-chave: Documentos; Faturas; Extração de Informações; Visão Computacional; Energia Elétrica. | pt-BR |
| dc.description.abstract | This work proposes a methodology for the automated extraction of information from images of electricity bills, a crucial process in the electric power sector, particularly for credit management. The proposed methodology encompasses multiple stages of image processing and computer vision. Initially, instance segmentation, document detection, and perspective correction through perspective transformation are performed. Furthermore, two algorithms are proposed for correcting orientation distortions: the first employs dilation on a binarized image, while the second is based on the Fourier Transform. To enhance the quality of processed images, high- frequency noise is removed using a Gaussian filter, and edge enhancement is applied through a sharpening mask. In order to ensure the quality of the images used, a quality analysis method is also introduced. To increase adaptability during processing, document classifiers based on both image and text data are employed. Additionally, the use of the query-based model from the Amazon Textract service is proposed. This model is trained to understand both the text and the layout of documents, allowing for the automatic extraction of specific information from electricity bills. On invoices from the utility provider CEMIG, the trained model achieved an accuracy of 0.973 on the test set. The developed system was able to extract all required information with an average processing time of 35.273 seconds. Thus, the project presents an effective solution for the automated extraction of information from electricity bills, with high potential for business applications. Keywords: Documents; Invoices; Information Extraction; Computer Vision; Electric Energy | en |
| dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | |
| dc.description.sponsorship | Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG) | |
| dc.description.sponsorship | Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) | |
| dc.identifier.citation | SOUZA, Mateus Fonseca de. Extração automática de informações em imagens de notas fiscais. 2025. 69 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2025. | |
| dc.identifier.doi | https://doi.org/10.47328/ufvbbt.2025.430 | |
| dc.identifier.uri | https://locus.ufv.br/handle/123456789/34824 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de Viçosa | |
| dc.publisher.program | Ciência da Computação | pt-BR |
| dc.rights | Acesso Aberto | |
| dc.subject | Mineração de dados (Computação) | pt-BR |
| dc.subject | Processamento de imagens - Técnicas digitais | pt-BR |
| dc.subject | Cobrança de contas | pt-BR |
| dc.subject | Serviços de eletricidade | pt-BR |
| dc.subject.cnpq | Ciência da Computação | pt-BR |
| dc.title | Extração automática de informações em imagens de notas fiscais | pt-BR |
| dc.title | Automatic extraction of information from invoice images | en |
| dc.type | Dissertação |
