Extração automática de informações em imagens de notas fiscais

dc.contributor.advisorBrandão, Alexandre Santos
dc.contributor.authorSouza, Mateus Fonseca de
dc.contributor.authorLatteshttp://lattes.cnpq.br/0363802323004958
dc.date.accessioned2025-11-07T14:40:31Z
dc.date.issued2025-03-24
dc.degree.date2025-03-24
dc.degree.departmentDepartamento de Informáticapt-BR
dc.degree.grantorUniversidade Federal de Viçosa
dc.degree.levelMestrado
dc.degree.localViçosa - MG
dc.degree.programMestre em Ciência da Computação
dc.description.abstractEste trabalho propõe uma metodologia para a extração automatizada de informações a partir de imagens de notas fiscais de energia elétrica, um processo essencial no setor elétrico, especialmente para o gerenciamento de crédito. A metodologia desenvolvida abrange diversas etapas de processamento de imagens e visão computacional. Inicialmente, é realizada a segmentação de instâncias, detecção do documento e correção de perspectiva por meio da transformação de perspectiva. Além disso, são propostos dois algoritmos para a correção de distorções de orientação; o primeiro utiliza a dilatação dos pixels de uma imagem binarizada, enquanto o segundo se baseia na Transformada de Fourier. Para melhorar a qualidade das imagens processadas, também é realizada a remoção de ruídos de alta frequência com um filtro gaussiano e realizado o realce de contornos com máscara de nitidez. A fim de garantir a qualidade das imagens utilizadas, é introduzido um método de análise de qualidade. Para tornar o processamento mais adaptável, são empregados classificadores de documentos baseados em imagens e textos. Além disso, é proposta a utilização do modelo de consultas do serviço Amazon Textract, treinado para compreender tanto o texto quanto o layout dos documentos, permitindo a extração automática de informações específicas das notas fiscais de energia elétrica. Em faturas da distribuidora CEMIG, o modelo treinado atingiu uma precisão de 0,973 no conjunto de testes. O sistema desenvolvido demonstrou ser capaz de extrair todas as informações necessárias com um tempo médio de processamento de 35,273 segundos. Dessa forma, o projeto apresenta uma solução eficaz para a extração automatizada de informações de notas fiscais de energia elétrica, com alto potencial para aplicações empresariais. Palavras-chave: Documentos; Faturas; Extração de Informações; Visão Computacional; Energia Elétrica.pt-BR
dc.description.abstractThis work proposes a methodology for the automated extraction of information from images of electricity bills, a crucial process in the electric power sector, particularly for credit management. The proposed methodology encompasses multiple stages of image processing and computer vision. Initially, instance segmentation, document detection, and perspective correction through perspective transformation are performed. Furthermore, two algorithms are proposed for correcting orientation distortions: the first employs dilation on a binarized image, while the second is based on the Fourier Transform. To enhance the quality of processed images, high- frequency noise is removed using a Gaussian filter, and edge enhancement is applied through a sharpening mask. In order to ensure the quality of the images used, a quality analysis method is also introduced. To increase adaptability during processing, document classifiers based on both image and text data are employed. Additionally, the use of the query-based model from the Amazon Textract service is proposed. This model is trained to understand both the text and the layout of documents, allowing for the automatic extraction of specific information from electricity bills. On invoices from the utility provider CEMIG, the trained model achieved an accuracy of 0.973 on the test set. The developed system was able to extract all required information with an average processing time of 35.273 seconds. Thus, the project presents an effective solution for the automated extraction of information from electricity bills, with high potential for business applications. Keywords: Documents; Invoices; Information Extraction; Computer Vision; Electric Energyen
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
dc.identifier.citationSOUZA, Mateus Fonseca de. Extração automática de informações em imagens de notas fiscais. 2025. 69 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2025.
dc.identifier.doihttps://doi.org/10.47328/ufvbbt.2025.430
dc.identifier.urihttps://locus.ufv.br/handle/123456789/34824
dc.language.isopor
dc.publisherUniversidade Federal de Viçosa
dc.publisher.programCiência da Computaçãopt-BR
dc.rightsAcesso Aberto
dc.subjectMineração de dados (Computação)pt-BR
dc.subjectProcessamento de imagens - Técnicas digitaispt-BR
dc.subjectCobrança de contaspt-BR
dc.subjectServiços de eletricidadept-BR
dc.subject.cnpqCiência da Computaçãopt-BR
dc.titleExtração automática de informações em imagens de notas fiscaispt-BR
dc.titleAutomatic extraction of information from invoice imagesen
dc.typeDissertação

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
texto completo.pdf
Size:
1.81 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: