Design exploration of machine learning data-flows onto heterogeneous reconfigurable hardware

Imagem de Miniatura

Data

2023-06-21

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Viçosa

Resumo

This work explores the placement and routing of Machine Learning applications data- flow graphs on different heterogeneous Coarse-Grained Reconfigurable Architectures (CGRA). We analyze three different types of processing element (PE) heterogeneity, the first concerning the interconnection pattern, the second being on the kind of ope- rations a single PE can execute, and the last concerning the PE buffer resources. This analysis aims to propose a fair reduction to the overall cost in comparison to the ho- mogeneous CGRA architecture. We compare our results with the homogeneous case and one of the state-of-the-art tools for placement and routing (P&R). Our algorithm executed, on average, 52% faster than VPR 8.1 (Versatile Place and Route), which is an open-source academic tool designed for the FPGA placement and routing pha- ses, reaching better mapping in 66% of cases and achieving the same results in 26% of cases. Furthermore, a heterogeneous architecture reduces the cost without losing performance in 76% of the cases considering multiplier heterogeneity. We propose a novel heterogeneous buffer architecture that minimizes the buffer resources by 56.3% for K-means dataflow patterns. We also show that a heterogeneous border chess archi- tecture outperforms a homogeneous one. In addition, our mapping reaches optimal instances of single tree dataflows compared to classical Lee/Choi and H-Trees. Keywords: Reconfigurable architecture. CGRAs. Placement. Routing.
Esta dissertação explora o posicionamento e roteamento de grafos de fluxo de dados de aplicações de aprendizado de máquina em variadas arquiteturas reconfiguráveis de grão grosso (CGRA). Foram analisados três tipos de heterogeneidade dos elementos de processamento (PE), o primeiro referente ao padrão de interconexões, o segundo sobre o tipo de operações que um único PE pode executar e o último acerca dos re- cursos disponíveis ao PE. Essa análise almeja propor uma boa redução no custo total em comparação a um CGRA homogêneo. Os resultados foram comparados com o caso homogêneo e uma das ferramenta do estado da arte para posicionamento e ro- teamento (P&R). O algoritmo proposto executou, em média, 52% mais rápido do que o VPR 8.1 (Versatile Place and Route), que é uma ferramenta acadêmica de código aberto feita para as fases de posicionamento e roteamento de FPGAs, alcançando um melhor mapeamento em 66% dos casos e conseguindo os mesmos resultados em 26% dos casos. Além disso, uma arquitetura heterogênea diminui reduz o custo sem perda de performance em 76% dos casos considerando a heterogeneidade de multiplicado- res. Uma nova arquitetura com heterogeneidade de buffers é proposta e ela reduz a quantidade necessária de recursos de buffers em 56.3% para padrões de fluxo de dados do K-means. Também é mostrada uma arquitetura xadrez-borda heterogênea que supera a arquitetura homogênea. Além disso, o mapeamento proposto atinge configurações ótimas para fluxos de dados de árvore única quando comparado aos clássicos posicionamentos de Lee/Choi e árvores H. Palavras-chave: Arquiteturas Reconfiguráveis. CGRAs. Posicionamento. Roteamento.

Descrição

Palavras-chave

Arquitetura de computador, Fluxo de dados (Computadores), Aprendizado do computador

Citação

OLIVEIRA, Westerley Carvalho. Design exploration of machine learning data-flows onto heterogeneous reconfigurable hardware. 2023. 72 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2023.

Avaliação

Revisão

Suplementado Por

Referenciado Por