这篇论文由UCLA、AMD-Xilinx、根特大学和康奈尔大学的研究团队共同完成。他们开发的RapidStream自动划分算法,将数据流设计划分为多个“岛”,并在岛之间插入“锚区域”,通过锚区域的寄存器将各个岛的信号连接起来。
RapidStream的主要目的是将HLS设计分割成更小的部分,以便在多核服务器上并行处理。这种策略并不新鲜,但在FPGA领域却是一种创新。论文中提到的三个关键约束包括:非重叠分区、精简岛间连接和直接连接,这些约束有助于提高并行设计布局的效率。
RapidStream将FPGA fabric分为大小相同的区域,以及相邻区域之间的锚区域。特别值得一提的是,RapidStream似乎是专为AMD-Xilinx Virtex ultra scale+FPGA设计的,利用FPGA chiplet(即AMD-Xilinx的超级逻辑区,简称SLR)打造出2.5D器件。
论文中包含了一些关于RapidStream性能的图表。其中一张图展示了六种不同数据流设计与无分区版本之间的时钟速率比较。结果显示,RapidStream的时钟速率不仅超过了所有非流水线版本,而且在五种情况中,其性能甚至优于相同设计的RTL版本的流水线。这一结果值得深思。
此外,RapidStream在布局和布线时间上的表现也相当出色。它能将每个分区发送到不同的处理器核心进行布局,大大提高了效率。尽管FPGA厂商一直在尝试优化布局算法,但在多核处理器上的性能提升并不明显。RapidStream的开发者通过实践发现,没有分区的FPGA设计在多个处理器核心上运行时,性能改善并不显著。
对于正在使用FPGA开发HLS设计的工程师,尤其是AMD-Xilinx的用户,RapidStream无疑是一个值得关注的技术。更多关于RapidStream的细节可以在GitHub上找到。
与此同时,行业内的高端微信群也在探讨各种前沿技术。例如,风险投资集团聚集了芯片创始人、投资人、分析师和经纪人;闪存集群覆盖了全球5000多位华人闪存和存储芯片精英;云计算小组讨论公共云和私有云技术;AI芯片组关注AI芯片和异构计算;5G组探讨物联网和5G芯片;第三代半导体集团研究氮化镓、碳化硅等材料;内存芯片组讨论DRAM、NAND等存储技术;汽车电子集团探讨单片机、电源和传感器;光电器件组研究通信、激光等光电器件;频道组关注存储芯片产品和供应链。
通过这些微信群,专业人士可以相互交流,共同推动信息革命新时代的到来。
点击蓝色单词。
关注我们
FPGA的布局软件一直很慢。事实上,FPGA厂商已经花费了大量的精力来使他们的设计软件在多核处理器上运行得更快。
近日,在ACM的FPGA 2022大会上发表了一篇题为《快速流:FPGA HLS设计的并行物理实现》的论文。本文描述了一种非常有趣的方法,通过FPGA设计软件来促进HLS设计在多核处理器上更快地运行。
这篇论文由UCLA、AMD-Xilinx、根特大学和康奈尔大学的研究团队撰写,描述了RapidStream自动划分算法,该算法将数据流设计划分为多个“岛”,在划分的岛之间插入“锚区域”,然后通过锚区域中的寄存器将每个岛的信号连接到整个设计中。
所有这些划分和拼接背后的目的是将HLS设计分成小块,并将其交付给现代服务器中的多个内核。这种策略有很长的历史,现在被用来加速FPGA的开发。
该流程有三个主要的HLS级约束:
1.非重叠分区——并行化不同孤岛的物理实现;
2.精简岛间连接-每个岛间连接都是精简的,以满足时序要求;
3.直接连接-每个岛只能与相邻的岛直接连接。当并行设计布局时,这个约束非常重要。
(注:这些约束与控制逻辑综合使用的约束完全不同,处于更高的层次。)
RapidStream的开发者将数据流设计定义为一组并行处理元素(PE)和一组根据设计的数据流要求连接PE的FIFO。PE内部可以很复杂,但是只能通过FIFO接口和其他PE通信。
如上所述,RapidStream将FPGA fabric分为两个区域:大小相同的区域和放置在相邻区域之间的窄列和窄行中的锚区域。有意思的是,RapidStream似乎是专门为AMD-Xilinx Virtex ultra scale+FPGA打造的,是一款由FPGA chiplet(AMD-Xilinx语言中的超级逻辑区,简称SLR)制作的2.5D器件。
本文包含几个描述RapidStream工作性能的图表。下图显示了六种不同数据流设计与无分区的流水线/非流水线版本之间的时钟速率比较。
从上图可以看出,RapidStream的时钟速率高于所有非流水线版本。这是意料之中的,因为流水线是FPGA时钟速度提升的核心。然而,在六种情况中的五种情况下,RapidStream的结果优于具有相同设计的RTL版本的管道。这个结果需要我们注意。
以下是布局和布线的时间结果比较:
RapidStream的布局运行时间比非分区设计要好得多。这是因为RapidStream可以将每个分区发送到不同的处理器内核进行布局。
尽管FPGA厂商试图让布局算法在多核处理器上运行得更快,但RapidStream的开发人员从经验中发现,如果FPGA设计没有分区,那么在两个以上的处理器内核上运行AMD-Xilinx Vivado设计工具时并没有太大的改善。
正在用FPGA开发HLS设计的读者——尤其是AMD-Xilinx FPGA——应该会对RapidStream感兴趣。更多细节可以在GitHub上找到。
原始链接:
HTTPS://www . ee journal . com/article/can-HLS-partitioning-speed-up-placement-and-routing-of-FPGA-designs-yes-oh-yes/
高端微信群介绍
风险投资集团
艾,,芯片创始人,投资人,分析师,经纪人
闪存集群
覆盖全球5000多位华人闪存和存储芯片精英。
云计算小组
公共云和私有云讨论,如全闪存、软件定义的存储SDS、超融合等。
AI芯片组
讨论AI芯片和GPU、FPGA、CPU的异构计算。
5G组
物联网,5G芯片讨论
第三代半导体集团
氮化镓、碳化硅等化合物半导体的探讨
内存芯片组
浅谈DRAM、NAND、3D XPoint等存储介质及主控
汽车电子集团
浅谈单片机、电源、传感器等汽车电子
光电器件组
浅谈通信、激光、ToF、氩、垂直腔面发射激光器等光电器件。
频道组
以及存储芯片产品报价、报价、渠道、供应链。
加入上面的群聊
长按关注
带你进入所有的存储,所有的智能,
万物互联的信息革命新时代。
微信号:SSDFans