MLU服务器层次结构
MLU服务器通过PCIe与主机交换数据。具有多个卡的MLU服务器层次结构系统包括五个级别:服务器级别,卡级别,芯片级别,群集级别和核心级别,如图。
• 级别0是服务器级别,由几个CPU控制单元,本地DDR存储单元和几个通过PCIe总线互连的MLU卡作为服务器级别的计算单元组成。
• 级别1是卡级别。每个MLU卡均包含本地DDR存储单元和作为计算单元的芯片。
• 级别2是芯片级别。每个芯片由几个群集组成,作为计算单元。
• 级别3是群集级别。每个群集由几个加速核心作为控制和计算单元,并由共享内存作为存储单元。
• 级别4是核心级别。每个加速核心均由本地存储和本地处理单元阵列组成。
MLU服务器层次结构能够通过增加卡,芯片,集群或内核的数量来方便地提高整个系统的计算能力。
MLU 270内存层次结构
下图显示了MLU270单通道的存储器层次结构。每个核主要由功能单元(FU),通用寄存器组(GPR),神经元存储单元(Neural-RAM,NRAM)和权重存储单元(Weight-RAM,WRAM)组成。此外,四个物理核心构成一个集群。每个MLU270具有4个群集。每个内核都有一个单独的内存,称为Local-DRAM(LDRAM)。如图,一个群集中的四个内核共享芯片上的共享RAM(SRAM)。此外,所有内核都可以访问DDR上称为Global-DRAMs(GDRAM)的全局共享内存。LDRAM,GDRAM和片上存储通道还具有1级缓存(Last Level Cache,LLC),该缓存主要用于缓冲多个内核之间的共享只读数据,从而加快了内存访问速度。当BANG C程序使用指向GDRAM空间的常量指针执行内存访问时,CNCC将优化内存访问以启用LLC。
MLU270内存层次结构