壁仞科技发布首款通用GPU芯片BR100 其BF16算力达1024TFLOPS

风君子博客8月10日消息，壁仞科技在上海发布了首款通用GPU芯片BR100，其INT8算力达2048 TOPS，BF16算力达1024 TFLOPS，TF32+算力达512 TFLOPS，FP32算力达256 TFLOPS。

除了广受关注的BR100通用GPU芯片之外，壁仞科技还正式发布了自主原创架构——壁立仞、创造全球性能纪录的OAM服务器——海玄，以及OAM模组——壁砺100，PCIe板卡产品——壁砺104，以及自主研发的BIRENSUPA软件平台。

壁仞科技创始人、董事长、CEO张文介绍称，BR100是国内率先采用Chiplet技术、率先采用新一代主机接口PCIe 5.0、率先支持CXL互连协议的通用GPU芯片。

发布会上，壁仞科技联合创始人、CTO洪洲，详细介绍了原创架构——壁立仞。洪洲说，壁立仞架构以数据流为中心，对数据流进行深度的优化，通过六大技术特性，比较完整地解决了数据搬移的瓶颈和并行度不足的问题，使得BR100芯片在给定的工艺下实现了性能和能效的跨越式进步。

洪洲介绍，BR100采用了Chiplet设计理念，让芯片总面积可以突破光罩尺寸对单芯片面积的限制，集成更多的算力和通用性逻辑；此外，通过缩小单个计算芯粒的面积，还可以同时提升产能与良率，进而极大地降低硅片的成本，并支持更灵活的产品策略。

洪洲还现场发布了壁仞科技BR100系列的另一款产品BR104，该款芯片同样基于壁立仞架构，拥有1个计算芯粒，性能约为BR100的一半，同样超越了国际厂商的在售旗舰产品。“Chiplet设计让我们可以通过一次流片，同时得到两种芯片，大大加快了迭代速度，同时覆盖不同层级的市场。”洪洲说。

发布会上，壁仞科技联合创始人、总裁徐凌杰和浪潮信息副总裁、AI&HPC产品线总经理刘军，共同揭幕OAM服务器——海玄。徐凌杰介绍，该服务器可以提供高达8PFLOPS（8000万亿次每秒）的浮点峰值算力，超过了此前的任何一台8卡加速计算设备的能力。

与此同时，壁仞科技还发布了基于BR104的主流产品壁砺104，基于标准PCIe形态，功耗控制在300W以内，其形态较为紧凑，部署广泛、适应性强，可以适配多种2-4U的服务器，与客户现有的基础设施做到高度的兼容。

徐凌杰介绍，从芯片到板卡模组到服务器，以壁砺100和壁砺104为底座，壁仞科技形成了一条完整的数据中心加速计算产品线。壁砺104已经对部分用户开放了邀测，即将量产出货；海玄OAM服务器目前正在进行紧锣密鼓的内部测试，预计今年第四季度开放邀测。

壁仞科技在创始之初，除了研发大算力芯片之外，还着力于以客户需求为出发点，提供软硬一体的解决方案，帮助客户实现价值最大化。

发布会上，壁仞科技联席CEO李新荣详细介绍了壁仞科技自主研发的BIRENSUPA软件平台，该平台构建在BR100系列产品的底层硬件之上，由驱动层、编程平台、框架层、应用解决方案构成，支持各类应用场景。BIRENSUPA编程平台位于软件栈的中心位置，包括BIRENSUPA编程模型、加速库、工具链、编译器等组件。开发者可以通过这些组件，释放BR100系列硬件的强大算力，并开发各种应用。

BIRENSUPA平台支持主流的深度学习框架，发布会上，壁仞科技联席CEO李新荣与百度飞桨训练芯片适配技术负责人李琦共同宣布，壁仞科技加入由百度飞桨发起的硬件生态共创计划。

壁仞科技发布首款通用GPU芯片BR100 其BF16算力达1024TFLOPS

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复