近日,CNMO了解到,华为公司将发布一款直接对标ChatGPT的多模态千亿级大模型产品,名为“盘古Chat”。预计华为盘古Chat将于今年7月7日举行的华为云开发者大会(HDC.Cloud 2023)上对外发布并内测,产品主要面向ToB/G政企端客户。
这意味着,在国产大模型军备竞赛中,继阿里、百度之后,又一重要科技巨头入局。基于华为的技术能力,盘古Chat有望成为国内技术能力最强的ChatGPT产品之一,同时华为生态产业链企业也将因此受益。
据悉,盘古大模型于2020年11月在华为云内部立项成功。对于盘古大模型定位,华为内部团队确立了三项最关键的核心设计原则:一是模型要大,可以吸收海量数据;二是网络结构要强,能够真正发挥出模型的性能;三是要具有优秀的泛化能力,可以真正落地到各行各业的工作场景。
此外,CNMO了解到,与其他厂商相比,华为的优势或在于拥有完整的产业链和较强的算力调配能力。据浙商证券此前披露,在训练千亿参数的盘古大模型时,华为团队调用了超过2000块的昇腾910芯片,进行了超2个月的数据训练能力。华为内部称,每年大模型训练调用GPU/TPU卡超过4000片,3年的大模型算力成本高达9.6亿元人民币。
值得一提的是,由于盘古大模型拥有超大规模的参数,因此训练成本较高,但在中文语言的处理方面具有很高的准确度和质量。