华为改进 Transformer 架构:盘古-π 解决特征缺陷问题,同规模性能超 LLaMA

华为盘古系列,带来架构层面上新!华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π。 它通过增强非线性,在传统 Transformer 架构上做出改进,由此可以显著降低特征塌陷问题。带来的直接效 … Continue reading 华为改进 Transformer 架构:盘古-π 解决特征缺陷问题,同规模性能超 LLaMA