华为改进 Transformer 架构:盘古-π 解决特征缺陷问题,同规模性能超 LLaMA

华为盘古系列,带来架构层面上新!华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π。 它通过增强非线性,在传统 Transformer 架构上做出改进,由此可以显著降低特征塌陷问题。带来的直接效 … Continue reading 华为改进 Transformer 架构:盘古-π 解决特征缺陷问题,同规模性能超 LLaMA

扩散模型和 Transformer 梦幻联动,一举拿下新 SOTA,MILA 博士:U-Net 已死

“U-Net 已死,Transformer 成为扩散模型新 SOTA 了!” 就在 ChatGPT 占尽 AI 圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。 △MIL … Continue reading 扩散模型和 Transformer 梦幻联动,一举拿下新 SOTA,MILA 博士:U-Net 已死

Transformer 作者出走谷歌创业,专攻通用人工智能,已获得 6500 万美元投资

最近,一家 AI 初创公司引起了不少人的注意。在推特上宣布成立之时,有不少人为其点赞和转发。 一上来就要搞通用人工智能,什么来头?我们看了一下它的创始人名单: Ashish Vaswani 和 Nik … Continue reading Transformer 作者出走谷歌创业,专攻通用人工智能,已获得 6500 万美元投资