北京交通大学研究团队悄默声推出了一版 o1,而且所有源代码、精选数据集以及衍生模型都开源!名为 O1-CODER,专注于编码任务。 团队认为编码是一个需要 System-2 思维方式的典型任务,涉及谨 … Continue reading 北交开源 o1 代码版:强化学习 + 蒙特卡洛树搜索,放出源代码、精选数据集以及衍生模型
标签: 开源模型
小扎自曝砸重金训 Meta Llama 4 模型:24 万块 GPU 齐发力,预计 2025 年发布
Llama 3.1 刚发布不久,Llama 4 已完全投入训练中。 这几天,小扎在二季度财报会上称,Meta 将用 Llama 3 的十倍计算量,训练下一代多模态 Llama 4,预计在 2025 年 … Continue reading 小扎自曝砸重金训 Meta Llama 4 模型:24 万块 GPU 齐发力,预计 2025 年发布
阿里云宣布Qwen2开源 性能超美国开源模型Llama3
风君子博客6月7日消息,阿里云今日宣布,比美国开源Llama3和中国闭源模型们更强的Qwen2今日开源,免费下载。 阿里云表示:历经数月努力,我们很高兴迎来了Qwen系列模型从Qwen1.5到Qwen … Continue reading 阿里云宣布Qwen2开源 性能超美国开源模型Llama3
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
6 月 3 日消息,昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE,基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,号称是首个完整将 MoE … Continue reading “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE