开源模型 – 编程之家

北交开源 o1 代码版：强化学习 + 蒙特卡洛树搜索，放出源代码、精选数据集以及衍生模型

北京交通大学研究团队悄默声推出了一版 o1，而且所有源代码、精选数据集以及衍生模型都开源！名为 O1-CODER，专注于编码任务。团队认为编码是一个需要 System-2 思维方式的典型任务，涉及谨 … Continue reading 北交开源 o1 代码版：强化学习 + 蒙特卡洛树搜索，放出源代码、精选数据集以及衍生模型

小扎自曝砸重金训 Meta Llama 4 模型：24 万块 GPU 齐发力，预计 2025 年发布

Llama 3.1 刚发布不久，Llama 4 已完全投入训练中。这几天，小扎在二季度财报会上称，Meta 将用 Llama 3 的十倍计算量，训练下一代多模态 Llama 4，预计在 2025 年 … Continue reading 小扎自曝砸重金训 Meta Llama 4 模型：24 万块 GPU 齐发力，预计 2025 年发布

阿里云宣布Qwen2开源性能超美国开源模型Llama3

风君子博客6月7日消息，阿里云今日宣布，比美国开源Llama3和中国闭源模型们更强的Qwen2今日开源，免费下载。阿里云表示：历经数月努力，我们很高兴迎来了Qwen系列模型从Qwen1.5到Qwen … Continue reading 阿里云宣布Qwen2开源性能超美国开源模型Llama3

“全球首创”单台 RTX 4090 服务器推理，昆仑万维开源 2 千亿稀疏大模型天工 MoE

6 月 3 日消息，昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE，基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来，号称是首个完整将 MoE … Continue reading “全球首创”单台 RTX 4090 服务器推理，昆仑万维开源 2 千亿稀疏大模型天工 MoE