北交开源 o1 代码版:强化学习 + 蒙特卡洛树搜索,放出源代码、精选数据集以及衍生模型

北京交通大学研究团队悄默声推出了一版 o1,而且所有源代码、精选数据集以及衍生模型都开源!名为 O1-CODER,专注于编码任务。 团队认为编码是一个需要 System-2 思维方式的典型任务,涉及谨 … Continue reading 北交开源 o1 代码版:强化学习 + 蒙特卡洛树搜索,放出源代码、精选数据集以及衍生模型