人人都是程序员，英伟达联合推出 StarCoder2 模型：生成、补全、调试代码一气呵成

2 月 29 日消息，英伟达近日联合 Hugging Face 和 ServiceNow，发布了名为 StarCoder2 的 LLMs 系列模型，希望成为代码生成领域的新标准，具备性能、透明度和成本效益等诸多优势。

该系列模型包括一个由 ServiceNow 训练的 30 亿参数模型、一个由 Hugging Face 训练的 70 亿参数模型和一个由英伟达训练的 150 亿参数模型。

这是通过使用名为 Stack v2 的新代码数据集实现的，该数据集比 Stack v1 大七倍；新的训练技术也意味着该模型可以更好地理解 COBOL 等低资源编程语言、数学和程序源代码讨论。

StarCoder2 经过 619 门编程语言培训，可以执行源代码生成、工作流生成、文本摘要等专业任务。英伟达表示，开发人员可以利用它进行代码补全、高级代码总结、代码片段检索等，从而提高工作效率。

英伟达表示相比较初版 StarCoder LLMs，新的 30 亿参数模型进一步精简和筛选了优质参数，其性能相当于 150 亿参数模型的初版 StarCoder。

StarCoder2 采用 BigCode Open RAIL-M 许可证，允许免版税访问和使用。注：感兴趣的用户可从 BigCode 项目的 GitHub 页面获取源代码，可从 Hugging Face 下载模型。

Published by