中科院软件所在开源社区聊天信息挖掘研究中获进展:可促进开源社区知识共享

10 月 24 日消息,据中国科学院官网,近日,中国科学院软件研究所互联网软件技术实验室在开源社区群智挖掘研究中取得进展

Gitter、Slack 等开源社区实时聊天平台是目前开发者协作的主要沟通工具,在软件开发和维护的过程中被广泛使用。

社区聊天中包含了大量有价值的问题-解决方案信息,这些信息能够有效地提高软件质量和生产力。比如,开发者可以将项目开发过程中存在的安装、编译等问题推送到平台上,经由其他开发者的回复以解决这些问题。但由于社区群体聊天的对话存在耦合性和复杂性,现有方法难以对其挖掘和提取

该研究面向开源社区中的开发者,针对开发者实时聊天内容中大量有价值的“问题-解决方案”信息,提出了一种多层次模型 —— 面向群智的问题及解决方案自动提取技术(ISPY),有效构建了“问题-解决方案”(Issue-Solution)知识库,实现了当前“问题-解决方案”信息提取性能最优,在促进开源社区知识共享、提升问题解决效率等方面具有重要意义

据介绍,研究团队在 8 个开源社区的 4944 条聊天数据上测试 ISPY 模型的准确率、召回率以及调和平均值。

了解到,研究团队还利用 ISPY 模型实现了在 StackOverflow 平台上自动问答,以 6/26 的最佳答案、19/26 的候选答案被该平台采纳,进一步证明了该模型的有效性和实用性

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注