晓是从凹非寺发现的

量子报道|公众号QbitAI AI论文,到底应该强制开源代码吗?

NeurIPS 2020官方近日发布了开源指南。 从2019年开始,NeurIPS就“强烈推荐”提交了论文代码,但还不是强制性的。

无论如何,官方传达了AI学术顶级会的开源代码是行业趋势的信号。

NeurIPS还引起了“经年”式的讨论,即如果将来要求学术会议必须是开源的,投稿者是否应该拒绝。

出乎意料的是,很多网友都不是开源的,我觉得很合理。

反对1 :代码不是那么重要

首先,开放源代码的目的是什么? 是为了让其他研究者能再现结果。

如果一篇论文包含足够的细节,其他人可以根据其中的公式自己编写代码,对于这样的论文可以不公开代码。 但是,前提是提供充分的细节。

例如,谷歌的alpha go没有开源代码,但没有人怀疑它的正确性。 实际上,也有很多人根据谷歌论文再现了Alpha GO。

而且作者本人的代码有可能发生错误。 不开放源代码的好处之一是让其他研究者独立再现。

万一作者挖了一个代号不明的“洞”,其他人也可以避免被带上水沟。

另外,不要高估代码的价值。 经典论文可以持续几十年之久,但代码在10年后很可能变得难以执行。

当然,另一种观点是数据集对AI更重要。 没有数据的代码没有价值,很多数据集都不能打开。 这意味着,即使拿到代码也无法再现SOTA的结果。

反对2 )为作者考虑非开源,同时也是为了考虑作者的各种特殊情况。

例如,一些研究者正在进行纯理论的研究。 有网友说,他甚至不知道如何构建Docker容器。 我发表了多篇论文,在GitHub上开放源代码,但它从来没有得到维护。

因此,论文是否开源应该取决于代码对文章的重要性,而不应该一概而论。

另外,也有商业公司的研究者在写论文时使用了公司内部自己的软件库。 如果强制开源,就必须从头再写一次代码,很费事,对那些人也不公平。

此外,一些作者本身并不是不想开源,而是希望在一段时间内保护成果,并在论文发表几个月后使代码开源。 这对从事医疗、法律领域的学者来说很重要。

综上所述,反方网友认为,强制开源过于极端,对论文开源应该持鼓励而不是强制的态度。

支持开源:不开源怎么能接受呢,首先从事石油行业的网友表示,他们行业的数据都是商业机密,要么公开数据、代码,要么在文章中舍弃公式,隐藏成果,占98% 结果怎么能让人信服呢?

他认为不公开数据和代码就像从一篇论文中删除所有重要因素一样。 这样的研究即使发表了也没有价值。

一些人认为强制开源会改变其他行业对机器学习的偏见。

为什么很多其他学科的人都把机器学习看作伪科学? 因为AI领域的论文发表过程非常不成熟。

科学方法的关键是一致性和可重复性。 追着单一的指标,每个人都沉迷于SOTA是个大问题。

开源是解决这个问题的一种方法。

去年,AI知名女学者Anima Anandkumar在个人博客上公开呼吁,强烈反对发论文不发代码的行为,呼吁学术会议强制要求在投稿的同时必须公开代码。

她认为非开源代码不利于论文审核,不利于追究论文造假的责任,也不利于行业的开放竞争。

你认为公开的学术论文也应该公开代码吗?

参考链接:

3359 www.Reddit.com/r/machine learning/comments/fzss 9t/d _ if _ a _ paper _ or _ project _ doesnt _ pu public

@量子位跟踪AI技术与产品新动向

深有感触的朋友,欢迎分享认同、关注、三联“