晓是从凹非寺发现的
量子报道|公众号QbitAI AI论文,到底应该强制开源代码吗?
NeurIPS 2020官方近日发布了开源指南。 从2019年开始,NeurIPS就“强烈推荐”提交了论文代码,但还不是强制性的。
无论如何,官方传达了AI学术顶级会的开源代码是行业趋势的信号。
NeurIPS还引起了“经年”式的讨论,即如果将来要求学术会议必须是开源的,投稿者是否应该拒绝。
出乎意料的是,很多网友都不是开源的,我觉得很合理。
反对1 :代码不是那么重要
首先,开放源代码的目的是什么? 是为了让其他研究者能再现结果。
如果一篇论文包含足够的细节,其他人可以根据其中的公式自己编写代码,对于这样的论文可以不公开代码。 但是,前提是提供充分的细节。
例如,谷歌的alpha go没有开源代码,但没有人怀疑它的正确性。 实际上,也有很多人根据谷歌论文再现了Alpha GO。
而且作者本人的代码有可能发生错误。 不开放源代码的好处之一是让其他研究者独立再现。
万一作者挖了一个代号不明的“洞”,其他人也可以避免被带上水沟。
另外,不要高估代码的价值。 经典论文可以持续几十年之久,但代码在10年后很可能变得难以执行。
当然,另一种观点是数据集对AI更重要。 没有数据的代码没有价值,很多数据集都不能打开。 这意味着,即使拿到代码也无法再现SOTA的结果。
反对2 )为作者考虑非开源,同时也是为了考虑作者的各种特殊情况。
例如,一些研究者正在进行纯理论的研究。 有网友说,他甚至不知道如何构建Docker容器。 我发表了多篇论文,在GitHub上开放源代码,但它从来没有得到维护。
因此,论文是否开源应该取决于代码对文章的重要性,而不应该一概而论。
另外,也有商业公司的研究者在写论文时使用了公司内部自己的软件库。 如果强制开源,就必须从头再写一次代码,很费事,对那些人也不公平。
此外,一些作者本身并不是不想开源,而是希望在一段时间内保护成果,并在论文发表几个月后使代码开源。 这对从事医疗、法律领域的学者来说很重要。
综上所述,反方网友认为,强制开源过于极端,对论文开源应该持鼓励而不是强制的态度。
支持开源:不开源怎么能接受呢,首先从事石油行业的网友表示,他们行业的数据都是商业机密,要么公开数据、代码,要么在文章中舍弃公式,隐藏成果,占98% 结果怎么能让人信服呢?
他认为不公开数据和代码就像从一篇论文中删除所有重要因素一样。 这样的研究即使发表了也没有价值。
一些人认为强制开源会改变其他行业对机器学习的偏见。
为什么很多其他学科的人都把机器学习看作伪科学? 因为AI领域的论文发表过程非常不成熟。
科学方法的关键是一致性和可重复性。 追着单一的指标,每个人都沉迷于SOTA是个大问题。
开源是解决这个问题的一种方法。
去年,AI知名女学者Anima Anandkumar在个人博客上公开呼吁,强烈反对发论文不发代码的行为,呼吁学术会议强制要求在投稿的同时必须公开代码。
她认为非开源代码不利于论文审核,不利于追究论文造假的责任,也不利于行业的开放竞争。
你认为公开的学术论文也应该公开代码吗?
参考链接:
3359 www.Reddit.com/r/machine learning/comments/fzss 9t/d _ if _ a _ paper _ or _ project _ doesnt _ pu public
@量子位跟踪AI技术与产品新动向
深有感触的朋友,欢迎分享认同、关注、三联“