原文标题:《离谱!美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科》

天下苦 GPT 检测器久矣!用 AI 的怕被揪出来,没用 AI 的怕被冤枉。最近,又发生了一起被 AI 误判的冤假错案。

离了个大谱!

辛辛苦苦码出的毕业论文,居然被教授拿去放在 ChatGPT 里检测,然后就被判定为抄袭?

教授因此挂掉了全班一半的人,然后学校还因此拒发毕业证?

教授:被 ChatGPT 认领的,都得 0 分

最近,在得克萨斯农工大学(Texas A&M),发生了这样一件令人哭笑不得的事。

为了检测学生提交的论文是否作弊,一位名叫 Jared Mumm 的教授把他们的论文提交给了 ChatGPT。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

他对学生们说:我会把你们的论文复制粘贴到 ChatGPT 中,它会告诉我,你们的论文是不是它生成的。

「我会在两个不同的时间段里,把每个人的最后三篇论文放进去,如果这两次它们都被 ChatGTP 认领了,我就会给你 0 分。」

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

显然,没有任何计算机相关背景知识的 Mumm 教授,对 ChatGPT 的原理一窍不通。

实际上,ChatGPT 并不能识别由 AI 创建的内容,即使是它自己写的都不行。

甚至,他连 ChatGPT 都没拼对 —— 直接写成了「Chat GPT」以及「chat GPT」。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

结果,全班有一多半人的论文被 ChatGPT 不负责任地「认领」,因而挂了这一科。

更倒霉的是,大多数已毕业学生的文凭,因此直接被学校拒发了。

当然,Mumm 教授也不是毫不留情,他为全班同学提供了重做作业的机会。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

如何证明自己没用 ChatGPT?

收到上面这封邮件后,几名学生写信给 Mumm 力证自己的清白。他们提供了带有时间戳的 Google Docs,来证明自己并没有使用 ChatGPT。

但 Mumm 教授直接无视了这些电子邮件,只在几个学生的评分软件中留下了这样的回应 —— 我不给 AI 生成的狗屎评分。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

不过,还是有学生「平反」了,据说,已经有一名学生被「无罪释放」,并且得到了 Mumm 的道歉。

然而,让情况更复杂的事,有两名学生「挺身而出」,承认自己的确在本学期使用过 ChatGPT。

这一下子就让其他没有用 ChatGPT 写论文的学生,更难自证清白了……

对此,得克萨斯农工大学商学院表示正在调查这一事件,但并没有学生不及格,也没有人因为这个问题被延毕。

学校表示,Mum 教授正在一对一地与学生谈话,了解他们写作业的过程中是否使用了 AI,使用到了什么程度。个别学生的文凭将被扣留,直到调查完成。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

而学生们表示,自己并没有获得文凭。

目前,事件还在调查中。

用 ChatGPT 检测 ChatGPT?

那么问题来了,ChatGPT 能证明一篇文章是不是自己写的吗?

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

来源:B站UP 主「子羡 nike」

对此,我们基于教授这封邮件的内容,问了问 ChatGPT 的观点:

ChatGPT 一上来就表示,自己并没有能力验证内容的原创性,以及是不是由 AI 生成的。

「这位老师似乎误解了像我这样的 AI 是如何工作的。虽然 AI 可以根据提示生成文本,但它不能确定另一篇文本是否由人工智能生成。」

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

话虽如此,但这并不能拦住爱整活的网友。

他们来了一出「以其人之道还治其人之身」,在线教 Mumm 教授做人。

首先,ChatGPT 表示,教授写的这封邮件,正是出自自己之手。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

紧接着,网友又复刻了 Mumm 教授的做法 ——

拿一段看起来像是某篇论文的节选,来问 ChatGPT 是不是它写的。

这次,ChatGPT 虽然没说是自己写的,但基本上确定内容就是来自 AI。

其中,有几个特征与 Al 生成的内容一致:

1. 文本是连贯的,遵循一个清晰的结构,从一般到具体。

2. 准确地引用了来源和数字数据。

3. 正确地使用了术语,这是典型的 Al 模型的特点。比如 GPT-4,就是在包括科学文献在内的各种文本中训练出来的。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

上下滑动查看全部

那么实际上,这段内容的出处是哪里呢?

有意思的地方来了,没想到竟然是 Mumm 教授自己写的博士论文!

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

AI 检测器并不灵?

既然 ChatGPT 无法检验一段内容是不是 AI 生成的,那什么可以呢?

自然是为此专门诞生的「AI 检测器」,号称是用魔法打败魔法。

众多 AI 检测器中,最出名的一个便是由普林斯顿华人本科生 Edward Tian 创建的 GPTZero—— 它不仅免费,而且效果拔群。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

只需把文字复制粘贴进去,GPTZero 就可以明确地指出一段文字中,哪段是 AI 生成的,哪段是人类写的。

原理上,GPTZero 主要靠「困惑度」(文本的随机性)和「突发性」(困惑度的变化)作为指标进行判断。

在每次测试中,GPTZero 还会挑选出困惑度最高的那个句子,也就是最像人话的句子。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

但这个方法其实并不完全可靠,虽然 GPTZero 声称产品的假阳性率 < 2%,但这个数据更多是基于对新闻类内容的评判。

在实测中,有人曾把美国宪法输入 GPTZero,结果被判定是 AI 写的。

而刚刚那段 ChatGPT 的回复,GPTZero 则认为很可能完全是由人类写的。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

这导致的后果就是,不了解其中原理、太固执的老师,就会无意中冤枉很多学生,比如 Mumm 教授。

所以,如果遇到这种情况,我们该怎么自证清白?

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

有网友提议,类似「美国宪法实验」,把 ChatGPT 出现之前的文章丢进 AI 检测器,看看结果如何。

然而,从逻辑上讲,即使能证明 AI 检测器确实不靠谱,学生也无法直接证明自己的论文不是由 AI 生成的。

问一下 ChatGPT 怎么破,它是这么说的。

「让老师理解 AI 的工作方式和局限性」,嗯,ChatGPT 发现了华点。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

目前小编唯一想到的答案是,如果不在教授眼皮底下直接写,那就每次写论文都录屏,或者干脆给教授开直播。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

连 OpenAI 对于自己的官方 ChatGPT 检测器,也只能保证 26% 的「真阳性」正确率。

他们还特地发了官方声明给大家打预防针:「我们真的不建议孤立地使用这个工具,因为我们知道它可能出错,使用 AI 进行任何种类的评估都是如此」。

AI 内容检测为何如此困难?

目前市面上已有的检测器已经数不胜数 ——GPTZero、Turnitin、GPT-2 Output、Writer AI 、Content at Scale AI 等等,但准确率都差强人意。

那么,为什么我们想检测一段内容是不是 AI 生成的,就这么困难?

Turnitin 的 AI 副总裁 Eric Wang 称,用软件检测 AI 写作的原理,是基于统计学。从统计学的角度来看,AI 与人类的区别在于,它极其稳定地处于平均水平。

「像 ChatGPT 这样的系统就像是自动补全的高级版本,寻找下一个最可能要写的单词。这实际上就是它为什么读起来如此自然的原因。AI 写作是人类写作中最可能的子集。」

Turnitin 的检测器便会「识别出书写过于一致的平均情况」。然而,有时人类的写作看起来也会处于平均水平。

在经济学、数学和实验室报告中,学生倾向于遵循固定的写作风格,这意味着他们更有可能被误认为是 AI 写作。

更好笑的是,前不久的一篇论文中,来自斯坦福大学的研究团队发现:对于非母语者的论文,GPT 检测器更容易判为 AI 写的。其中,中国人写的英文论文被判为 AI 生成的概率,高达 61%。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

论文地址:https://arxiv.org/ pdf / 2304.02819.pdf

研究人员从中国的教育论坛上获取了 91 篇托福作文,又从美国 Hewlett 基金会的数据集中摘取了 88 篇美国八年级学生写的作文,输进了 7 大 GPT 检测器。

美国教授用 ChatGPT「证实」论文抄袭,半个班学生惨遭挂科-编程之家

图中百分比即「误判」比例,也就是明明由人写的,却被判为 AI 生成的

可以看到,美国学生的作文被误判的概率最高才 12%,而中国学生的作文,概率基本过半,甚至高达 76%。

研究者的结论是,因为非母语者写的东西不地道,复杂度低,容易被错判。

可见,以复杂度来判定作者是人类还是 AI,并不合理。

抑或,背后还有其他原因?

对此,英伟达科学家 Jim Fan 称,检测器在很长一段时间内都是不可靠的。毕竟 AI 会变得越变越强,并且会以越来越像人类的方式写作。

可以肯定地说,随着时间的推移,这些语言模型的小怪癖会越变越少。

不知这对学生们,会是福音还是噩耗。

参考资料:

  • https://www.rollingstone.com/culture/culture-features/texas-am-chatgpt-ai-professor-flunks-students-false-claims-1234736601/

本文来自微信公众号:新智元 (ID:AI_era)