“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 20:31

“学术剽窃”定义正被AI模糊,我们该如何应对?

本文来自微信公众号:学术头条,作者:Diana Kwon(自由科学记者),编译:马雪薇,原文标题:《Nature刊文:“学术剽窃”定义正被AI模糊,我们该如何应对?》,题图来自:视觉中国

文章摘要
AI在学术写作中的应用引发了对学术剽窃定义的模糊。文章讨论了AI工具的使用带来的挑战和影响,以及如何应对这一问题。

• 💡 AI工具在学术写作中的广泛使用,引起了对剽窃和版权侵犯问题的关注

• 💡 学术界对于AI撰写的文本是否属于剽窃存在分歧,需要更清晰的指导方针

• 💡 AI检测工具的准确率不高,未来AI在学术领域的合法与非法使用边界可能进一步模糊

今年四月,Science 颠覆了之前的铁律:规定允许在论文的“方法”章节说明后,正当地采用生成式人工智能(AI)和大语言模型(LLM)制作插图、撰写论文内容。


如今,AI 能够帮助研究者腾出更多思考的时间,但问题是,这算不算剽窃?以及在什么情况下应该允许使用这项技术呢?


近日,科学记者 Diana Kwon 在 Nature 杂志上刊文讨论了生成式 AI 工具在学术写作中的应用及其带来的挑战和影响。


她指出,ChatGPT 等生成式 AI 工具在节省时间、提高清晰度并减少语言障碍方面展现出了巨大的潜在价值,但同时也可能涉及剽窃和侵犯版权的问题。


她还提到,AI 的使用在学术写作中已经爆炸性增长,尤其是在生物医学领域。然而,检测 AI 生成的文本存在困难,因为它们可以通过轻微编辑变得几乎无法检测。同时,AI 工具的合法与非法使用界限可能会进一步模糊,因为越来越多的应用程序和工具正在集成 AI 功能。


最后,她认为,需要更清晰的关于 AI 在学术写作中使用的指导方针,以帮助研究人员和期刊确定何时使用 AI 工具是恰当的,以及如何披露其使用情况。


学术头条在不改变原文大意的情况下,做了简单的编译。内容如下:


从一月份哈佛大学校长因被指控而辞职,到二月份同行评审报告中出现的剽窃文本被揭露,今年的学术界因剽窃事件而动荡不安。


但学术写作正面临着一个更大的问题。生成式人工智能(AI)工具的迅速普及引发了关于这算不算剽窃以及在什么情况下应该允许使用的疑问。路易斯安那州新奥尔良市的版权和剽窃顾问 Jonathan Bailey 说:“从完全由人撰写到完全由 AI 撰写,AI 的使用范围很广,中间是一片巨大的混淆地带。”


基于大语言模型(LLM)的生成式 AI 工具,如 ChatGPT,可以节省时间,使文本更加清晰易懂并减少语言障碍。现在,许多研究人员认为,在某些情况下它们是可以接受的,并且应该完全公开其使用情况。


但这些工具使原本关于不当使用他人作品的激烈辩论变得更加复杂。LLM 经过训练,可以通过学习大量已发表的写作来生成文本。因此,如果研究人员将机器的工作成果据为己有,或者机器生成的文本与某人的作品非常相似但没有注明来源,这可能会导致类似剽窃的行为。这些工具还可以用来掩饰故意剽窃的文本,而且它们的使用很难被发现。英国普利茅斯大学的生态学家 Pete Cotton 说:“界定我们所说的学术不诚实或剽窃是什么,以及边界在哪里,将非常非常困难。”


在 2023 年一项针对 1600 名研究人员进行的调查中,68% 的受访者表示,AI 将使剽窃行为变得更容易且更难被发现。柏林应用科学大学剽窃鉴定专家 Debora Weber-Wulff 说:“每个人都担心其他人使用这些系统,他们也担心自己在应该使用的时候没有使用。关于这件事,大家都有些慌乱。”


当剽窃遇见AI


根据美国研究诚信办公室的定义,剽窃是指“未经适当引用或致谢,就采用他人的想法、过程、结果或文字”。2015 年的一项研究估计,1.7% 的科学家承认有过剽窃行为,30% 的科学家知道他们的同事有过这种行为。


LLM 可能会使这种情况变得更糟。如果有人先让 LLM 改写文本,那么故意剽窃人类撰写的文本就可以轻易地被掩饰。加拿大不列颠哥伦比亚大学计算机科学家和语言学家 Muhammad Abdul-Mageed 说,这些工具可以被引导以复杂的方式进行改写,比如采用学术期刊的风格。


一个核心问题是,使用完全由机器编写而非人类编写的未注明出处的内容是否算作剽窃。许多研究人员说,不一定算。例如,欧洲学术诚信网络将使用 AI 工具进行写作的未经授权或未申报的使用定义为“未经授权的内容生成”,而不是剽窃。Weber-Wulff 说:“对我来说,剽窃应该是可以归因于另一个可识别的人的东西。”她补充说,尽管有生成式 AI 产生几乎与现有的人类编写内容相同的文本的情况,但这通常不足以被认为是剽窃。


不过,也有些人认为生成式 AI 工具侵犯了版权。剽窃和侵犯版权都是不当使用他人作品的行为,其中剽窃是违反学术伦理的行为,而未经授权使用版权作品可能违反法律。密歇根大学安娜堡分校计算机科学家 Rada Mihalcea 说:“这些 AI 系统是基于数百万人甚至数亿人的作品构建的。”


一些媒体公司和作者抗议他们视为 AI 侵犯版权的行为。2023 年 12 月,《纽约时报》对微软和 OpenAI 提起版权诉讼。该诉讼称这两家公司复制并使用了数百万篇《纽约时报》文章来训练 LLM,如今这些 LLM 生成的内容正与该出版物的内容“竞争”。诉讼中包括了提示导致 GPT-4 几乎逐字复制报纸文章的几个段落的实例。


今年 2 月,OpenAI 在联邦法院提出动议,要求驳回诉讼的部分内容,称“ChatGPT 绝不是《纽约时报》订阅的替代品。”微软的一位发言人表示,“合法开发的 AI 工具应该被允许负责任的发展”,“它们也不能替代记者所发挥的重要内容”。


如果法院裁定未经许可在文本上训练 AI 确实构成版权侵犯,Bailey 说,“这对 AI 公司来说将是一个巨大的冲击。”没有广泛的训练集,像 ChatGPT 这样的工具“就无法存在”。


AI正在爆炸式蔓延


无论这是否被称为剽窃,自 2022 年 11 月 ChatGPT 发布以来,AI 在学术写作中的使用已经爆炸性增长。


在一篇于 7 月更新的预印本中,研究人员估计,2024 年上半年至少有 10% 的生物医学论文摘要使用了 LLM 进行撰写,相当于每年大约 150000 篇论文。该研究由德国蒂宾根大学数据科学家 Dmitry Kobak 领导,分析了 2010 年至 2024 年 6 月之间在学术数据库 PubMed 上发表的 1400 万篇摘要。他们展示了LLM的出现与风格词汇使用增加有关,例如“delves”、“showcasing”和“underscores”,然后使用这些不寻常的词汇模式来估计使用 AI 处理的摘要比例。他们写道:“基于 LLM 的写作助手的出现在科学文献中产生了前所未有的影响。”


图|LLM 的出现与风格词汇使用增加有关。


Kobak 预测,LLM 的使用“肯定会继续增加”,并且将“可能变得更难检测”。


在学术写作中未公开使用软件的情况并不新鲜。自 2015 年以来,法国图卢兹大学计算机科学家 Guillaume Cabanac 和他的同事一直在揭露由名为 SCIgen 的软件撰写的“胡言乱语”的论文,以及由自动翻译或改写文本的软件创造的包含“扭曲短语”的论文。Cabanac 说:“即使在生成式 AI 出现之前,人们就已经有了这些工具。”


然而,在学术写作中使用 AI 也有一些价值。研究人员表示,这可以使文本和概念更清晰,减少语言障碍,并为实验和思考腾出时间。利雅得沙特国王大学信息技术研究员 Hend Al-Khalifa 表示,在生成式 AI 工具可用之前,许多将英语作为第二语言的同事在撰写论文时会感到困难。“现在,他们专注于研究,并使用这些工具消除写作的麻烦,”她说。


但对于 AI 的使用何时构成剽窃或违反伦理,人们仍然感到困惑。马里兰大学学院公园计算机科学家 Soheil Feizi 表示,使用 LLM 来改写现有论文的内容明显是剽窃。但如果透明地使用 LLM 来帮助表达想法——无论是根据详细提示生成文本,还是编辑草稿——则不应受到惩罚。Feizi 说:“我们应该允许人们利用 LLM 毫不费力地、清晰地进行表达。”


现在许多期刊都有允许一定程度使用 LLM 的政策。在最初禁止由 ChatGPT 生成的文本之后,Science 在 2023 年 11 月更新了他们的政策,表示在撰写手稿时使用 AI 技术的行为应完全披露——包括使用的系统和提示。作者有责任确保准确性和“确保没有剽窃”。Nature 也表示,研究手稿的作者应在方法部分记录任何 LLM 的使用。对 100 家大型学术出版商和 100 份高排名期刊的分析发现,截至 2023 年 10 月,24% 的出版商和 87% 的期刊对使用生成式 AI 有指导方针。几乎所有提供指导的都说 AI 工具不能被列为作者,但对于允许的 AI 使用类型和所需的披露水平,政策各不相同。Weber-Wulff 表示,急需更清晰的关于学术写作中使用 AI 的指导方针。


目前,Abdul-Mageed 表示,撰写科学论文时广泛使用 LLM 的行为因其局限性而受到制约。用户需要创建详细提示,描述受众、语言风格和研究子领域。“实际上,要让一个语言模型给你确切想要的东西是非常困难的,”他说。


但 Abdul-Mageed 表示,开发者正在构建应用程序,这将使研究人员更容易生成专业科学内容。他说,未来用户可能只需从下拉菜单中选择选项,按下一个按钮,就能从零开始生成整篇论文,而无需编写详细提示。


边界可能会进一步模糊


在快速采用 LLM 编写文本的同时,也出现了大量旨在检测 LLM 的工具。尽管许多工具宣称准确率很高——在某些情况下超过 90%——但研究表明,大多数工具并没有达到对外宣称的准确率。在去年 12 月发表的一项研究中,Weber-Wulff 和她的同事评估了在学术界广泛使用的 14 种 AI 检测工具。其中只有 5 种能够准确识别 70% 或更多的文本为 AI 或人类撰写,没有一个得分超过 80%。


当检测到有人轻微编辑 AI 生成的文本,通过替换同义词和重新排列句子时,检测器的准确率平均下降到 50% 以下。作者写道,这样的文本“几乎无法被当前工具检测到”。其他研究也显示,多次要求 AI 改写文本会大幅降低检测器的准确率。


此外,AI 检测器还存在其他问题。一项研究表明,如果英语文章是由非英语为母语的人所写,它们更可能错误地将这些写作归类为 AI 生成。Feizi 说,检测器无法可靠地区分完全由 AI 撰写的文本和作者使用基于 AI 的服务来润色文本的情况,后者通过帮助语法和句子清晰度来改进文本。“区分这些情况将非常困难和不可靠——可能导致极高的误报率,”他说。他补充说,被错误地指控使用 AI,可能对那些学者或学生的声誉造成“相当大的损害”。


合法与非法使用 AI 的边界可能会进一步模糊。2023 年 3 月,微软开始将其生成式 AI 工具整合到其应用程序中,包括 Word、PowerPoint 和 Outlook。其 AI 助手 Copilot 的一些版本可以起草或编辑内容。6 月,谷歌也开始将其生成式 AI 模型 Gemini 整合到 Docs 和 Gmail 等工具中。


“AI 正在变得如此深入地嵌入我们使用的所有东西中,我认为人们将越来越难以知道你所做的事情是否受到了 AI 的影响,”英国圣马可和圣约翰大学高等教育专家 Debby Cotton 说。“我认为我们可能无法跟上它的发展速度。”


原文链接:https://www.nature.com/articles/d41586-024-02371-z


本文来自微信公众号:学术头条,作者:Diana Kwon(自由科学记者),编译:马雪薇

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定