OpenAI将给ChatGPT加水印，帮助人们辨别哪些是AI生成文本

这句话是人工智能写的吗？OpenAI 的新聊天机器人 ChatGPT 引发了公众对一个关键问题的讨论：我们如何知道网上的内容是人写的，还是人工智能写的？

自 2022 年 11 月发布以来，已有超过一百万人使用过 ChatGPT。它让人工智能社区着迷，而且很显然，人工智能生成的文本正在网络上肆意传播。人们用它来编笑话、写故事和起草更好的电子邮件。

ChatGPT 是 OpenAI 的大型语言模型 GPT-3 的衍生产品。针对用户提出的问题，该模型可以生成看起来很像是人类做出的回答。

这些大型语言模型的魔力在于，它们的回答看起来非常真实。但因为人们难以分辨，由此引发的正确性错觉也可能带来危险。

人工智能模型写出的句子看起来是正确的，它们以正确的顺序使用了正确的词汇和语法，但人工智能理解不了它们的含义。

这些模型通过预测句子中最有可能出现的下一个词来工作，所以他们并不知道自己说的是对还是错。即使说的是错的，他们也会用“言之凿凿”的语气表述出来。

在一个已经两极分化、充满政治色彩的网络世界中，这些人工智能工具可能会进一步扭曲我们获取的信息。如果他们被某些产品采用并风靡世界，后果可能是毁灭性的。

人工智能初创公司 Hugging Face 的政策总监艾琳·索莱曼（Irene Solaiman) 表示，我们迫切需要能够区分人类和人工智能编写的文本的方法，以应对潜在的技术滥用。

索莱曼曾是 OpenAI 的人工智能研究员，为 GPT-3 的前身 GPT-2 的发布研究了人工智能模型的输出检测。

找到识别人工智能生成代码的方法也至关重要，例如程序员常用的 Stack Overflow 最近宣布暂时禁止发布由 ChatGPT 生成的回答。

ChatGPT 可以自信地生成编程问题的答案，但它并非完全准确。错误的代码会导致软件 bug，在许多领域，一个 bug 可能带来高昂的代价并造成混乱。

Stack Overflow 发言人表示，该公司的审核员正在“使用包括启发式和检测模型在内的多种工具，检查数千份由社区成员提交的报告”，但不会透露更多细节。

实际上，实现这一目标非常困难，完全禁止人工智能的回答几乎是不可能的。

研究人员尝试了多种方法来检测人工智能生成的文本。一种常见的方法是使用软件来分析文本的不同特征——例如阅读的流畅程度、某些单词出现的频率，或者标点符号、句子长度是否有规律。

“如果你有足够多的文本，一个非常简单的线索就是‘the’这个词过于频繁的出现，”谷歌大脑的高级研究科学家达芙妮·伊波利托（Daphne Ippolito）解释说。

由于大型语言模型通过预测句子中的下一个词来工作，因此它们更有可能使用“the”“it”或“is”等常见词，而不是不可靠的罕见词。

伊波利托和谷歌研究人员在 2019 年发表的论文中发现，这正是自动检测系统擅长识别的文本类型。

但伊波利托的研究也显示了一些有趣的东西：人类参与者倾向于认为，这种“干净”的文本看起来更好，错误更少，因此它更像是人类写的。

实际上，人类撰写的文本通常会有拼写错误，并且变化多端，包含不同的风格和俚语，而“语言模型很少出现拼写错误，他们更擅长生成完美的文本，” 伊波利托说。

“文本中的错别字实际上是一个很好的指标，表明它是人写的，”她补充道。

大型语言模型本身也可用于检测人工智能生成的文本。不列颠哥伦比亚大学的自然语言处理和机器学习研究主席穆罕默德·阿卜杜勒-马吉德（Muhammad Abdul-Mageed）说，最成功的方法之一是在一些由人类编写的文本和一些由机器创建的文本上重新训练模型，使它学会区分两者。

与此同时，德克萨斯大学的计算机科学家斯科特·阿伦森（ Scott Aaronson）一直在为 GPT-3 等模型生成的较长文本开发“水印”机制。他在博客中写道，通过在词汇选择上加入“不引人注意的秘密信号”，人们就可以证明这段文字是 GPT 模型生成的。

OpenAI 发言人证实，该公司正在研究水印，并且表示其政策规定用户应该“以一种任何人都不会合理地漏看或误解的方式”清楚地指出哪些是人工智能生成的文本。

但这些技术修复努力也存在一些问题。他们大多尚未有机会对抗最新一代的人工智能语言模型，因为它们是建立在 GPT-2 或其他早期模型之上的。

当有大量文本可供检测时，许多检测工具的效果不错；但它们在某些具体场景的表现较差，例如聊天机器人或电子邮件助理，因为这些场景只有较短的对话，无法提供更多的数据用来分析。

Abdul-Mageed 还指出，使用大型语言模型进行检测还需要强大的计算机，以及访问 AI 模型本身，科技公司通常不会允许这样做。

索莱曼表示，模型越大、性能越强大，就越难构建对应的人工智能模型来检测哪些文本是人写的，哪些不是。

“现在最令人担忧的是，ChatGPT 的输出质量非常令人印象深刻。检测模型难以企及，只能在后面一直追赶，”她说。

索莱曼说，检测人工智能编写的文本没有一个 100% 准确的方法。 “检测模型不会成为合成文本的过关测试，就像安全过滤器不是减轻偏见的唯一手段，”她说。

为了有机会解决这个问题，我们需要改进技术修复手段并提高人类与人工智能交互时的透明度，人们还要学会如何识别藏在人工智能创造的文本中的痕迹。

伊波利托说：“如果有一个 Chrome 或其他网络浏览器的插件，或许可以通过它让你知道网页上的任何文本是否是机器生成的。这将是一件非常好的事情。”

一些人已经在努力。哈佛大学和 IBM 的研究人员开发了一种名为“大语言模型测试屋 Giant Language Model Test Room （GLTR)” 的工具，它通过高亮显示可能由人工智能生成的文字段落来帮助人们注意哪里有问题。

但是人工智能已经在可以将普通人玩弄于股掌之间了。康奈尔大学的研究人员发现，在 66% 的情况下，人们认为 GPT-2 生成的假新闻文章是可信的。

另一项研究发现，未经训练的人识别 GPT-3 生成文本的准确率低得就像随机选择的差不多。

伊波利托说，好消息是人们可以接受训练，以更好地识别 AI 生成的文本。她开发了一个游戏来测试在用户意识到之前人工智能模型可以生成多少句子。她发现随着时间的推移，人们会逐渐做得更好。

“如果你查看大量生成文本，并试图找出其中没有意义的地方，你就可以更好地完成这项任务，”她说。一种方法是发现那些难以置信的表述，比如人工智能会说煮一杯咖啡需要 60 分钟。

ChatGPT 的前身 GPT-3 在 2020 年才问世。OpenAI 表示 ChatGPT 只是一个演示，但开发类似功能强大的模型，并将其应用到用于客服聊天机器人等产品中，只是时间问题。

这就是问题的症结所在：该领域的飞速发展意味着，识别人工智能生成文本的许多方法都会很快过时。如果这是一场人类和人工智能之间的军备竞赛，那么现在人类正在失败。

支持：Ren

原文：

https://www.technologyreview.com/2022/12/19/1065596/how-to-spot-ai-generated-text/

声明：本文来自DeepTech深科技，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

OpenAI将给ChatGPT加水印，帮助人们辨别哪些是AI生成文本

微软CEO眼中AI Agent商业模式和安全

我国生成式人工智能的监管框架及主要法律风险识别

Agent视域下的人工智能赋能作战系统