【编者按】

ChatGPT作为OpenAI开发的大型语言模型(LLM),一经发布就引起了广泛关注。欧洲刑警组织创新实验室(Europol Innovation Lab)于2023年3月27日发布了《ChatGPT:大型语言模型对执法的影响》(ChatGPT:The impact of Large Language Models on Law Enforcement),其从ChatGPT的概念出发,指出ChatGPT在为企业和公众提供巨大利好的同时,也存在为不法分子所利用的风险。为此,该文指出,包括执法部门、非政府组织、大型科技企业在内的多方主体需要共同参与治理。执法部门尤其需要站在发展最前端,尽可能避免犯罪分子滥用ChatGPT。本篇推送对该报告的重点内容进行了编译。

如需获取完整的《ChatGPT:大型语言模型对执法的影响》英文原文,请点击推送末“阅读原文”下载。

【报告目录】

·引言

·背景:大型语言模型和CHATGPT

·安全措施,提示工程,越狱

·刑事领域使用举例

·欺诈、冒充和社会工程

·网络犯罪

·影响和展望

·建议

·结论

【报告梗概】

首先,本文对大型语言模型(LLM)等有关概念进行介绍,详细阐述了什么是ChatGPT,其训练阶段、发展现状以及局限性。

其次,本文指出ChatGPT虽然已经涵盖了安全措施用以保障其不被滥用,但仍然存在规避该措施的方法,并且出现了诸如DAN这样的越狱指令,可以绕开OpenAI的保护措施并引导ChatGPT不管其潜在的有害性对任何输入作出反应。

再次,本文列举了在刑事领域出现的利用ChatGPT犯罪的现象。罪犯可以在不具备相关领域知识的情况下,利用ChatGPT实施诸如诈骗,恐怖主义,网络犯罪等行为,并有可能借此实施更加自动化和复杂的犯罪行为。

鉴于以上问题,本文认为在用来检测由人工智能模型生成文本的工具尚未研发成熟的情况下,除执法部门在内的其他负责预防和打击犯罪的组织外,保护儿童网络安全等领域的非政府组织、人工智能合作关系PAI(the Partnership on AI)组织、大型科技公司等各方主体应该为此做出努力和贡献。此外,本文还对大型语言模型的普遍应用可能带来其他挑战进行了展望。

最后,本文为执法部门提供了5点建议,以应对ChatGPT滥用造成的负面影响,并得出结论:随着技术的进步和新模式的出现,执法部门应当站在发展的最前沿,预测和防止犯罪分子滥用ChatGPT,并确保潜在的利益能够得到保护,有关专家也需要对此深入研究。

【正文编译】

一、背景:大型语言模型和CHATGPT

1. ChatGPT是什么

ChatGPT是一种大型语言模型(LLM),是基于生成型预训练变换模型(GPT)架构的,能够理解和生成自然语言文本。

2. ChatGPT的训练阶段

ChatGPT的训练分两个阶段进行:第一个阶段是无监督训练,包括训练ChatGPT预测给定文本中的缺失词,以学习人类语言的结构和模式。一经预训练,第二阶段的ChatGPT通过基于人工反馈的强化学习方法(Reinforcement Learning from Human Feedback,RLHF)进行微调。在该过程中,人类的输入帮助模型学习调整其参数,以便更好地执行其任务。

3. ChatGPT的发展现状

目前公开的CGPT-3.5已经能够处理和生成类似人类的文本以回应用户的提示。此外,它还能够进行情感分析,根据给定的提示生成文本,以及解释、制作和完善一些最常见的编程语言中的代码。总之,ChatGPT非常善于理解人类的输入内容,并能够结合其文本给出可用度高的答案。

最新的模型GPT- 4能够解决更多高阶问题,并且更加准确。此外,GPT-4不太可能响应“不被允许内容”的请求,并更有可能产生较GPT-3更符合事实的回应。

随着LLMs的不断发展和改进,会有更多功能更加强大的新版本发布。

4. ChatGPT的局限性

局限性方面主要与ChatGPT被训练的数据有关,基于数据产生的答案可能会产生偏见。此外,ChatGPT擅长提供听起来非常可信的答案,但这种答案往往是不准确或错误的。原因在于ChatGPT并没有从根本上理解人类语言背后的含义,而是基于其被训练的大量文本的模式和结构。

另一个关键问题与输入本身有关。通常情况下,提示措辞的准确性对于ChatGPT生成正确答案至关重要。

另一方面,作为模型内容控制政策的一部分,ChatGPT不回答那些被归为有害或有偏见的问题。虽然相关安全机制不断被更新以尽量减少ChatGPT输出的有害或有偏见的内容,但这些安全机制仍然可能被规避。

二、安全措施,提示工程,越狱

鉴于ChatGPT可以获取大量的信息,并且能够相对容易地对用户的提示做出各种回答,OpenAI已经涵盖了一些安全措施,防止用户恶意使用模型。管理终端会评估一个给定的文本内容是否可能涉及色情、仇恨、暴力或自残,并限制ChatGPT对这些类型的提示作出反应。

然而,这些保障措施很容易被规避。最常见的规避方案包括以下几种:

►提示创建(提供答案并要求ChatGPT提供相应的提示);

►命令ChatGPT以代码的形式给出答案,或假装成一个虚构的人物谈论这个主题;

►嗣后替换触发词并更改上下文;

►风格/观点转移(生成客观的反应,随后改变它所写的风格/观点);

►创造容易转移到真实事件的虚构的例子(即通过避开名字、国籍等)。

最先进、最强大的变通方法是设计一套旨在越狱的具体指令。其中之一是 "DAN"("Do Anything Now")越狱,这是一个专门设计的提示,以绕过OpenAI的保护措施,并引导ChatGPT不顾其潜在的有害性而对任何输入作出反应。

虽然OpenAI很快关闭了这个特殊的漏洞,但随后出现了更复杂的DAN版本。不过,截至本报告撰写之时,还没有任何功能性的DAN可用。

三、事领域使用举例

GPT-4的发布不仅是为了改进ChatGPT的功能,也是为了降低该模型产生潜在的有害输出的可能性。可在某些情况下,GPT-4的潜在危害比GPT-3.5更甚。

ChatGPT擅长为用户提供随时可用的信息。因此,ChatGPT可以帮助罪犯在事先没有了解的情况下,获得大量潜在犯罪领域的信息。

虽然ChatGPT提供的所有信息都可以在互联网上免费获得,但使用该模型提供具体信息的可能性并不大。使用该模型通过询问问题来提供具体步骤的可能性,意味着恶意行为者更容易理解并随后实施各种类型的犯罪。

作者在模仿人类语言和编程语言这两方面举了以下几个例子:

1. 网络钓鱼工具。ChatGPT能够在用户提示的基础上生成高度真实的文本,进而用于制作钓鱼网站,并且,钓鱼网站的背景可以被随意调整。此外,通过使用ChatGPT产生虚假的社交媒体参与,例如宣传欺诈性投资建议,可以使各种类型的在线欺诈行为显得更加合法。在LLM的帮助下,这些类型的网络钓鱼和在线欺诈可以更快、更真实地产生,且规模大大增加。

2. 冒充特定个人或团体的措辞风格。这可以误导潜在的受害者对犯罪分子产生信赖。

3. 恐怖主义活动、散布谣言和虚假信息。

4. 网络犯罪。ChatGPT能生成不同的编程语言的代码。在当前版本的ChatGPT中,已经可以创建基本的工具来达到各种恶意目的。这种类型的自动代码生成对那些没有编程和开发知识的犯罪分子特别有用。关键是,防止ChatGPT提供潜在恶意代码的保障措施只有在模型了解自己在做什么时才能发挥作用。如果提示被分解成单个步骤,那么规避这些安全措施将变得易如反掌。

随着时间的推移,ChatGPT等生成模型协助代码开发的能力会进一步提高,因此其可以为网络犯罪提供更多的帮助。同时,更高级的罪犯可以利用这些改进后的能力。同时,这些模型也可能被进一步完善,甚至使得复杂的网络犯罪自动化。

四、影响和展望

本文指出,有关专家正在研发一种工具,用来检测由人工智能模型生成的文本。然而截至撰写本文时,已有的检测工具的准确性仍然很低。

如前文所述,为防止恶意使用ChatGPT而设置的保障措施可以很容易地通过提示工程来规避。由于限制性规则是由人类制定的,所以需要专家参与,以确保其有效运行。另外,负责预防和打击犯罪的组织,以及包括执法部门等其他领域的非政府组织应都需要共同参与其中。

与此同时,非营利研究组织——人工智能合作关系(PAI)组织制定了一套关于如何负责任地制作和共享人工智能生成内容的指导方针。方针内容包括通知用户正在与人工智能生成的内容进行交互(即通过水印、免责声明或可追溯元素)。但这在多大程度上可以防止滥用尚不清楚。此外,如何有效确保生成式人工智能模型生成内容的准确性,以及用户如何了解信息的来源以进行验证,在这些方面仍然存在问题。

欧盟正在完成相关立法工作,旨在根据即将出台的《人工智能法案》对人工智能系统进行监管,但对于如何实际执行,仍存在不确定性。

另外,在大型科技公司的参与下,这些类型的模型会变得更加强大,私营部门也需要面对和解决本报告中的滥用情形。

本文认为,未来若是多模态人工智能系统能将对话式聊天机器人与能够产生合成媒体的系统结合起来,将会生成高度令人信服的伪造信息。未来还可能出现存在于暗网的“黑暗LLMs ”,向用户提供没有任何保障的聊天机器人。

最后,本文指出,在LLM服务如何处理用户数据的问题上仍存在着不确定性,比如对话是否会被存储,并将个人敏感信息暴露给未经授权的第三方?如果用户产生了有害的内容,是否应该向执法机关报告?

五、建议

为应对上述消极影响,本文为执法部门提供以下几点建议:

► 提高对恶意使用 LLMs 这一问题的关注,以确保任何潜在的漏洞被及时发现并关闭。

► 执法机构需要了解其对所有可能的犯罪领域的影响,以便能够更好地预测、预防和调查不同类型的非法滥用。

► 执法人员需要提升充分利用 ChatGPT 等模型的能力,扩展现有专业知识并了解如何提取所需结果。

► 与利益相关者合作,确保相关安全机制正常运行。

► 探索在他们自己的专门数据上训练的定制的LLMs的可能性,以利用这种技术进行更有针对性和具体的使用。这种类型的使用将需要正当程序和保障措施,以确保敏感信息的保密性,以及在投入使用前对任何潜在的偏见进行彻底调查和处理。

六、结论

ChatGPT已经能够为大量的犯罪活动提供便利,从帮助犯罪分子保持匿名状态到实施包括恐怖主义和儿童性犯罪在内的具体犯罪。并且,随着技术进步,LLMs的下一次迭代将有机会获得更多的数据,能够理解和解决更复杂的问题,并有可能与大量的其他应用结合。

因此,本文认为密切关注正在发展的LLM潜在其他分支至关重要,因为受过培训以促进有害产出的“黑暗LLMs”可能成为未来关键的犯罪商业模式。

同时,本文建议执法部门站在这些发展的最前沿,预测和防止ChatGPT滥用,并确保潜在的利益能够得到保护;本文也建议有关专家对此进一步深入研究。

下载完整的《ChatGPT:大型语言模型对执法的影响》英文原文,https://pan.baidu.com/share/init?surl=EEZh3NlA7lGKgOZHWOP22w,提取码:ohbv。

文稿:丁煜,网络法理论与实务前沿公众号编辑

校对:张旭阳,网络法理论与实务前沿公众号执行主编

推送:陆愿晟,网络法理论与实务前沿公众号编辑

声明:本文来自网络法理论与实务前沿,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。