2023年7月举办的美国首届生成式人工智能与法律(Gen-Law)研讨会在夏威夷举行,该会议汇集了计算机科学与法学领域的跨学科专家,不同领域的学者深入探讨了生成式人工智能(AI)在隐私和知识产权等领域对法律产生的深远影响。本文基于本次研讨会公布的综述报告,全面阐述了研讨会中所揭示的生成式AI在法律领域中的重要性与其带来的挑战,并提出了应对这些挑战的可行策略和方案,旨在为生成式人工智能领域的法律实践和理论研究提供新的视角和深入分析。

引言

首届生成式人工智能与法律(GenLaw)研讨会于2023年7月29日至30日在夏威夷檀香山与第40届国际机器学习大会(ICML)同步举行。本次研讨会为应对当前生成式人工智能(生成式AI、Gen AI)在公共领域所受到的广泛关注而特别组织,旨在应对公共领域对生成式AI日益增长的关注,并探索其在法律界所引发的风险和挑战。本次研讨会特别聚焦于知识产权(IP)和隐私(Privacy)议题,并触及到言论自由、产品责任和透明度等相关领域。

本文依据研讨会发布的报告,分析和阐述了研讨会的核心内容和成果。报告并未深入探讨特定生成式AI系统的技术细节,而是聚焦于从法律视角分析和解读这些技术。这为机器学习研究者、律师以及对生成式AI与法律交叉学科感兴趣的学者和从业者提供了一种新的视角。例如熟悉相关诉讼的机器学习研究者和了解大型语言模型(LLM)等术语的律师。报告共包括五个主题:(1)关于生成式AI对法律领域既极具重要性又极具挑战性的高层次陈述;(2)构建跨学科专家共用的概念语言为共享知识的基础;(3)阐明生成式AI系统的独特能力和问题,并将其与更广泛的人工智能和机器学习技术相关联;(4)初步分类生成式AI引发的法律问题;(5)促进生成式AI与法律交汇点所产生的新兴问题上的合作和进展。

本文旨在综合阐述研讨会中所得出的结论,并凸显在该交叉领域未来研究中亟待解决的关键问题,以推动这一新兴跨学科领域的发展和研究进展。

生成式AI对法律的影响

生成式AI之所以引起广泛关注,源于其在多种输出(如文本、图像、音频)中的生成能力。正如Jonathan Zittrain所指出的,生成式技术的核心在于能够根据广泛和多样化的输入产生意想不到的变化。[1]这种技术的社会和法律意义不容忽视,它已经在法律领域引发了一系列重要问题,而引发一系列问题的原因可以参考Zittrain提出的五个生成性维度:(1)杠杆效应。生成式AI通过简化复杂任务,如创意生成、编程、知识检索和自动化,提供了巨大的杠杆作用;(2)适应性。因为生成式AI广泛的适用性,已被应用于编程、绘画、语言翻译、药物发现、小说创作、教育测试、图形设计等领域。(3)易于掌握。虽然一些高级功能如模型预训练需要专业技能,但使用聊天式、交互式、自然语言提示控制生成式AI系统的门槛已大幅降低,因此非专业用户也能轻松使用。(4)可访问性。成本是访问技术的主要障碍,尽管创建尖端生成式AI模型需要大量资源,但公众普遍可使用这些模型进行基础服务。对于普通用户,这些服务价格低廉且易于获得,使得生成式输出在时间成本上较低。(5)可转移性。经过预训练或微调的生成式AI模型易于共享,提示技术简单易传达,基于这些模型的系统可以较低的成本广泛传播。由此可见生成式AI具有巨大的发展潜力,能够促进用户间创新的快速迭代,Zittrain曾将计算机和互联网视为极具生成力的技术,而生成式AI似乎将成为第三种。

监管部门和研究者应当认识到,生成式AI技术的迅猛发展,将不可避免地带来计算机和互联网技术对现有法律和政策的挑战,生成式AI的广度、深度和内容复杂性不容小觑。互联网时代法律实践和理论的发展为我们提供了处理这一新兴技术法律问题的参考框架。在应对生成式AI所带来的挑战时,技术人员与法律专业人员必须建立起共同的语言体系,以确保双方在交流与合作中能够实现有效的理解与沟通。这意味着法律学者需要具备一定的技术知识,以便将法律理论与实践准确应用于快速发展的AI领域;而技术专家也需要对法律有所了解,以便在技术创新过程中识别和理解潜在的法律问题。此外,两个领域的专家还需要积极进行跨学科研究,共同推动对生成式AI与法律系统互动的深入理解和研究。

生成式AI与法律的跨学科研究

笔者在报告中发现人工智能和法律领域中的学者对某些看似相同的术语理解普遍存在差异,例如,“隐私”一词在技术界有着精确定义(如差分隐私),但在法律界则可能会包含更广泛的内容(如人格利益)。虽然这种“沟通障碍”真实存在,但在GenLaw会议上两个领域的代表能够相互理解并接受各自对“隐私”等术语的不同理解。此外,笔者还注意到研究人员在跨学科术语上存在误解,例如,“预训练”一词在技术界指模型训练过程的早期阶段,而在法律界中则可能会被理解为训练之前的数据准备阶段。因此为提升跨学科合作的效率,建立一个共享知识库至关重要,即便无法完全确定术语,明确术语的模糊性或多重含义也十分必要,因此报告中建议技术专家和法学学者可以通过以下方式促进共同理解:

3.1 确定和定义跨学科术语

建立机器学习和法律重要术语的词汇表,这一词汇表可以用作跨学科对话的教材和参考资料。为此研讨会创建了一份涵盖法律和生成式人工智能交叉领域的重要术语的词汇表。这份词汇表旨在识别具有技术含义或多重含义的术语,并为非专家提供关键概念的简明定义,例如,“算法”在技术界的定义与其在社会中普遍认知的含义不同,在技术领域可能是指执行特定程序的规则,但在社会大众中可能与社交媒体帖子排名等具体技术相关联。这份词汇表应当是动态更新的,随着新技术和争议的出现而更新。这种术语表可以作为跨学科沟通的桥梁,减少误解和沟通障碍。

3.2 构建有价值的隐喻

精心设计的隐喻有助于澄清跨学科研究中的复杂概念。例如,“拟人化”和“记忆化”是在GenLaw会议上讨论的隐喻,尽管它们有时可能简化或扭曲实际情况,但仍有助于澄清疑难概念,“拟人化”隐喻指的是将非人类实体赋予人类特征,而“记忆化”则表示机器学习模型编码其训练数据的细节。隐喻是机器学习和法律领域中广泛使用的工具,如机器学习中的“人工神经网络”便是受到人脑神经元的启发,这是一种将复杂技术概念拟人化的隐喻。然而,这种隐喻也可能导致误解,如错误地认为机器学习模型以与人类相同的方式“学习”或“记忆”。隐喻在解释复杂科技和法律概念时是一个有力的工具,但同时也需要警惕它们的局限性和可能产生的误导,合理运用隐喻可以促进跨学科的理解和沟通,但也要清楚地认识到它们与实际概念的差异。

3.3 理解不断发展的商业模式

了解生成式人工智能技术在实践中的应用也至关重要,目前存在多种不断演变的商业模式,包括面向消费者的托管服务、企业间集成、开源模型和数据集的使用,以及在生成式AI供应链中的特定环节运营的公司。理解不同商业模式下的公司角色和运作范围,以及它们如何在市场上互动和协同工作,对于把握生成式AI技术及其与法律交叉的问题至关重要。这些商业模式可能涉及一系列法律和伦理问题,如数据隐私、知识产权、用户权益等。因此,对这些商业模式的深入了解不仅有助于两个领域间建立更有效的沟通和合作机制,还对于制定相关法律、政策具有重要意义。通过关注这些模式的发展,我们可以更好地理解生成式AI技术的实际应用及其可能带来的法律和伦理挑战。这样的理解和知识共享将为法律和机器学习领域的合作提供坚实的基础,促进对生成式人工智能和法律相互作用的深入研究和理解。

生成式AI的独特性

在本次研讨中,法律学者们特别关注了生成式AI的独特性,并总结出了其四个显著特点。

4.1 从执行狭义任务到处理开放式任务的转变

过去的机器学习模型主要被训练来执行特定的、定义明确的判别性任务,例如基于图像中描绘的对象类别来标记图像[2],或根据句子的情感将其分类为积极或消极。然而,当前的生成式AI模型在两个关键方面改变了这种模式,首先是从判别模型到生成模型的转变。传统的判别模型,如图像分类器,通常只输出简单的标签(如“猫”或“狗”),而生成模型则能够产生更复杂的内容,例如根据“猫”的输入,生成多种可能的猫图像。这种模型不再局限于只是识别或分类信息,而是能够生成全新的、丰富的输出内容。[3]其次是从任务特定模型到通用模型的转变。过去不同的任务通常需要定制不同的模型,例如一个模型专门用于情感分类,另一个模型专门用于自动生成摘要。然而生成式AI可以使用单一的通用模型来处理多种不同的任务,典型例子就是在大型预训练语言模型的基础上进行微调,将其应用于各种不同的处理任务。此外,生成式AI并不仅限于文本到文本和文本到图像的应用,其扩展应用在多个领域都实现了重大突破。例如自动生成与图像内容相符的描述性文字、创造新的音乐作品或者模仿特定风格和艺术家的作品、将文本转换为自然听起来的语音或者将语音内容转录为文字,以及在蛋白质折叠、药物设计、材料科学等领域中的应用,显示了生成式AI在解决复杂科学问题上的强大能力。

4.2 训练流程的发展:预训练和微调

在生成式AI的发展背景下,机器学习模型的训练流程经历了显著变化,这些变化不仅改变了模型的构建方式,而且对其功能和应用领域产生了深远影响。这一过程主要体现在多阶段训练流程的转变上。

在预训练阶段,模型通常在大规模但质量可能参差不齐的数据集上进行训练。这些数据集通常是通过网络爬虫等方式获取的,以保证信息的广泛性、丰富性,从而使模型能够学习到关于世界的基础知识。预训练的目的是构建一个具备广泛通用知识的基础模型,如卡利森-伯奇(Callison-Burch)所述,预训练期间,模型从输入数据中学习基本模式,捕捉大量的“通用知识”,例如语言生成模型学习语法、语义、事实和意见,图像生成模型学习不同形状和对象的呈现。[4]在构建了基础模型之后,接下来的步骤是微调,即在更小、更精确、更集中的数据集上进行训练,以便模型能够更好地符合特定领域的应用目标或需求。例如,一个基础模型可以在法律文本上进行微调,以提高其在处理法律文档方面的性能,或者像ChatGPT那样微调以理解对话式内容。与预训练相比,微调涉及的数据集规模较小,因此微调过程通常更快、成本更低。

需要明确的是预训练和微调的区分并非绝对,它更多依赖于训练选择而非训练过程的本质特征。在实际操作中,这种区分基于研究人员和开发者的策略,如在供应链中,一个角色可能专注于发布预训练模型,而另一个则在此基础上进行微调并发布改进后的模型,甚至可能对已经微调的模型进行进一步的微调。此外,研究人员还可能在任一阶段提出特定的研究问题,从而针对该特定问题进行调整。这种多阶段的训练流程赋予了生成式AI模型前所未有的灵活性和适应性,使其能够在多种应用领域中发挥作用,从而推动了技术的快速发展和广泛应用。

4.3 生成式AI系统和供应链

在生成式AI的开发和部署过程中,存在许多重要的决策节点和干预点,正如Lee等人所讨论的那样,这些决策点不仅影响模型的质量、特性和能力,还决定了模型的最终效果。[5]

首先,在训练数据的选择和管理中需要关注下列关键节点(1)数据样本的选择。决定哪些数据样本包括在训练集中,这直接影响模型的学习效果和表现;(2)数据存储位置。数据存储的地点(例如,在哪个组织的服务器上)涉及数据安全和隐私的问题;(3)数据的保留期限。明确训练数据将被保留多长时间,这涉及到数据管理和合规性的问题;(4)模型的部署位置。考虑模型将在哪里部署的问题,这会影响可使用的训练数据类型和隐私风险。其次,在系统级别的设计和决策中包括(1)输入/输出过滤器。决定如何过滤用户的提示输入和生成的输出,以确保内容的适宜性和合规性;(2)速率限制。设定用户在给定时间段内可以向系统提供多少提示,这关系到系统的负载管理和用户体验;(3)访问控制和使用条款。设置系统的访问控制机制和使用条款,以确保使用的合理性与合法性;(4)API使用策略。定义API的用例策略,以便于安全且合规的集成和使用;(5)用户界面(UI)和用户体验(UX)设计。UI和UX的设计要注意防止用户过度依赖生成式AI系统,避免存在暗黑模式(Dark Pattern)。

所有这些设计决策都可能具有自己的法律含义,尤其是在数据隐私、版权、合规性和责任等方面。例如,使用私人用户数据训练的模型与跨多个用户设备共享的模型相比,其隐私风险完全不同。因此,生成式AI系统的开发不仅是一个简单的技术挑战,也会一个广泛涉及法律和伦理问题。理解和管理这些关键节点是确保生成式AI有效、安全、透明和负责任开发和使用的前提。

4.4 生成式AI的巨大规模

在当前生成式AI的发展中,模型规模的显著增长已成为推动技术进步的主要动力,这种规模扩大不仅体现在数量级的增加,更重要的是在模型能力和应用范围上实现了质的飞跃。[6]虽然许多今天使用的技术起源于上世纪80年代,但近年来它们通过技术革新实现了显著的扩展和优化,特别是在神经网络架构的效率和大规模数据处理能力方面,以上变革不仅提升了模型性能,还拓宽了技术应用的可能性。然而,模型规模的增长并非没有代价,训练最先进的模型常常需要数十万甚至数百万美元的成本。这种经济负担提高了进入该领域的门槛,影响了机器学习研究人员的训练和实验方式。与过去相比,频繁地训练多个模型以进行实验和优化变得不再经济可行。因此出现了对通用模型的需求,这类模型能适应多种任务和应用,优化资源使用并提升经济效益。

生成式AI的快速发展突显了技术规模扩展的重要性,这不仅体现在模型自身能力的提升上,也反映在对计算资源和经济投资的需求上。这种规模的增长既带来了新的技术挑战,也对资源分配和经济效益产生了深远的影响,促进了该领域向更高效、更通用的模型发展的趋势。

生成式AI中的法律问题与应对

本次研讨会对生成式AI引起的法律问题进行了初步分析,但它并不是一份完整的政策指南,也无法覆盖生成式AI引起的所有可能的法律问题,同时这一分析以生成式AI中的隐私和知识产权问题为重点。

5.1 犯罪故意(意图)

在法律领域中,尤其是在刑法和侵权法中,“故意”这一概念至关重要。法律研究与实践中高度重视行为者的犯罪故意(意图),因为这往往是判断行为是否构成犯罪或侵权的关键因素[7],如欺诈罪的构成需要证明行为者具有欺诈的故意。当然,并非所有的犯罪和侵权行为都要求证明意图,像严格责任就不需要考虑行为者的意图。然而面对生成式AI,尤其是大型语言模型(LLM)等系统时,对犯罪故意(意图)这一概念的理解与认定产生了分歧。生成式AI可以产生类似于人类行为者的伤害,例如输出虚假和诽谤性的内容,但这些AI系统本身并不具备人类意图。在这种情况下,如何处理和衡量生成式AI系统的“意图”成为一个复杂的问题。GenLaw研讨会上揭示了这一问题的复杂性,并提出了一种可能的解决方案,即采用雇主责任(respondeat superior)的法律原则,将生成式AI系统视为“雇员”,将其造成的伤害责任归咎于“雇主”(即AI系统的使用者)。这种方法似乎避免了直接处理意图问题,因为雇主责任通常被视为一种严格责任。但这并不是说这种方法可以完全避免对意图的认定,因为在雇主责任的应用中,雇员的意图仍然是判断侵权行为是否存在的一个重要因素。

此外,本次研讨会指出随着AI系统的兴起,我们进入了一个“无意图的自由言论”世界,对意图的判定主要基于其对听众的效用。同时也应当认识到生成式AI在法律领域引发的问题不仅限于传统意义上的意图,还涉及到如何处理和理解AI系统作为一个无意图行为者的复杂性,这些问题将贯穿于多个法律领域,需要法律界深入探讨和适应。

5.2 隐私

如前所述,隐私在法律和计算机科学领域面临着定义上的分歧,这两个领域对隐私的理解和处理方式截然不同。在计算机科学中,隐私通常被定义为一种基于数学形式化的概念,如差分隐私,这种定义在计算上是可操作的。相比之下,法律对隐私的定义通常是基于社会规范和合理预期的,它依赖于特定情境下的规范,并且通常抵制量化。这种在隐私上的方法论差异导致了法律和计算机科学之间在沟通上存在阻力。

与传统的机器学习模型不同,生成式AI通常在大量网络爬取的数据集上进行训练,这些数据集可能包含大量个人信息,其中便有可能包含个人身份信息(PII)。这些信息在生成过程中可能面临泄露风险,从而加剧了隐私问题。此外,生成式AI的能力使得它们能够将信息联系起来,从而可能导致个人敏感信息泄露。例如,传统搜索引擎可能只定位单个数据点,而生成式AI能够综合多个数据点,输出包含个人信息的内容。

长期以来,法律学者和计算机科学家一直致力于研究和处理隐私问题。法律学者强调滥用隐私可能对个人造成的实际损害,而计算机科学家揭示了隐私泄露的实际攻击路径。生成式AI的出现和普及使得数字时代中的隐私问题变得更加复杂和棘手。因此,生成式AI的发展不仅是技术进步的问题,还涉及到如何在保护个人隐私的同时有效利用这些技术,这需要法律和计算机科学领域的专家们共同努力,寻找既能保护隐私又能发挥生成式AI潜力的方法。

5.3 错误信息和虚假信息

生成式AI不仅可能成为错误信息的重要来源,还能放大虚假信息的影响力,这些问题可能出现在任何涉及禁止虚假言论的法律领域,例如个人信息、产品安全或政治领域。从错误信息的角度来看,生成式AI的训练数据对产生的内容质量具有重要影响,如果训练数据本身含有错误或虚假信息,模型可能会再现这些不准确或误导性的内容。此外模型还可能在回答主观问题时偏向于讨好用户,或在面对教育程度较低的用户时更容易认同常见的误解或偏见。从虚假信息的角度来看,模型可以被故意用来生成具有说服力但虚假的内容,通过对模型进行针对性的微调可以故意使其产生误导性内容。以上种种操纵可能导致模型偏向于产生误导性或虚假信息。

此外在研讨会上,法律学者还特别指出生成式AI产生的虚假信息可能导致新型的诽谤相关伤害,特别是像深度伪造技术能创造出极其逼真的虚假图像或视频,有可能描绘虚假的亲密行为或传达不实的亲密信息。虽然学者们仍质疑这类伤害是否可以被视为一种侵犯隐私的行为,但不得不承认与实际披露造成的伤害相似,足够令人信服的伪造可能会带来严重的个人和社会影响。这引出了一个重要问题:生成式AI是否可能产生新类型的伤害,这些伤害在当前对虚假信息和隐私伤害的理解上存在模糊性,这种模糊性对传统法律理解提出了挑战,需要制度变革来应对新兴技术带来的挑战。因此,生成式AI引发的问题不仅限于传统的隐私和诽谤,还涉及到如何在法律体系中整合和解释新兴技术所引发的复杂情境,法律制度需要适应技术的快速发展,以保障个人隐私和名誉不受技术滥用的影响。

5.4 知识产权

生成式AI在知识产权领域引发的法律问题早已成为讨论的热点,尤其是在实践中已经存在诸多版权和生成式AI相关诉讼的背景下,本次研讨会不仅关注知识产权本身,还涉及更广泛的法律议题,主要包括以下内容:

(1)意志与知识产权侵权。在传统知识产权侵权案件中,行为者的意志是判断是否构成侵权的重要因素。然而,生成式AI的输出可能与训练数据的副本类似,这些系统的“内部”选择并非基于明确的既定事实或技术要求。此外生成式AI还可能创建出的“纯内部”副本——即那些看似源于训练数据但由系统独立生成的内容——这引发了版权法律的复杂问题。这些副本可能没有直接的人类创造者,从而挑战了传统关于作者意图和创作过程的版权法理论。(2)商业秘密。在专有数据上进行微调可能成为生成式AI技术的一种应用模式。但生成式AI模型可能会记忆其训练数据,从而引发与商业秘密相关的问题。(3)数据抓取。抓取训练数据的合法性与生成式AI的知识产权处理紧密相连,公司依赖抓取的数据作为输入,同时采取措施防止系统输出被未经许可地用于其他系统。(4)作者身份。生成式AI可能需要重新考虑知识产权法中的作者资格。目前纯计算机生成的作品在美国不受版权保护,但这种情况在生成式AI作品具有重大价值时可能无法适用。(5)专利法。生成式AI在物理、化学等工科或理科中的应用可能会影响专利法,特别是关于人类发明者作为获得专利资格的前提条件。(6)思想与表达的二分法。生成式AI似乎进一步模糊了版权法中思想和表达之间的界限,如果将提示(prompt)视为思想、相关生成视为表达可能颠倒了典型模式,即AI负责创造性的表达,而非人类。

综上所述,生成式AI在知识产权领域引发的问题是复杂且多层次的,并且涉及法律制度细节讨论,这需要法律和技术以适应这些新兴技术带来的挑战

进行长期研究的必要性

在研讨会上,研究人员确定了几个前景广泛的研究方向。这些研究方向均展现了技术选择在不同法律问题中发挥的重要作用,以及法律研究如何影响生成式人工智能系统的设计。它们代表了两个领域相互作用的具体方式,标志着一项长期研究的开始。

6.1 集中化与去中心化

在训练数据的使用和管理方面,集中化与去中心化的问题在生成式人工智能的未来发展中占据了重要地位。这一问题不仅涉及技术和法律的复杂性,还关联到商业模式和市场力量的演变。

在训练数据方面,尤其是当使用闭源许可数据(如LAION数据集、The Pile、Books3等)作为训练材料时,出现了重大的法律和技术上的争议。尽管这些数据集通常以开放许可的形式发布,但数据集中的单个数据示例可能有着各自不同的许可条件,这引发了合理使用和数据合法性的问题。法律学者已经对这些数据集的使用提出了不同观点,但是构成合理使用还是一个未知数。作为对这种不确定性的回应,一种替代路径是投资生产和使用具有开放、宽松许可的数据集,以规避网络抓取数据的法律问题。这不仅需要技术创新以大规模收集开放许可条件的数据集,还需要法律创新来开发跨管辖区有效的适当许可,并创建管理这些数据集的机构。

此外,集中化与去中心化的问题也涉及技术方法和商业模式。当前的技术方法是基于通常由去中心化的创作者收集的数据集进行大规模的集中化预训练,未来这些约束是否会改变,以及训练算法的改进是否会减少对基础模型所需的投资,从而增加去中心化的可能性,仍然是一个未知数。同时,集中化与去中心化也是一个商业问题。目前对开发基础模型的大型集中化公司和开发微调模型或小型专用模型的开发者都存在大量投资。但这些不同实体之间的关系,以及它们之间的相对平衡,可能会在未来几年内迅速演变。最终,集中化与去中心化也是一个重要的法律问题。许可法、竞争法和反垄断法未来可能在生成式AI领域发挥重要作用。从版权归属到数据集、计算资源再到模型本身的每一个关键节点,都将成为审查的焦点。

综上所述,集中化与去中心化在生成式AI领域中的角色是多维的、相互关联的,它们在技术创新、法律规范和商业模式的演进中互相作用。生成式AI未来的发展将需要平衡这些复杂因素,以实现技术进步与法律合规性之间的协调。

6.2 规则、标准、合理性与最佳实践

生成式AI的特性带来了一个重要问题:系统的开发者和使用者应该分别承担何种责任?这个问题在法律和计算机科学领域都是前所未有的,需要明确的规则和具有一定灵活性的标准作为裁判指导。在某些情况下,如HIPAA中规定的个人识别信息的保护,法律提供了明确的裁判指导。但在其他情况下,如合理性标准的判定,就需要更多的考量因素以综合判断。例如在网络安全领域,美国联邦贸易委员会(FTC)时刻关注技术的最新发展,并认为未能实施广泛认可的成本效益措施可能构成不公平和欺骗性贸易行为,因此这种合理性的判定是有场景的,并且对于大公司和小型公司所采取的判定标准通常是不同的。

法律学者和技术专家现在面临的挑战是确定哪些安全措施对生成式AI来说是有效的,这要求法律制定者对生成式AI开发的动态性保持敏感。例如面对新技术时,原本有效的安全措施可能会失效。相反,新的训练和对齐技术可能非常有效,使其成为未来生成式AI开发者的合理选择。法律系统必须适应这种变化,认识到我们对生成式AI可能性的理解是暂时的并不断进化。

技术的稳定性将有助于定义具体标准(如安全标准),但在达到稳定性之前,将存在一定的灵活性来评估系统构建者的设计。同时,现今的最佳实践将指导未来标准和最佳实践的制定。因此,法律和机器学习研究社区应积极参与当前生成式AI的研究和公共政策的制定,以帮助塑造未来的标准。这需要理解不同生成式AI技术的复杂性和特殊性,设计有用的指标来有效评估生成式AI的行为。这不仅是技术层面挑战,也是法律研究的关键领域,因为其涉及如何量化系统的能力和潜在危害。

6.3 通知和删除≠机器遗忘

通知和删除在计算机科学和法律领域都极为重要,但当这一概念应用于生成式AI时,问题的复杂性又将显著增加,这主要是因为在生成式AI中“影响”和“移除”数据的定义并不明确。为了应对这一挑战,机器学习的一个子领域——“机器遗忘”,正在探索如何定义移除数据的期望目标,并设计能满足这些目标的算法。[8]同时还有另一个研究方向是量化数据示例的归属和影响,尝试将模型的输出归因于训练数据中的特定数据示例。

对于传统的软件系统(如视频平台),移除数据库中的一条数据相对直接。但在生成式AI中这种直接性不再存在,一旦模型被训练,训练数据中的每个数据产生的影响将分散在整个模型中,使其难以被单独追踪和移除。因此从已经被训练好的模型中移除特定的数据可能需要追踪其在模型中的所有影响并找到一种抵消这些影响的方法,甚至需要重新训练整个模型。但随着技术和法律的变革,我们可能会看到更有效的通知和删除机制既符合法律要求,又在技术上可行。

6.4 评估指标

在机器学习的领域对模型的评估并非一个新话题,但随着生成式AI技术的快速发展,深入探讨和完善评估指标的方法,并探究其在法律层面的应用与挑战变得尤为重要。法律规则的解释和实施通常基于特定案例和具体语境,而机器学习领域在定义评估指标时通常考虑的是更广泛的应用范围,这些指标往往基于预设的特征集,但可能忽视了全面决策所需的更广泛语境因素,因此如何将社会概念数学化、操作化已经成为亟待解决的问题。

由于从训练好的模型中“移除”特定训练数据的影响是一个定义模糊的问题,因此开发不同的指标来量化训练数据是否被成功移除便成为必要。此外,评估指标的确定依赖于现有的技术能力,例如评估模型中记忆训练数据的量取决于提取和发现记忆训练数据的能力,但随着数据提取技术的改进,对模型的评估也会相应变化。此外模型的使用方式也会影响其评估方式,例如可能会将先前提到的机器遗忘方法应用于模型以移除特定个人数据的影响,但如果模型随后在与已移除个人的数据非常相似的新数据上进行微调,这可能导致个人数据的有效“重现”。最后,特定生成式AI模型的供应链结构也可能改变模型嵌入系统的评估方式,例如根据模型是否经过对齐进行评估。

因此随着技术的进步和法律制度的不断发展,生成式AI的评估指标需要不断更新和完善。对这些评估指标的深入分析,不仅能促进技术的发展,也能为相关法律和政策的制定提供重要参考。

结论与展望

从本次GenLaw研讨会的内容来看,生成式AI所引发的法律问题远不止隐私、版权等问题那么简单,随着技术的快速演进和广泛应用,必然将出现更多复杂且未被揭示的问题。为有效理解和评估生成式AI的行为,需要跨越传统的学科界限,未来GenLaw将不仅关注生成式AI技术本身,也关注这一技术如何与法律、社会和伦理等领域相互作用,其目标是通过跨学科合作,形成对这一新兴领域更全面、更深入的理解。

GenLaw也指出其工作重点将放在不断促进各领域专家、政策制定者和公众之间的交流,通过发布易于理解的内容、组织研讨会和提供在线学习资源,GenLaw旨在搭建一个连接不同学科背景专家和大众的桥梁,成为促进法律、技术、政策和教育领域交叉合作的中心。虽然目前GenLaw的活动和资源主要集中在美国,但该组织正在努力扩大其全球影响力,这预示着将更多的国际视角和多样化的专业知识纳入其讨论和研究中。

[1] Jonathan Zittrain. The Future of the Internet–And How to Stop It. Yale University Press, USA, 2008.

[2] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.

[3] Katherine Lee, A. Feder Cooper, and James Grimmelmann. Talkin’ ’Bout AI Generation: Copyright and the Generative-AI Supply Chain. arXiv preprint arXiv:2309.08133, 2023.

[4] Chris Callison-Burch. Understanding Generative Artificial Intelligence and Its Relationship to Copyright. Testimony before The U.S. House of Representatives Judiciary Committee, Subcommittee on Courts, Intellectual Property, and the Internet, May 2023. Hearing on Artificial Intelligence and Intellectual Property: Part I – Interoperability of AI and Copyright Law.

[5] Katherine Lee, A. Feder Cooper, and James Grimmelmann. Talking About AI Generation: Copyright and the Generative-AI Supply Chain. arXiv:2309.08133, 2023.

[6] Samuel L. Smith, Andrew Brock, Leonard Berrada, and Soham De. ConvNets Match Vision Transformers at Scale, 2023.

[7] Legal Information Institute. Mens rea, 2023. https://www.law.cornell.edu/wex/mensrea.

[8] Lucas Bourtoule, Varun Chandrasekaran, Christopher A Choquette-Choo, Hengrui Jia, Adelin Travers, Baiwu Zhang, David Lie, and Nicolas Papernot. Machine unlearning. In 2021 IEEE Symposium on Security and Privacy (SP), pages 141–159. IEEE, 2021.

撰稿 | 赵飞飞,清华大学智能法治研究院实习生

选题&指导 | 刘云

编辑 | 沈廖佳

注:本公众号原创文章的著作权均归属于清华大学智能法治研究院,需转载者请在本公众号后台留言或者发送申请至computational_law@tsinghua.edu.cn,申请需注明拟转载公众号/网站名称、主理者基本信息、拟转载的文章标题等基本信息。

声明:本文来自清华大学智能法治研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。