浅析人工智能系统训练数据的合规问题

作者丨顾萍詹凯维崔晓霞

ChatGPT让2023年成了人工智能系统（“AI”）的大年。和ChatGPT一样让人感到震惊的是，AI能找到并理解人类认知范围之外的规律，并据此作出解决方案。

如，AI发现了具有显著效果的抗生素——halicin，但是halicin并未具备人类科学家归纳出来的化学特征。科研人员准备了一个包含了两千多个分子的训练数据集，并按照抗菌效果优劣提前作好标记，让AI在训练过程中可以有的放矢。这是一种经典的机器学习算法——监督学习（supervised learning），即“仅用标注数据进行训练的机器学习”[1]。但是，如果要学习的数据量超出标记能力，AI就需要在大量数据中自动发现其中的规律和联系，这种方式被称为“无监督学习（unsupervised learning）”。比如电商平台的推荐算法：它不关心你具体会买什么商品，它只是在你买了某种商品之后，给你推荐买这种商品的消费者还会买的其他商品。而训练自动驾驶的AI，则需要采取另外一种机器学习模式：科研人员让AI不再静态地观察汽车驾驶录像，而是处在与环境交互的动态场景中，让AI根据场景实时作出执行动作，并直接考察动作所导致的结果，获得及时反馈。这种机器学习模式被称为强化学习（reinforcement learning）。

以上是根据全国信息安全标准化技术委员会（“TC260”）发布的《信息安全技术机器学习算法安全评估规范(征求意见稿)》（“《机器学习算法安全评估规范》”），其中附录B依据训练样本包含的信息以及反馈方式的不同，将机器学习算法分为了监督学习、无监督学习和强化学习三类。

除该等规范之外，我国针对AI监管的立法还存在于《数据安全法》《互联网信息服务深度合成管理规定》《网络信息内容生态治理规定》等法律法规和各项标准中。结合《生成式人工智能服务管理暂行办法》（下称“《AI管理办法》”）提出的要求，我们可以得出初步结论如下：我国针对AI的监管措施，主要可以关注以下三个方面的内容，分别是（1）数据，尤其是训练数据来源及内容等方面的合法性；（2）生成结果，尤其是生成结果中内容的合法性；（3）算法本身的合法性。本文将主要从AI训练相关数据的角度，讨论生成式人工智能中值得关注的合规问题。

一、何为人工智能的训练相关数据

根据国家标准《信息技术人工智能术语》（GB/T 41867-2022）第3.2小节的第3，34，35条相关条款，人工智能训练相关数据包括“用于训练机器学习模型的输入数据样本子集”的训练数据，“用于评估最终机器学习模型性能”的测试数据，以及“用于评估单个或者多个候选机器学习模型性能的数据样本”的验证数据等。

由于《数据安全法》等已生效的法律法规并未对以上三类数据作区分监管，且《互联网信息服务深度合成管理规定》第14条，《AI管理办法》第7条、第19条等条款针对“训练数据”提出额外要求。因此在本文中，我们将主要着眼于“训练数据”，展开讨论当前AI训练相关数据的合规问题，确保AI服务的提供过程和结果的合法性。

关于训练数据，欧洲方面用其来指代“用于通过拟合其可学习参数（包括神经网络的权重）来训练AI系统的数据”[2]，该用法体现在欧洲议会的内部市场委员会和公民自由委员会于2023年5月11日通过的《欧盟人工智能法案》（草案）（“《欧洲AI法案》”）中。

二、现行或已颁布的法律法规对于训练数据的相关要求

1.《生成式人工智能服务管理暂行办法》

2023年7月10日，国家互联网信息办公室（“国家网信办”）发布《AI管理办法》，对“研发、利用生成式人工智能产品”的行为作出规定。《AI管理办法》第7条要求，AI服务提供者应当依法对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责，并遵守以下具体规定：

（1）使用具有合法来源的数据和基础模型；

（2）涉及知识产权的，不得侵害他人依法享有的知识产权；

（3）涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形；

（4）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性；

（5）《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。

根据上述第1、5项规定，企业应当遵守《网络安全法》等法律法规，具有合法的数据来源，相对来说这一规定内容存在较为明确的执行标准。但是，第二项关于“不得侵害他人依法享有的知识产权”对于企业来说存在一定挑战，企业需要主动判断：（1）训练数据是否涉及知识产权（尤其是著作权或商业秘密），（2）该等知识产权是否存在且合法有效；（3）是否存在该等知识产权利害关系人；（4）相关行为是否侵犯知识产权；（5）行为相关的抗辩条款是否适用等。目前暂未发现到国内企业的训练数据涉及侵犯知识产权的报道。

另外，就第4项要求，即数据的“真实、准确、客观、多样”在适用上可能存在一定的裁量空间，如新闻领域和艺术领域场景对于“数据真实性”的要求就可能略有不同。值得注意的是，鉴于《AI管理办法》将征求意见稿中的“保证”替换成了“增强”，企业可以在确保符合法律法规要求的基础上，参考人工智能使用领域等要素进行灵活调整。

《AI管理办法》第四条还指出，在选择训练数据的过程中，应当采取措施防止出现民族、信仰、国别、地域、性别、年龄、职业、健康等歧视。

2.《互联网信息服务深度合成管理规定》

2022年11月25日，国家网信办等发布了《互联网信息服务深度合成管理规定》，自2023年1月10日起施行。该规定第14条强调，训练数据应当符合个人信息保护的有关规定。

3.《信息安全技术机器学习算法安全评估规范（征求意见稿）》

2021年7月27日，TC260等发布了《机器学习算法安全评估规范》。该规范对AI训练数据提出的要求主要体现在在以下三个方面：

1.【数据保密和完整】相关组织和个人在开发或运营机器学习算法时，应确保机器学习算法模型、数据、依赖信息的保密性、完整性和可用性，采取措施防范未经授权的访问、篡改、替换或破坏，建立日志，并及时校验数据，使数据的格式和大小等属性处于可用状态（第6.1条）。

2.【个人信息和隐私合规】相关组织和个人在开发或运营机器学习算法时，应确保处理数据遵守法律和法规要求，保护个人信息和隐私，避免存储、泄漏敏感数据，包括但不限于（1）未经个人同意或法律另有规定，不应使用其个人信息开展机器学习算法相关活动；（2）对个人信息采用必要的数据脱敏措施（第6.1条）。

除上述其他法律法规、国家标准之外，目前尚未观察到其他法律规定和公开的行业标准对训练数据及相关事项作出进一步规定。

4.《人工智能安全标准化白皮书（2023版）》

2023年5月29日，TC260发布《人工智能安全标准化白皮书（2023版）》（“《白皮书》”），《白皮书》梳理了人工智能技术与应用的发展现状，分析了人工智能面临的安全新风险。《白皮书》指出，网络安全的基本属性包括了AI系统及其相关数据的机密性、完整性、可用性以及针对恶意攻击的防御能力。数据应当具有透明性（用户能够在必要时候获取模型有关信息）、可解释性（在计算过程中使用的数据、算法、参数和逻辑等对输出结果的影响能够被人类理解）、公平性（不引入偏见和歧视因素）和隐私性（采取隐私增强方案，如最小化数据处理范围、个人信息匿名化处理、数据加密和访问控制等）。

5. 总结

结合以上现行的法律法规以及已颁布的征求意见稿、白皮书等进行分析，训练数据的合规要求可以总结为以下三个方面：

第一，训练数据应当符合网络和数据等安全合规方面的要求，如经过数据分类、备份和加密等措施，并存储在境内；

第二，训练数据应当遵循知识产权和个人信息等权益保护方面的要求；

第三，训练数据本身应当可靠透明，如真实准确、客观中立，具有可解释性和公平性。

三、境外法律法规对训练数据的要求

（一）联合国方面

联合国教科文组织在2021年发布的《人工智能伦理问题建议书》建议，会员国应当确保人工智能系统的训练数据集：

1. 具有透明度和可理解性；

2. 不会助长文化、经济或社会不平等和偏见；不会散播虚假信息和错误信息；不会干扰表达自由和信息获取。

（二）欧洲方面

基于《欧洲AI法案》条款第44条达成的共识，《欧洲AI法案》第10条对高风险AI系统[3]的训练数据集作出了如下规定：

1. 应当遵循适当的数据治理和管理实践，如对所需数据集的可得性、数量和适用性进行事先评估；审查可能的偏见等。

2. 应具有相关性、代表性、无差错和完整性，还应具有适当的统计学意义。

3. 应在预期目的要求的范围内，考虑高风险AI系统旨在用于特定地理范围、行为或功能设置的特定特征或元素使用。

4. 为了保护他人免受AI系统中的偏见可能导致的歧视，供应商应处理特殊类别的个人数据，以确保对高风险AI系统的偏见进行监测、检测和纠正。

（三）美国方面

《白皮书》中指出，相较于欧盟，美国监管要求少，主要强调安全原则。美国参议院、联邦政府、国防部、白宫等先后发布《算法问责法（草案）》《人工智能应用的监管指南》《人工智能道德原则》《人工智能权利法案蓝图》《国家网络安全战略》等文件，提出风险评估与风险管理方面的原则，鼓励企业将美国的法律法规要求、安全监管原则、主流价值观等置入产品。以生成式人工智能为例，企业一般会在产品设计阶段加入符合安全要求的定制化内容作为重点训练数据。其中，白宫科技政策办公室发布的《人工智能权利法案蓝图》对（训练）数据提出的要求，可以概括为：

1. 收集和使用的数据应当仅限于训练或验证机器学习模型，当收集和使用行为是合法、必要的，尊重个人信息主体权利并符合个人信息主体的预期。

2. 用于自动系统开发、评估和部署的数据，应当具有相关性、高质量并适合当前任务。

3. 任何在系统开发或评估过程中使用的数据，应当对部署地的社群具有代表性，并经过历史偏见和社会偏见的审查。

（四）小结

纵观联合国、欧洲和美国，可以看出AI系统的主要研发国家和地区对训练数据的要求主要集中于：

1. 数据来源和使用行为合法、符合信息主体预期并尊重其权利；

2. 数据应当具有相关性、代表性、无差错和完整性，且应当尽量避免偏见；

3. 有部分国家和地区还规定了训练数据的实效性，如数据质量、统计意义等纳入监管要求。

四、对企业的人工智能训练数据的建议

我们理解，企业通常通过以下两种方式收集训练数据：（1）直接收集，主要通过软硬件产品进行搜集，如互联网应用程序、软件开发工具包（SDK）、Cookies、互联网智能家居，甚至采取网络爬虫等技术手段等收集数据；（2）间接收集，即其他数据处理者自愿提供，如由其他数据处理者授权访问、查阅、下载、传输等。我们认为，无论采取直接或间接收集的方式获取训练数据，企业均应当关注数据来源、数据性质、使用目的与方式，关注其是否符合针对训练数据的合规要求。

值得注意的是，当设置为AI爬取训练数据的网络爬虫时，应当格外关注合规要求，及相应网站的反爬虫声明等。据澎湃新闻报道[4]，加州一家律师事务所表示，OpenAI从互联网上秘密抓取了约3000亿字的内容，其中包括书籍、文章、网站和帖子，甚至还包括未经同意的个人信息。基于该等情况，该律所提出了30亿美元潜在损失的赔偿要求。

因此，建议企业收集训练数据时，按照数据来源对训练数据进行分类分级，确保《网络安全法》《个人信息保护法》相关规定得到充分落实；针对爬取数据，应当进一步确认数据来源是否设置了反爬取声明或协议，以及数据本身是否涉及数据来源相关企业的商业秘密等。如数据涉及个人信息的，企业需关注相关的信息是否获得个人的明确授权，授权内容与企业意图采取的处理方式是否匹配等；在使用数据前对其进行分类分级，并采取相应的保密措施；企业在准备训练数据时，可以根据《互联网信息服务管理办法》《网络信息内容生态治理规定》等规定，对数据是否含有不良信息进行识别和审查，优化训练数据以符合主流价值观，推进人工智能技术依法合理有效利用。同时不容忽略的是，企业准备训练数据时应当根据AI的使用场景，追求“真实、准确、客观、多样”，来有效提高AI在合规基础上的实用性。必要时，可以引入外部律所针对训练数据的合规性做出专业评估和指导，以满足相关法律法规的要求。

此外，我国与欧美等地对训练数据的要求存在一定差异，如果企业未来计划拓展境外市场，或者有可能向来自该等国家和地区的人员提供服务的，企业还需关注自身训练数据是否符合该等国家和地区的法律法规，以确保运营安全。必要时可引入具有涉外服务经验的律所进行专业评估，出具专业法律意见，为企业的境外市场运营保驾护航。

[注]

[1]《信息技术人工智能术语》（GB/T 41867-2022）第3.2.37条。

[2] ‘training data’ means data used for training an AI system through fitting its learnable parameters, including the weights of a neural network.

[3] 高风险AI系统，根据《法案》的解释性备忘录第5.2.3条，主要有（1）拟用于接受第三方事前合格评定的产品的安全组件的AI系统；（2）附件三中明确列出的，主要涉及基本权利的其他独立的AI系统（附件三所列系统所涉风险已经出现，或在不久的将来有可能出现）。

[4] https://www.thepaper.cn/newsDetail_forward_23679287，诉讼文书原文https://assets.bwbx.io/documents/users/iqjWHBFdfxIU/rIZH4FXwShJE/v0。

作者简介

顾萍律师

纽约办公室合伙人

业务领域：知识产权权利保护, 合规和反腐败, 反垄断和竞争法

詹凯维律师

北京办公室知识产权部

崔晓霞律师

北京办公室知识产权部

声明：本文来自中伦视界，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

浅析人工智能系统训练数据的合规问题

揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐

欧盟发布《通用人工智能业务守则》初稿介绍

美众议院AI工作组拟推行宽松的人工智能立法