抵御生成式AI模仿活体生物特征的技术措施

文 / 北京国家金融科技认证中心有限公司李宽李振

在2023年10月10日国务院通过的《专利转化运用专项行动方案（2023—2025年）》中指出，“着力打通专利转化运用的关键堵点，进一步优化市场服务、培育良好生态，加快创新成果向现实生产力转化”。本文即根据一项已经授权的中国专利，提出抵御生成式AI模仿人活体生物特征的一个技术方案。

通过生物特征对人员进行标识/鉴权，是近年来发展迅速的技术手段。在这一发展过程中，针对生物特征不可隐匿和不可修改的特征，对使用生物特征是否安全引发了激烈的讨论，国家对此给予了极为高度的关注，《中华人民共和国网络安全法》和《中华人民共和国个人信息保护法》均提及了对生物特征的保护；从2010年开始，陆续发布了91项直接针对生物信息的国家标准，目前有74项现行、11项即将实施。即便在这样的规范强度下，对使用生物特征是否安全的研讨和质疑依旧是热门话题，尤其是随着生成式人工智能进入实用，对采用生物特征可能导致风险的担忧，在各主流自媒体平台上成为了吸睛的主题之一。

涉人脸识别犯罪的案例及导致的不良后果

清华大学法学院院长周光权教授2021年在《涉人脸识别犯罪的关键问题》一文中，列举了多个涉及人脸识别的案例。其中关系程度较高的如，制作动态视频案。被告人赖某全应客户（信息不详）要求，将其所得知的公民身份证号码、姓名等发送给同伙“曹操”“大佬”（另案处理）等人，帮忙查询上述公民的对应照片，再将上述照片通过“三色技术”制作成动态人脸验证视频后出售给客户从中获利，共获利约达2.3万元。这已经由简单地使用静态生物特征升级到一定范畴的动态生物特征，且如果设计逼真，张嘴、扭头、转头等动作均能够模仿，也就是说，类似的作案方式可能依旧有效。再如，破解“渝快办”平台案。2019年12月以来，被告人祁某利用第三方软件，通过对计算机信息系统中传输的人脸比对数据进行替换的方式，帮助单某、朱某、龚某、熊某等人（均另案处理）在重庆市政府APP渝快办政务服务平台及重庆税务微信公众号上以他人的身份信息进行公司注册登记和电子税务注册，以此方式违规办理了165家公司的营业执照和18家公司的电子税务账号，从中非法获利人民币2.8万余元。这个方式是直接替换了系统传输的人脸比对信息，尽管可以通过加强信息传输安全策略来应对，但人脸比对数据是无法变更的。

周光权教授的论文，从法律角度对这些犯罪问题进行了探讨，其列举的案例是十分典型和权威的。从生物特征的属主视角看，法律能够发挥的作用，一是事前的威慑、二是事后的补偿；如果能够从技术视角再对生物特征进行强化保护，从而使得周教授所举案例中的犯罪成功率降低，犯罪的技术成本加大，就能使得生物特征的属主获得更大的安全空间，也能够使得生物特征发挥更大的作用。

对生物特征属性的分析

生物特征实际上是个人客户信息的一部分，本文通过将现有相关标准的概念应用到生物特征，说明生成式AI对生物特征的影响，并介绍一种能够抵御这种风险的专利提出的技术方案。

在GB/T 31186.1—2014《银行客户基本信息描述规范第1部分：描述模型》中界定，生物特征是银行个人客户的属性之一，而银行客户（包括个人客户和组织客户）的信息实际上分为内源性数据（endogenous data）和外源性数据（exogenous data）。在GB/T 31186.1—2014中，这两个概念是站在银行的视角定义的，即内源性数据是指产生规则由银行确定，并可在需要时由银行产生、变更、废止使用的数据；而外源性数据是指由银行外部产生，且产生的规则可能公开或不公开，可在银行不知悉的情况下新增、变更、废止使用的数据。实际上，切换为站在客户视角，这个定义依旧是有效的。考虑到银行信息系统的技术现状和实现能力，可以界定为，内源性数据是指值域由银行确定，可在需要时由客户产生、变更、废止使用的数据；而外源性数据是指数据非由客户本人产生，产生的规则可能公开也可能不公开，可在客户不知悉的情况下新增、变更、废止使用的数据。

从这个视角看，客户的生物特征更加偏向于外源性数据，即便生物特征都是客户自己的，但这些特征与生俱来，客户没有能力去变更自己的生物特征。因此，如果直接应用生物特征，则目前很多人担忧的生物特征泄露可能导致被生成式AI所模仿，例如根据照片来生成指纹和面部信息，甚至能够模仿客户进行张嘴、转头和眨眼等动作，或者根据记录的声音进行声纹分析，从而可以产生模拟的语音信息等，均可能成为现实。从客户信息的内源性数据和外源性数据的视角看，解决这一问题的关键，就是将生物特征的这种外源性信息转化为内源性信息。

通过编码实现生物特征的属性转变

在2023年6月授权的中国专利“基于多生物特征鉴权或标识的方法及系统”（CN201810585757.X）中，披露了一种利用多生物特征的技术方案，能够实现生物特征由客户视角的外源性数据向内源性数据的转化。

该专利披露的方法，是建立一组生物特征（两个以上）与一套现有编码的映射机制，限于技术实现能力，编码空间应该是银行端确定的，如2进制、8进制、10进制数字，BCD码，再多可以到“0～9”加上“A～Z”的36进制，再大则可以是GB/T 1988-1998《信息技术信息交换用七位编码字符集》、GB/T 11383—1989《信息处理信息交换用八位代码结构和编码规则》乃至GB 18030—2022《信息技术中文编码字符集》的一个子集，之所以是子集，主要是庞大的编码集需要多种生物特征，或由多个生物特征对应一个编码，实用价值有限。客户能够使用的编码空间是银行事先给定的，且在可能的情况下，银行可同时提供多个编码空间供客户选择，并记录客户使用了哪个编码空间。

在编码空间内，由客户自行决定每个生物特征与编码之间的关系，并可以在需要的时候进行调整，甚至可以预定在特定时间启动特定的生物特征与编码的对应关系。例如，客户选择了10进制的编码空间，并把10个指纹与“0～9”对应，客户可以在第一个版本定义左手的拇指是“0”，右手拇指是“1”，并在第二个版本定义右手拇指为“0”，右手食指为“1”，以此类推。在这样的情况下，在旁人看来，客户就是不断地在变更所使用的生物特征，因此，即便采用了大语言生成模型，也无法猜测客户的生物特征与客户实际凭据（Credential）的关系。

GB/T 26237《信息技术生物特征识别数据交换格式》多部分标准在其第1部分给出框架的基础上，用13个部分分别规定了指纹细节点数据（第2部分）、指纹型谱数据（第3部分）、指纹图像数据（第4部分）、人脸图像数据（第5部分）、虹膜图像数据（第6部分）、签名/签字时间序列数据（第7部分）、指纹骨架数据（第8部分）、血管图像数据（第9部分）、手形轮廓数据（第10部分）、处理过的签名/签字动态数据（第11部分）、声音数据（第13部分）、DNA数据（第14部分）、掌纹图像数据（第15部分），这些标准均为对ISO/IEC 19794多部分标准的采标，尽管采用的程度存在着差异。同时，ISO/IEC39794《信息技术扩展的生物特征识别数据交换格式》（Information technology—Extensible biometric data interchange formats）还给出了指纹数据（第2部分）、指纹图像数据（第4部分）、面部图像数据（第5部分）、虹膜图像数据（第6部分）、血管成像数据（第9部分）、全身图像数据（第16部分）、步态图像序列数据（第17部分）的可扩展规范，给出了基于ASN.1中可扩展规范的标记二进制数据格式的通用数据结构和基于XML模式定义的文本数据格式的通用数据结构等内容。

生物特征识别应符合国家标准的要求，例如当在识别人脸的时候，按照GB/T 40694.5—2022 《信息技术用于生物特征识别系统的图示、图标和符号第5部分：人脸应用》的规定，应该是一个人（见图左），不带帽子（见图右）。

由上述标准规范的各类生物特征，均能够作为专利CN201810585757.X的基础生物特征，且按照CN201810585757.X，生物特征有三种应用方式，即有序组合、无序组合或者叠加组合中的任意一种。所谓有序组合，就是生物特征的输入是有顺序的；所谓无序组合，就是只要采集了全部所需的生物特征即可；而所谓叠加组合，是一个编码对应两个以上的生物特征，且从用户视角看，是同时采集的，例如按住指纹的同时获得面部图像。后面两种方式能够进一步保护生物特征主体的隐私，尤其是叠加组合，看起来是按了指纹，实际上同时采集了面部图像。更进一步，除了这些静态生物特征外，还可以采集动态生物特征，例如步态，以及统计生物特征。随着技术的发展，所有能够采集的生物特征，均能够被映射到编码，这样就实现了本来是不能变更的外源性数据变成了内源性数据，如果银行端对每个客户提供的默认编码方案都是随机生成的，则生成式AI对如何进行编码映射，是无法进行猜测的，因而可以有效抵御生成式AI模仿真人提供活体生物特征。

标识与鉴权的应用

专利CN201810585757.X公开的技术，可以支撑银行业常用的凭据。

目前对凭据（Credential）本身的定义不完全一致。在本文中，采用ISO 21586:2020给出的概念，即“提供给客户用于标识/鉴权的数据”，在这个定义中，隐含表达了两层含义，一是凭据可能仅仅用于标识，因为有些业务，例如存款，仅仅标识就够了；而对另外一些业务，有可能既用于标识，也用于鉴权，例如输入账户和对应的密码；还有可能仅仅用于鉴权，例如对海量数据的情况，有可能由系统给出唯一标识符，才能确保标识对象的唯一性。二是在这个定义中，排除了日常的业务凭单和收据等业务凭证。

由于专利CN201810585757.X公开的技术是建立在一个编码集合的基础上，因此，对标识的值域限制在这个编码集范围内的情况，是完全能够通过生物特征输入标识信息的。尽管在一般的情况下，并无此复杂操作的必要，但对于经常操作几个账户且进行大额资金往来的情况，如果账户提供了短号码，则是切实可行的，并能够进一步提高交易的安全性，因为每次动哪个账户，非操作者本人是难以判定的。

当生物特征的主体是海量时，如果继续用生物特征作为标识，编码长则可能导致不方便，编码短则可能导致不唯一性出现，此时，可以采用生物特征作为鉴权码。而且，鉴于当前主流生物特征的使用模式，也可以仅仅使用一个生物特征作为查询或小额支付的鉴权码，由于使用哪个生物特征是可由客户自己确定的，所以即便仅仅使用一个生物特征，其安全度也高于使用一个固定的生物特征。

银行应用系统的改造

专利CN201810585757.X公开的技术，可以有效降低信息系统改造的难度，提升信息系统改造的效率。

一般来说，如果银行应用系统引入了生物特征作为标识/鉴权措施，要么在业务应用系统中直接记录相应生物特征信息并建立相应的处理逻辑，要么建立生物特征的处理引擎，并由该引擎采集、记录、处理主体的生物特征，并将核验状态提供给应用系统。在这两个方式下，客户或者需要通过采集提供新的生物特征，或者利用现有系统存储的生物特征（例如身份证的照片）。在变更生物特征的情况下，一般需要重新进行采集。

按照专利CN201810585757.X公开的技术，可以通过构建一个特定的生物引擎来处理这一问题，而使用生物特征作为标识/鉴权的银行应用系统无需做任何的改动。其工作原理为，客户输入足够数量的生物特征，当然也可以直接利用已经采集过的生物特征，形成了一个编码集；每次客户进行标识/鉴权时，由生物特征的处理引擎采集生物特征，并转化为相关的编码，传送给银行应用系统。这样，客户在银行应用系统中原有的标识码和相应鉴权码就无需做任何改动；而且，由于生物特征总体上的安全性大大高于通过键盘输入的数字字母，针对不同种类和额度的金融交易，可以采用不同长度的鉴权码。例如，现在假定鉴权码的值域是“0～9”十个数字，应用系统中记录的某借记卡的查询密码是“202310”，交易密码是“171023”，则在查询时，可仅仅要求“2”对应的生物特征，例如右手食指的指纹；在小额交易时，则可仅仅要求“1”对应的生物特征，例如右手拇指的指纹；也就是说，只要求银行应用系统中存储的密码第一位对应即可，而对应多少位，是可以由客户设置的。当对交易的安全度进一步提升时，能够按照预设密码提供当前有效的映射值，例如通过右手食指指纹、左手中指指纹、右手食指指纹、面部图像数据提供“1710”，即交易密码的前四位，且可以按照有序方式，也可以按照无序方式，进行交易的鉴权。

专利CN201810585757.X公开的技术，可以形成企业标准的基础，也可以在完成必要的授权后，形成团体标准的必要专利。这样团体标准可以规定某一种生物特征引擎的基本功能和非功能需求，并规定信息交换的格式。按照这样的团体标准构建的生物特征引擎，能够在客户授权的条件下，按照相应的国家标准和国际标准进行生物特征的信息交换，从而避免生物特征的反复录入。对允许客户采用的编码集，可根据需要接入的银行应用系统目前标识/鉴权码的值域而定。各银行应用系统无需改造，直接从支持键盘输入的标识/鉴权码，升级到支持生物特征。采用这一方案，避免了在自然人的生物特征泄露或使用不受该自然人控制时，其生物特征滥用的问题，提高了安全信息的保密性、可核查性，同时也提高了抗抵赖性。

（此文刊发于《金融电子化》2024年5月下半月刊）

声明：本文来自金融电子化，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

抵御生成式AI模仿活体生物特征的技术措施

我国数据出境合规指引图解

测量恶意软件检测能力

MINER：一种用于REST API模糊测试的混合数据驱动方法