陈琨,工学博士,清华大学五道口金融学院博士后

王国赛,工学博士,清华大学五道口金融学院博士后

李艺,工学博士,清华大学五道口金融学院博士后

胡璇,管理科学与工程硕士,现任华控清交信息科技(北京)有限公司研究员

杨祖艳,经济师,金融学博士,现任华控清交信息科技(北京)有限公司高级战略总监

摘要:利用替代数据刻画企业或个人信用状况,是近年来世界范围内兴起的新趋势。但传统的大数据征信基于明文数据计算,容易产生数据泄露与滥用的问题。多方计算技术能够实现数据“可用不可见、可控可计量”,为大数据征信的数据安全利用提供了技术保障,对于征信业的市场化发展意义重大。本文针对我国个人征信领域存在的痛点问题,提出了应用多方计算技术破解我国个人征信数据融合难题的方法,并据此设计了个人征信数据融合平台,探索了多种业务场景。多方计算技术对于数据的安全融合、大数据征信的健康发展提供了新的思路,为推进我国个人征信产品供给侧结构性改革提供了技术支撑。

关键词:个人征信;多方计算;替代数据;市场化征信

一、研究背景和现状

完善的征信体系是提升金融资源配置效率的保障,可有效降低社会的交易成本和监管成本,促进经济高效运行。自2013年《征信业管理条例》发布以来,我国的征信体系逐渐形成“政府+市场”双轮驱动的发展模式。具体地,截至2020年11月,由中国人民银行牵头推动建设的全国集中统一的金融信用信息基础数据库已累计收录近11亿自然人、6000万户企业及其他组织的信用信息,成为全球覆盖人口最多、收集信贷信息量最全的企业和个人征信系统。

然而,对于个人征信产品,目前尚存在数据来源、覆盖群体、产品种类不够丰富等问题,如无法为缺乏信贷记录甚至是没有信贷记录的征信“白户”提供征信报告。基于此,下阶段我国个人征信业务高质量发展的重点任务是增加征信产品有效供给,推进征信业实现供给侧结构性改革。近年来,随着互联网技术飞速发展,越来越多征信主体在互联网上留下大量的行为数据,成为刻画用户征信画像的关键替代数据(美国政府问责局在报告中将替代数据定义为“信用报告机构使用的,用于计算信用分数的非传统信息”),尤其是针对征信“白户”,往往需要传统征信数据以外的替代数据来解决他们的金融诉求。随着百行征信和朴道征信两家市场化个人征信机构相继成立,未来市场化的个人征信产品在创新能力与竞争能力方面被寄予厚望。在新的时代背景下,个人征信业如何坚持市场化、法治化和科技化的发展方向,既提供高质量的征信服务,又做到对个人隐私安全的严格保护,是个人征信业面临的重大课题。

随着党的十九届四中全会首次将数据列为与土地、劳动力、资本、技术等同等重要的生产要素,数据资源的开发使用和分配流通已经上升到了国家战略层面。越来越多的专家学者已经认识到大数据在征信中的作用,将数据视为征信行业的核心资源,大数据与征信的融合已成为不可阻挡的发展趋势。然而,一方面,替代数据天然地分散在多个不同的数据源处,例如政府、互联网电商平台、运营商等,而另一方面,随着《个人金融信息保护技术规范》等法律规范的发布,数据合规性要求愈发严格,掌握大量征信替代数据的公司不愿、不能、不敢直接共享自己的明文数据。由此形成征信数据供给的孤岛现状,数据资源对于征信的作用得不到有效发挥。目前已有众多学者探讨了区块链技术在征信业的应用,提出由于区块链具有去中心化、数据公开透明、不可篡改、可追溯等特性,其与个人征信行业需求具有天然契合性,可助力打通征信数据孤岛。然而,如果只引入区块链技术,那么在信息主体隐私保护层面仍存在不足,比如信息主体私钥丢失无法恢复、交易数据的隐私保护、交易平台的安全性等。

随着隐私计算技术的不断成熟,部分学者注意到,由姚期智院士开创的多方计算(Multi-party Computation,MPC)技术,为在征信领域充分利用数据要素的价值提供了新的解决思路。多方计算技术保障了征信数据提供方对数据的绝对控制能力,降低数据计算过程中的泄露和滥用风险,保障数据安全,破解了征信信息共享和征信信息保护的原有矛盾,为二者提供了协调兼顾的技术武器。日前,多方计算技术的金融行业标准《JR/T 0196—2020 多方安全计算金融应用技术规范》已正式发布,为其在金融领域的全面应用打下坚实的政策基础。此外,多方计算技术已实现工程化,并在金融、医疗等领域得到应用,为我国下阶段更好地开发数据要素价值,实现征信行业跨越式发展提供了坚实支撑。但目前关于多方计算技术在个人征信领域的应用仍处于方向性探索阶段,尚未有具体的落地思路,本文尝试弥补该领域理论探索与落地方向的空白。

二、我国个人征信领域存在的痛点问题

(一)数据来源不够全面

根据目前的二代个人征信报告披露内容,人民银行个人征信系统主要从个人负债情况(衍生出履约与违约情况)、行政处罚、公积金缴纳等角度刻画用户征信画像,而未纳入个人资产、行为等信息。放眼国际,美国征信体系明确将资本 (Capital)列入到信用评估范畴;全球知名征信机构Experian(益博睿)自2014年起越来越广泛地将房租信息应用于个人征信产品和服务中;FICO(费埃哲)也积极尝试将电信大数据纳入信用评分模型中。因此,为了更加准确地刻画用户信用画像,我国个人征信数据的来源范围需要从多元化、有效性、实时性三个层面丰富。从多元化层面来看,需要更多广谱信息来丰富征信画像;从有效性层面来看,需要与个人信用强关联的数据来精准刻画用户征信画像;从实时性层面来看,征信数据应当实时鲜活,才能避免因时效性不足而造成征信报告与个人实际情况存在较大偏差的问题。

(二)覆盖用户群体不够广

我国现有征信体系覆盖人群仍然不足,相当一部分未办理过信贷业务且从未查询过信用报告的人群未被征信系统收录。按2019年末我国总人口计算,目前尚有3亿左右的自然人未收录在金融信用信息基础数据库中。此外,数据库收录的自然人中,还有众多用户仅有查询记录,但未办理信贷业务。但上述个体往往是普惠金融重点服务的对象,却因征信记录缺失而难以在传统金融机构获取信贷服务。对此,非金融类数据如社交平台及电商网站行为数据亦可用于评估用户信用及消费能力,从而弥补现有征信系统的空白。基于这些数据的个人征信产品,可帮助金融机构对现有“白户”与“准白户”人群进行信用评级,更好地为其提供金融服务,促进普惠金融发展。

(三)征信体系市场化不足

随着互联网及大数据技术的广泛应用,人们的行为方式发生了诸多变化,市场主体和信息主体的信用意识普遍增强,各行业对多元化征信产品和服务的需求也不断增加。但目前我国的征信体系仍以央行体系为主、民营体系为辅,个人征信产品种类依旧相对单一,市场化进程有待加快。我国“政府+市场”双轮驱动的发展模式仍存在市场动轮偏弱的格局,相较于美国的“市场主导型”征信体系和德国的“混合经营型”征信体系存在较大的市场化差距。百行征信、朴道征信相继成立,也承载着各界对通过建立大数据征信体系增加征信市场有效供给的期待。但是,数据要素的确权与定价难题导致数据的交易流通问题未能得到有效解决,征信替代数据进入征信市场尚未确立闭环。下阶段加快推进数据的确权与定价,是弥补征信市场有效供给不足的关键。

(四)行业发展面临个人信息保护挑战

大数据征信为刻画更为精准的信用画像提供了解决路径,但是数据明文使用存在数据泄露与滥用的隐患。征信领域的大数据为典型的多元异构大数据,具有数据量大、数据源自多方和数据包含维度多等特点,这使得大数据征信泄露隐私的隐患点也较多。同时,出于合规性和保护商业机密考虑,拥有大量征信替代数据的机构很难直接明文共享其核心数据资产,数据孤岛问题尚待破题之钥。要解决多维度数据采集中存在的数据安全问题,我国亟需完善征信法律体系以及隐私保护技术支撑。法律监管方面,中国人民银行近期指出,在培育和发展征信市场方面,人民银行会坚持严监管、强供给和保安全的治理思路,个人征信服务一律实行持牌经营;利用替代数据为金融和经济活动提供信用管理服务,在本质上属于征信活动,需要纳入征信监管;发布《征信业务管理办法(征求意见稿)》,明确征信机构应当采取有效保护措施,保证信用信息的安全。此外,随着《中华人民共和国个人信息保护法(草案)》通过审议并公开征求社会公众意见,我国应加快推进个人信息保护法出台,并实施配套监管。技术支撑方面,大数据征信体系的建设需要引入先进的隐私增强技术解决信息安全隐患,实现多维度数据的安全采集和融合。

三、多方计算解决个人征信数据融合难题

(一)多方计算技术介绍

上世纪80年代,姚期智院士通过提出和解答著名的“百万富翁问题”而创立多方计算理论,并逐步发展成为现代密码学的重要分支。随着数据开发利用的需求剧增,多方计算技术被视作明文计算的有益补充,能够有效化解数据隐私保护与数据融合之间的矛盾。多方计算的突出特征是多个参与方可协同计算一个以各自数据密文作为输入的指定函数,整个计算过程中无须解密还原出数据明文,具有不信任硬件、不信任软件、不信任计算参与人员的特点。即使在一方甚至多方被攻击的情况下,多方计算技术仍能保证这些输入不被泄露,同时保证计算结果的正确性。随着计算机理论和技术的飞速发展,目前多方计算已经具备了初步实用性,应用手段也不断取得突破。

(二)多方计算在个人征信中的应用优势

多方计算技术基于其强隐私保护特点,能够助力征信业安全融合多元化数据,在数据明文信息不暴露的情况下充分释放计算价值,为我国征信体系下阶段实现市场化、多元化发展,夯实个人征信产品供给侧结构性改革的数据基础,实现以大数据为基础的信用体系全覆盖提供可靠的技术支撑。

1.实现数据“可用不可见、可控可计量”

传统信息共享方法是基于明文数据,由于明文数据一旦被看见就会泄露具体信息,进而难以限制其用途和用量,一旦遇到数据滥用也难以厘清“责、权、利”。因此在现实中,数据所有方在分享数据时顾虑重重。多方计算技术可实现数据“可用不可见、可控可计量”,破解了上述难题。一是以数据“可用不可见”解决数据泄露问题,通过多方计算,数据原文在参与计算过程中不出本地,只需向各不同安全域提供明文数据编码形成的计算因子即可(计算因子为密码学安全,不承载任何关于原始数据的有效信息),并将计算最终结果提供给事先商量好的指定方,保证全过程数据“可用不可见”;二是以“可控可计量”解决数据滥用问题,通过多方计算,每次计算都需要事先对数据的用途和用量进行规定(算法审核),方能进行计算。以上技术特点使得多方计算可成为支撑征信数据权益分配与流通的底层技术,为我国个人征信领域存在的痛点问题提供了破解之道。

2.数据全程以密文形式参与计算,降低征信数据泄露风险

目前,各国尚未有大规模的基于密文计算的征信模式,国外征信机构也是基于明文数据进行征信产品开发。但这种模式下,泄露事件时有发生,个人隐私保护问题面临挑战,对社会稳定造成极大影响。如2017年9月7日,美国征信巨头Equifax(艾克飞)因黑客入侵,导致约1.43亿人的个人信息被泄露,而面临巨额罚款。此外,Dun&Bradstreet(邓白氏)、Experian(益博睿)等全球知名征信机构均遭遇信息泄露事件。随着数据共享与数据隐私安全之间的矛盾日益突出,在推动多方数据融合的同时防止数据信息泄露成为我国构建大数据征信体系需要克服的难题。基于多方计算的征信产品模式,破除了征信原始数据集中的旧有模式,使得明文数据无需物理上融合汇聚,而仍由不同的数据源管理,从而显著降低了单一数据源数据泄露的影响,降低了征信机构数据泄露的风险,为个人隐私数据保护提供了解决路径。

3.采用数据本地采集方式,吸引更多维度数据进入征信领域

多方计算征信模式支持数据本地采集方式,数据不出库且实时更新弥补了传统征信数据非实时、风险评估状况滞后的缺陷,更能支持数据类型多样化的协同计算。其次,数据进行本地采集,参与数据融合计算的为不泄露数据信息只承载计算价值的计算因子,在此模式下,更容易吸引更多数据拥有方参与到数据融合计算中来,从而获取多元化数据。基于上述多元化数据,可构建高质量的征信模型,更精准地刻画用户的征信画像。

4.赋能数据差异化定价,支撑多样化的个人征信产品

多方计算技术中数据“可控可计量”的特点可以在保护数据提供方数据所有权的情况下,实现数据多样化的计算价值,因此支持数据融合计算的计算因子按创造的价值进行差异化定价,进而可支撑多样化的个人征信产品,完善市场化产品与公益性产品相结合的供给机制。如支撑公益性征信产品的数据要素根据创造的社会价值获得公益性报酬,市场化征信产品的数据要素根据创造的市场价值获得市场化报酬,一方面可推动相关主体更好履行数据要素责任,另一方面通过差异化定价激发数据要素的市场供给。

四、多方计算在个人征信中的应用探讨

(一)个人征信数据融合平台设计

通过上述分析,此处提出构建一种基于多方计算的个人征信数据融合平台,同时结合区块链存证功能及云计算等技术,兼顾安全、效率与可扩展性的通用解决方案。个人征信数据融合平台的架构如下图1所示,自下而上依次为基础设施层、数据层、多方计算层、应用开发层、合约与存证层、业务层、用户层共七层:基础设施层包括计算集群管理、区块链基础设施和征信云平台;数据层包括数据源服务以及平台数据资源目录等,可以对接多种异构的数据源,不同数据源的数据可以进行本地计算和以加密的计算因子形式参与数据融合运算;多方计算层通过多种密码学协议实现了密文基本运算,并在此基础上构建了支持密文通用运算的计算引擎,此外还支持明密文混合计算;应用开发层提供了包括开发调试环境和函数库在内的开发工具;合约与存证层引入了计算合约的概念,来实现对数据的用途和用量的控制,并提供存证功能以备追溯和审计;业务层和用户层分别描述了平台可以支持的客户画像、信用评分、隐私查询等多种征信业务和能够服务的征信生态角色,平台以数据“可用不可见”的方式连通了数据提供方和数据使用方,并通过合约和存证等手段为监管提供了便利。

总结来看,该个人征信数据融合平台设计的优势包括:安全性:平台进行数据融合计算的过程中,除了最终计算结果外,其它信息都不会泄露给各参与方;通用性:支持多种异构数据源的接入,可进行通用的密文计算,支持一个任务中明密文的混合计算和明密文间的灵活调度;高效性:计算性能足够快,满足征信业务场景的需求;可扩展性:能够支持大量的数据源和大规模的数据参与数据融合计算。

图1 基于多方计算技术的个人征信数据融合平台

(二)应用场景示例

1.保护隐私的非银行金融机构负债信息查询

场景需求:查询方(征信系统)想获取用户在非银行金融机构上的负债信息,来多维度验证用户的还款能力;商业银行的查询条件(用户ID)、查询结果(如统计用户在非银行金融机构上的违约次数合计)不暴露给任意一家非银行金融机构以及平台方,以防止被查询机构营销客户;各家非银行金融机构之间的数据也相互保密。

图2 保护隐私的非银行金融机构负债信息查询技术架构

查询流程:①各家非银行金融机构将其产品数据在本地进行编码形成碎片化密文,供查询方(征信系统)查询统计;②查询方(征信系统)将待查询用户ID发送至业务接入组件;③业务接入组件将待查询人员ID进行加密,并发送至多方计算平台;④多方计算平台进行密文用户匹配,得到密文查询结果,并将该结果返回业务接入组件;⑤业务接入组件对结果进行解密,得到明文查询结果,并将其返回给征信系统。

2.不暴露各方数据明细的运营商数据联合统计

场景需求:各方数据联合能得到更全面准确的统计结果,又不希望自身数据流失,因此需要保障数据安全下的联合统计。如运用多方计算技术融合用户在三大运营商平台的欠费金额,三大运营商之间以及与平台之间不暴露明细数据,查询方只得到统计结果,得不到其他任何信息。

图3 不暴露各方数据明细的运营商数据联合统计技术架构

业务流程:①三大运营商在本地将其数据进行编码形成碎片化密文,供查询方(征信系统)查询统计;②查询方(征信系统)将待查询用户ID发送至业务接入组件,并发送至多方计算平台;③多方计算平台进行用户匹配,调用该用户在三大运营商的数据,得到密文统计结果,并将该结果返回业务接入组件;④业务接入组件对结果进行解密,得到明文查询结果,并将其返回给征信系统。

此外,该场景可扩展至其他应用,如融合互联网平台购物数据进行联合统计。

3.不暴露各方数据明细的信用评分

场景需求:基于来自于多个数据方的与信息主体有关的多维度数据进行模型训练,且每个数据方不泄露明文数据。如基于多元化数据开发国家级征信产品,如信用评分产品,刻画更加丰富的用户征信画像。

图4 不暴露各方数据明细的信用评分技术架构

业务流程分为模型训练以及信用评分预测两个环节。

模型训练:①在所有数据提供方本地将其数据(历史数据)进行编码形成碎片化密文,供模型需求方(征信系统)进行模型训练;②模型需求方(征信系统)将模型训练请求发送至业务接入组件,并发送至多方计算平台;③多方计算平台根据一定量的历史数据进行建模训练,得出信用评分模型。

信用评分预测:①在所有数据提供方本地将其数据进行编码形成碎片化密文,供查询方(征信系统)查询统计;②查询方(征信系统)将待查询用户ID发送至业务接入组件,并发送至多方计算平台;③多方计算平台基于信用评分模型,实时生成个人的信用评分,并将密文统计结果返回业务接入组件;④业务接入组件对结果进行解密,得到明文查询结果,并将其返回给征信系统。

五、小结与展望

大数据征信基本上成为了征信业的行业共识,但其跨越式发展亟需破解数据孤岛、数据隐私安全等难题。多方计算技术对于数据的安全融合、大数据征信的健康发展提供了新的思路,对于征信业的市场化发展意义重大。一是形成多元化征信产品,推进征信业供给侧结构性改革;二是融合多维度数据,解决“白户”征信画像空白的问题,践行普惠金融;三是构建更加完善与市场化的国家征信体系,助力建设“政府+市场”双轮驱动的有中国特色的国家征信体系。

目前多方计算技术用于征信业还处于探索阶段,下阶段要实现大规模技术应用仍需在制度、技术、市场认知等层面加强支撑。制度层面,目前还面临多方计算相关法律和应用标准还需完善等问题,后续应针对多方计算的技术特点,制定应用评估、检测认证等标准;技术层面,多方计算基于密文计算,在计算性能上低于明文计算,存在一定效率损失,大规模商业化应用综合成本高,还需在算力、算法、存储、网络等维度加强技术攻坚;市场认知层面,多方计算属于数据融合颠覆性新兴技术,技术工程化周期尚短,市场认知处于起步阶段,接受程度不高,还需加强多方计算技术的研究宣传,通过实践不断迭代技术能力与提高市场接受程度。

“十四五”时期是我国经济转型和高质量发展的关键期,也是征信行业发展的一个黄金时期。可预见,基于多方计算的大数据征信未来大有可为,除了融合替代数据,还可联合多家征信机构的数据进行联合信用评估。未来,高价值的征信数据还可实现对金融以外的其他行业的有效赋能,切实落实国家数据要素战略,构建安全可靠、融合共赢的数据生态。(原文载《征信》2021年第5期)

声明:本文来自数字经济与社会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。