原文作者:Lavanya Elluri,Karuna Pande Joshi,Anantaa Kotal

原文标题:Measuring Semantic Similarity across EU GDPR Regulation and Cloud Privacy Policies

原文链接:https://ieeexplore.ieee.org/abstract/document/9377864

原文来源:2020 IEEE International Conference on Big Data (Big Data)

笔记作者:CJRTnT@SecQuan

文章小编:cherry@SecQuan

摘要

数据保护机构制定了服务提供商在使用用户个人识别信息(Personally Identifiable Information,PII)进行大数据分析时必须遵守的政策和规则,数据法规和隐私政策通常以HTML和PDF格式的非结构化文本进行展示,因此需要一种自动化的方法来确定隐私政策中所指向的具体规则。本文实现了一个基于语义的框架,提取和比较短文本策略的上下文以提取语义相似的关键词,同时创建了一个知识图谱来存储语义相似的比较结果。

提出的方法

图1

A.预处理阶段

首先从GDPR中提取语义相似的关键字,取top100,如图2所示;再将原HTML/PDF格式的隐私政策转换为文本文件后,对其使用tokenization,stemming,lemmatization NLP word processing和stop words进行处理,提取出合适的关键词,见B。

图2

B.从隐私政策中确定相似度得分和关键术语提取

将隐私政策与GDPR作比较,使用文本相似度方法(Doc2Vec)确定其相似度分数(以弧度为单位),分数较小代表该隐私政策更符合GDPR法规

根据从GDPR中提取出的关键术语,再从隐私政策中提取出与其相关的关键字,如图3所示。

图3

C.Permission & Obligations

本文还提取了某些模式关键字,如“will”、“should”、“could”、“shall”、“must”、“can”等,这些情态动词可以确定这个句子是属于许可(permission)还是义务(obligation)。例如,“could”对应的是“许可”,而“must”对应的是“义务”。

D.Knowledge Graph/Ontology Development

使用Protégé创建知识图谱,对本体的构建如图4所示,该本体捕获了法律法规与隐私政策之间的相似性细节。Regulators代表保护用户数据的法律法规制定者;Consumers代表用户;Providers代表有责任保护消费者隐私的组织。

图4

结果

隐私政策中出现类似关键术语的次数与得分成反比——即隐私政策中所含有的语义相似关键字越多,则其相似度得分越低,说明其越符合GDPR法规,如图5所示。这些隐私政策被填充为知识图谱的实例。

通过知识图谱,可以快速检查隐私政策合规性分数,开发者可以据此更新其隐私政策。

图5

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。