GDPR和云隐私政策的语义相似性研究

安全运营安全学术圈 2021-09-25

论文实现了一个基于语义的框架，提取和比较短文本策略的上下文以提取语义相似的关键词，同时创建了一个知识图谱来存储语义相似的比较结果。

原文作者：Lavanya Elluri,Karuna Pande Joshi,Anantaa Kotal
原文标题：Measuring Semantic Similarity across EU GDPR Regulation and Cloud Privacy Policies
原文链接：https://ieeexplore.ieee.org/abstract/document/9377864
原文来源：2020 IEEE International Conference on Big Data (Big Data)
笔记作者：CJRTnT@SecQuan
文章小编：cherry@SecQuan

摘要

数据保护机构制定了服务提供商在使用用户个人识别信息（Personally Identifiable Information，PII）进行大数据分析时必须遵守的政策和规则，数据法规和隐私政策通常以HTML和PDF格式的短、非结构化文本进行展示，因此需要一种自动化的方法来确定隐私政策中所指向的具体规则。本文实现了一个基于语义的框架，提取和比较短文本策略的上下文以提取语义相似的关键词，同时创建了一个知识图谱来存储语义相似的比较结果。

提出的方法

图1

A.预处理阶段

首先从GDPR中提取语义相似的关键字，取top100，如图2所示；再将原HTML/PDF格式的隐私政策转换为文本文件后，对其使用tokenization，stemming，lemmatization NLP word processing和stop words进行处理，提取出合适的关键词，见B。

图2

B.从隐私政策中确定相似度得分和关键术语提取

将隐私政策与GDPR作比较，使用文本相似度方法（Doc2Vec）确定其相似度分数（以弧度为单位），分数较小代表该隐私政策更符合GDPR法规。

根据从GDPR中提取出的关键术语，再从隐私政策中提取出与其相关的关键字，如图3所示。

图3

C.Permission & Obligations

本文还提取了某些模式关键字，如“will”、“should”、“could”、“shall”、“must”、“can”等，这些情态动词可以确定这个句子是属于许可（permission）还是义务（obligation）。例如，“could”对应的是“许可”，而“must”对应的是“义务”。

D.Knowledge Graph/Ontology Development

使用Protégé创建知识图谱，对本体的构建如图4所示，该本体捕获了法律法规与隐私政策之间的相似性细节。Regulators代表保护用户数据的法律法规制定者；Consumers代表用户；Providers代表有责任保护消费者隐私的组织。

图4

结果

隐私政策中出现类似关键术语的次数与得分成反比——即隐私政策中所含有的语义相似关键字越多，则其相似度得分越低，说明其越符合GDPR法规，如图5所示。这些隐私政策被填充为知识图谱的实例。

通过知识图谱，可以快速检查隐私政策合规性分数，开发者可以据此更新其隐私政策。

图5

声明：本文来自安全学术圈，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

安全运营合规 GDPR

相关资讯

微信公众号