2022年5月26日,美国白宫科技政策办公室(OSTP)发布了联邦资助研究数据库理想特征指南(Guidance on Desirable Characteristics of Data Repositories for Federally Funded Research)1,为在全美范围内建立和完善统一、规范的联邦公共研究数据库提供指导。

OSTP指出,社会公众可以有效获取联邦政府资助的研究数据对于加速创新、促进合作、推进公平、确保政府责任以及提高美国基础研究投资的回报率至关重要。近年来,虽然能源部等主要的研究资助部门、机构都建立了可公开访问的研究数据库,但是联邦政府对于科技数据的跨部门、跨机构公开、共享仍缺乏统一的指导,影响科技创新和成果转化效率的数据壁垒仍然存在。

为了解决这一问题,OSTP提出所有研发预算在1亿美元以上的联邦机构都应加入统一的公共研究数据库计划,将所有联邦资助的研究数据存入符合开放、安全和易用标准的在线研究数据库。通过向全美大学、科研机构、社会组织、数据中心和政府部门征询意见,OSTP总结了公共研究数据库所应具有的理想特征。

在5月26日发布的指南中,OSTP明确定义了两类在线研究数据库的理想特征:一类适用于所有类型的联邦资助研究数据(见表1);另一类适用于涉及人类的研究数据,包括了额外的数据安全和隐私要求(见表2)。美国联邦政府将以此指南为依据,对各研究资助部门、机构的研究数据管理计划进行评估,帮助完善现有数据库,指导新建公共研究数据库并创建功能更加强大的联邦公共研究数据库基础设施。

OSTP认为,建成符合理想特征的公共研究数据库将有助于加强联邦各部门、机构间的研发活动协调;提高联邦资助研究数据的可访问性、质量、透明度和再利用效率;更好保障数据的安全性和隐私性;有利于促进新兴技术和科学模式的发展,从而最终提高联邦政府的公共研究投资回报。

表1 联邦资助研究数据库理想特征(通用)

组织架构

免费开放访问

数据库应在研究数据集及原始数据上传后,及时提供广泛、公平和最大程度的免费开放访问。应遵守维护隐私和私密、国家数据主权以及保护敏感数据相关的法律和政策要求

明确使用指南

数据库应确保研究数据集附有明确数据集访问和使用条款的文档(例如,数据再利用许可证和需要得到数据使用委员会批准)

数据风险管理

数据库应具有记录备案管理能力,可确保采用行政、技术和物理保护措施,以遵守敏感数据的保密性、风险管理和持续监控要求

数据保留策略

数据库应提供有关数据保留策略的文档

长期可持续性

数据库应有长期管理数据的计划,包括维护数据集的完整性、真实性和可用性;制定应急计划,以确保在不可预见事件期间和之后数据可用并得到维护

数据管理

唯一永久标识

数据库应为每条研究数据集分配一个可引用的唯一永久标识符(PID或DPI),与数字对象唯一标识符(DOI)功能相似,以支持数据发现、报告(例如,研究进展)和研究评估(例如,识别联邦资助研究的产出)。唯一的PID应指向一个永久位置,即使数据集被取消访问或不再可用,该位置仍然可以访问

附带原始数据

数据库应确保研究数据集附带原始数据,以便能够发现、再利用和引用数据集,并采用适宜数据库服务对象广泛应用的模式

数据质量管理

数据库应提供或促进专家管理和质量保证,以提高研究数据集和原始数据的准确性和完整性

支持数据利用

数据库应确保研究数据集附带包含再利用条款的原始数据,并为用户提供数据衡量归因、引用和再利用的能力(例如,提供充分且可公开访问的原始数据和唯一的PID)

通用数据格式

数据库应允许以其所服务的学科中广泛使用的标准、通用(最好是非专有)格式从库中访问、下载或导出数据集和原始数据

数据源头管理

数据库应有适当的机制来记录研究数据的来源、储存链、版本控制,以及对提交的数据集和原始数据的任何其他修改。

技术支持

身份验证管理

数据库应支持数据提交者的身份验证,具有便于将提交者PID与其存储的数字对象(如数据集)的PID相关联的技术功能

技术可持续性

数据库应建立以稳定的技术基础设施和资金计划为基础的长期数据管理计划

数据安全保障

数据库应具有适当的技术措施,以满足完善的网络安全标准,防止未经授权访问、修改或发布数据。安全级别应与数据敏感度相适应

表2 联邦资助研究数据库理想特征

(涉人类数据库特殊要求)

知情同意原则

数据库应采用记录备案管理程序,将研究数据集的访问和使用严格限制在参与者同意(例如仅可在针对特定疾病或特定条件的研究背景下使用)的范围内

数据安全管理

数据库应实施适当的安全管理方法(例如,分层访问、数据用户认证、防止潜在违规的安全保障)并提供相应的文档,以保护人类受试者的数据不被不适当的访问

数据使用限制

数据库应使用全程备案的程序来传达和实施数据使用限制,例如防止数据被重新标识或重新分发给未经授权的用户

数据下载控制

数据库应严格控制和审核数据集的访问和下载

访问请求审查

数据库应建立公开透明的流程机制来审查数据访问请求

风险响应计划

数据库应完善安全措施,包括针对检测到的数据泄露情况的响应计划

明确问责机制

数据库应完善违反数据使用条款和数据管理不当的处理程序

1.https://www.whitehouse.gov/wp-content/uploads/2022/05/05-2022-Desirable-Characteristics-of-Data-Repositories.pdf

王雪莹,上海市科学学研究所创新政策研究室副研究员。文章观点不代表主办机构立场。

声明:本文来自三思派,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。