1月26日,清华大学数据科学研究院执行副院长韩亦舜先生在第三届中国电子信息行业发展大会 - 国家数据与治理论坛上,围绕国家“治理数据”、 数据“治理国家”、治理“数据国家”、治理“国家数据”做了主题为《国家,数据,治理》的演讲。(本文内容根据速记整理)

我先说明一下情况,我是时隔28年后,于2014年又重新回到学校参与数据科学研究院的建立和运营工作。我其实不是学者,曾经在很多企业做过管理工作,没有做技术。所以今天我把在过去四年不到的时间里自己的一些观察和思考和大家分享一下。但是有这样前提:我所有演讲当中的观点,对的算清华的,不对的算我的;而且还有无限的时效性,现在大家不认同的算我的,以后证明说的对的算清华的。我准备有点仓促,一些照片来自于互联网,我没有加鸣谢页。杨部长刚才专门注明了一些资料的出处,对互联网上的一些知识分享表示尊重,所以我在这里对引用于互联网的资料表示感谢。

本次论坛的话题“国家数据与治理”挺有意义,观察一下也有意思。我偷懒把自己的题目索性叫“国家,数据,治理”,我想放在一起讨论,和大家分享一下我的看法。

可以说“国家治理”这个概念提出的时间不短了,具体提出的时间和背景我没有深入研究,但是带上“数据”这个词的时间并不长。2011年美国任命了首任联邦政府的CIO,大概从那时起,发达国家开始有自己政府的CTO、CIO或者CDO,把新兴IT技术产生的大数据和国家治理联系在了一起。标志性的工作是2013年八国峰会提出数据开放的宪章。我们国家2012年在中科院香山会议上已经开始有前沿的专家学者看到了大数据的发展趋势,提出了国家要搞大数据。真正轰轰烈烈做起来是2014年,以贵州省为代表,推动大数据在全国受到关注,之后又上升为国家战略。党中央国务院的文件和会议都提到了大数据应该怎么发展,提到了国家治理。

我的观察:尽管我们现在贵州倾全省之力在搞大数据,中央也高度重视大数据的发展,但在国家数据开放道路上,我们还任重道远,还有很长的路要走。这张图中的数字来自于Global Open Data的组织。他们有一个数据开放程度排名,2013年中国排名36,2014年中国排名到了58,2015年中国排名90多了,2016年中国不去排名了。是不是有帝国主义埋汰我们不好说,这个排名可能在某种程度上体现了我们任重道远。2013、2014年第一名是英国,2015年第一名是台湾,我不认为台湾的信息化比咱们做得更好,而且台湾很多东西比我们落后。但是政府数据开放方面做得好,可能是意识形态方面台湾更接近西方。我们不一定需要跟踪某一个特定的排名,但是我们应该清醒地认识到这方面我们的挑战还是蛮大的。

讲到国家数据治理,难点、痛点、特点,有几个方面:一是不想用数据;二是不会用数据;三是不愿用数据;四是不敢用数据;五是不善用数据。

我们来玩一下文字游戏,中国文化博大精深,国家、数据、治理可以有这么多组合方式,有的意思接近,有的是不同的话题,我会挑几个有关的话题来深谈。

比如说:国家“数据治理”,数据治理是较早在企业界用起来的概念,特别是走在前沿的企业,会用到数据治理。但是真正讲到国家“数据治理”,我理解是国家来把“数据治理”上升到国家的层面上。我们真的应该有一些目标,比如说数据质量怎么确定,国家在数据活动中行使什么样的权力,这都是可能牵扯到在国家层面上推动数据治理的时候要思考的问题。但是我也想说,凡是牵扯到国家行使某种权力的时候,还应该有相应的监督。

数据治理从基层数据安全、数据架构、标准,到中层平台的搭建,到上面真正的数据价值的体现,到对业务的指导,不仅是对企业有效,对国家也是有效的。真正到了基层的数据质量好以后,才能真正谈到国家的政策产生很好的效果。所以应该是这样一个过程,我们现在缺乏高质量的数据,只有在数据质量有保证的情况下再加上一些数据挖掘的理念,最后才能真正让国家的数据成为有价值的东西,成为今后在治理国家方面有所作为的资源支撑。

国家“治理数据”,以国家来治理所有的数据,这个话题比较悬,如果国家出面治理所有数据的话,这事得慎重考虑。我们今天还在继续沿用政府比较大比较强权的思维,用这个思路治理数据该不该?用“大一统”的思维汇聚数据是否应该?今天一些大型国企参与了很多国家数据汇聚的工作,结果是拿着烫手的山芋,就是干耗电,干不了什么事。原来是希望用数据监督,把公权力关在笼子里,最后变成了把数据关在笼子里,这是挺大的挑战。

数据“治理国家”,我们原来说的国家治理也好,治理国家也好,是同义词或近义词。真正基于数据来参与国家治理,还有很多问题和挑战。数据怎样产生价值?可以总结为三句话:总结过去,优化现在,预测未来。我们是不是真正这么做了?过去的数据是不是充分运用好了?今后应该采用哪些数据?谈到打破数据的壁垒,过去有一些东西是由当时推动信息化又没有大数据意识造成的。

今天特别是在座的IT公司,不要以为大数据时代来临,就觉得自己是天然的大数据的领军企业。有的时候人在大数据时代,思维还是传统的思维方式,认为自己的数据内部可以用,但是对外还是一个独立王国,不能把数据共享。讲到数据共享,我当然不是说所有的数据都应该共享。应该有目的地逐级推动数据开放与共享。可以反过来想象:如果每个公司都是壁垒,每个公司都在爬取同样的数据,会产生大量的数据冗余,无论是社会资源的占用还是最后产生的社会价值,都会是巨大的损失。这需要观念的改变,另外还有数据思维和数据制度。

我举一个贵州的例子,在贵州这样一个相对偏远和欠发达省份推动大数据实在不容易,可喜的是有一些方面确实走在了全国的前面,我要为贵州站台,为贵州发声。贵州做精准扶贫,能够把这么多数据汇集在一起非常不容易,也发现了一些问题:一些被帮扶的对象,用其他渠道的数据进行对比时,发现了异常。有人会争执,谁的正确?依我看恰恰这个时候我们就是要利用差异发现我们工作当中的问题,真实的数据应该说只有一个,为什么不同组织里面,不同的机构里面记录的数据不一样?再有,有人提出精准扶贫到个人,把这么多数据汇集在一起,会不会牵扯到隐私问题?我们很多时候要换个角度,从国家的理念从公民的理念来想问题,今天扶贫是用纳税人的钱体现国家公平正义。这时候被帮助的对象应该有这个意识,被帮扶的前提是要让度出一些个人关于财产方面的数据,证明你没有欺骗国家,没有欺骗纳税人,才能获得帮扶。

治理“国家数据”,国家各种各样的数据怎么用起来?也是贵州的例子,这两个圈是是这样来的:我在贵阳讲课的时候,规模好像比现在会场还大一些,讲数据孤岛,我说你们来说一下你所在的部门,你的工作需要谁的数据?谁的数据跟你分享之后对你工作有帮助,另外你觉得你的数据会对别人有哪些帮助?问卷收上来,加以整理和可视化,于是形成这样的两个圆。边上一圈文字都是政府委办局的名字,这边是需求,那边是供给。中层干部中也蕴含着很多愿意把数据拿出来分享和需要别人把数据分享过来,这是一个我们推动治理“国家数据”很好的基础,不是简单说今天数据开放,明天所有的公民都知道政府的机密数据了,而是一个层次一个层次上逐渐把数据的价值释放出来。

治理“数据国家”,我在想,真正到了所谓的数据化时代,这个时候怎么治理国家,涉及到很多问题,比如说新的法律问题,我们想象一下,过去的很多东西在今天不适合了,过去一个产品属性和功能在离开工厂的时候,大致定了。今后出来一个人工智能的产品,可能在离开工厂到了消费者方面随时还在学习、在思考,有自己的价值观和决策能力,这个时候责任谁来负?这是新问题,还有怎么样建立新的公序良俗。前不久发生高铁挡车门事件,大家都很气愤,但是不能因为她做错了就人肉她,在今后数据化时代大家都会鄙视甚至惩罚人肉别人数据的人。

这张图我想大家都不陌生。想象一下,今天我们在这边,数据时空隧道的那边是什么?我们不知道。但一定是充满机遇与挑战。

我从两个层面做总结,来结束我今天的演讲。第一个危言耸听些。大家也知道“我消灭你,但与你无关”、“升维思考,降维打击”等这些新提法。其实这已经不是所谓的危言耸听了,如果我们不进步、不发展,可能会在完全不知情的情况下被别人消灭。

第二个前途是光明的。我们每个人如果能够做出一点自己的贡献,把现在的数据用好,把接下来数据价值提高,用科学的方法决策的话,加速前进的话,一定会对我们实现中国梦有帮助。

声明:本文来自THU数据派,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。