智慧岛百人会核心成员 苗放

  • 所属类别:核心成员
  • 热点应用:其他
  • 发布单位:成都大学大数据研究院院长
  • 所在城市:成都
  • 发布日期:2017-02-28
  • 联 系 人:秘书处
  • 联系电话:010-80257144

智慧岛百人会核心成员  苗放

 

 

成都大学大数据研究院院长、博士生导师    苗放

 

 

摘自:全景网

 

经济大数据论坛 塔塔经济大数据联合实验室成

苗放:大数据若干基础问题研究及解决方案探讨
来源:全景网 发布时间:2016年07月14日 16:51 作者:

  苗放:各位领导,各位嘉,很荣幸在这里和大家进行交流,我交流的题目是“大数据若干基础问题研究与解决方案探讨”,前面很多嘉宾都谈到了一些基本问题,我准备从四个方面讲,第一方面是大数据发展浪潮汹涌,精彩纷呈。第二方面一些问题存在与呈现制约大数据发展。第三方面探索大数据基础问题,解决发展瓶颈。第四面向数据和遵循规律建立数据架构和发展机制。

  首先看一下大数据发展情况,大数据带来大变化,巨大效益开始呈现,在经济方面经济大数据展示经济发展态势,预测经济走势。在社会方面社会大数据分析社会各类情况,研判社会问题。科学大数据提供精确分析结果,探索科学规律。政府大数据实现行业数据共享,提高服务水平。企业大数据降低成本,把握市场,增强企业活力。民生大数据逐步满足个性需求,提供便民服务。

  以经济大数据为例,它的作用已经成绩斐然,成都大学与北京塔塔信息公司成立了经济大数据联合实验室,共建成都市智库平台,展现了成都市社会经济发展的全面状况,并和全国各大城市进行经济状况经济对比,各种形式的可视化图表使经济态势一目了然。我们对成都市的就业、金融、医疗、环境、教育、交通、对外贸易、个人可收支情况等等都通过形象的图表进行展示。对于城市发展情况,进出口总额,固定资产,社会消费品零售总额也可以做很清晰的表现。对于文化产业也可以做一些详细的分析。对于上市公司分布情况也可以做一些详细的了解。

  成都市还可以和其他的城市进行横向对比,这只是简单的介绍了一下成都市智库平台所做的一些展示。

  接下来讲第二方面,影响大数据发展的几个层面,认识层面我们看不清,理论层面我们理不清,技术层面不适应,应用层面繁乱差,安全层面威胁大,法律层面缺立法。现在的信息社会,数据爆炸,分享经济,思维革命给我们带来新概念,新产品,新的行为方式应接不暇,纷至沓来的新事物,扑面而来的浪潮迷惑双眼,从传统中走来停留在历史经验和传统思维对很多事情无法理解,数据爆炸,分享经济,知识社会人类社会应该如何认识和应对。

  在理论方面,我们进入数据时代,数据科学,数据理论,数据思维,数据安全,心细於数据,知识与智能,管理与服务,运行与决策这方面我们都感到非常茫然。在技术层面方面技术发展非常迅速,“互联网+”和大数据已经成为国家战略,各类技术大量涌现,技术推动社会进步还是过眼云烟,技术如何解决IT面临的问题,如何理清和把握技术方向。应用层面部门、行业、企业信息孤岛,数据烟囱长期和普遍存在,系统扩展困难,不能满足需求增长,重复建设,投资巨大。如何梳理数据和技术的关系,破解难题。个人、企业、国家面临更严重的网络空间安全威胁,民众个人信息被集中保存,被政府和商业机构利用,数据被越权访问或系统漏洞造成敏感数据泄露,造成个人隐私侵害,企业利益侵害,国家安全侵害,在法律方面数据到底是知识产权的客体还是法律的客体,数据的主体不清,数据是资产,数据该归属谁?数据的行为无监督机制,数据的权利和数据负面作用,以及数据技术对法律支持的保障等等方面。

  政府数据开放方面也面临执行困境,国内大数据交易所和中心雨后春笋般的成长,交易规则尚未确立,数据交易亟需立法,以确定数据权属和规范交易秩序,大数据产业发展面临几大难题,首先是数据权利、类型没有确定,其次数据权利主体究竟属于数据生产者,个人,企业、政府还是数据持有者。三是数据的控制和使用权利界限不明,如何分离尚不明晰,私人数据通过互联网非常容易复制,权属保护很困难。

  这就需要我们探索和研究,来解决这些基础问题,解决发展瓶颈。我们可以从这六个方面,从认识、理论、技术、应用、安全、法律方面来探索解决方案。首先在认识方面,我们要看清趋势,提到认识,实际上我们现在面临的是两个世界,一个是真实世界,另外一个由计算机互联网构成的虚拟世界,我们抬头看到的是真实世界,低头看手机就进入虚拟世界,而虚拟世界的核心就是数据,数据产生信息,信息沉淀知识,知识形成智慧,智慧作出决策,所以我们现在是在一个虚拟世界里和真实世界两层世界里生存。从人类文明看,我们现在正进入数据时代,人类文明演进从现在看一共有四个阶段,农业文明和工业文明实际上是物质文明,现在已经到来的信息文明和未来很快就要带来的智能文明是非物质文明,农业文明持续了几千年,工业文明持续了几百年,我们现在已经进入信息文明,也就几十年时间,这么短暂的时间怎么应对?我们能否用工业文明的一些思想,甚至是农业文明的思想应对现在的信息文明?所以非物质文明的核心基础就是数据,那么怎么来认识数据?

  进入到数据时代,数据是驱动社会进步的核心力量,对数据认识还远远不够,大数据只让我们看到了大,往往忽略了数据本身。在理论层面上,我们要研究数据科学和数据理论,要研究数据的规律,数据和物质的区别是数据容易复制,容易传输,它能共享,能够整合,数据和物质相似的地方它们都具有资产属性,可画像,但是都难管理。我们强调的是数据过程而不是仅仅的数据,要从采集、产生、搜集、传输到存储、处理、计算,到统计、分析、提取、挖掘、可视化到最后决策支持,用到的就是互联网技术、物联网技术,云存储技术,大数据技术,虚拟现实技术,增强现实技术以及人工智能技术,那么数据的基础设施是承载和传输它的云计算、云存储和网络,我们还要数据的体系结构,考虑数据规律和特点的体系结构来支撑数据时代的软件,应建立为主体,以数据为核心和面向数据的体系结构。

  在技术上面,我们要研究数据技术和数据方法,马云提到我们从IT到DT,信息技术是为自己的,数据技术是为大家的,信息关注的是局部,数据注重的是整体,里面就要有数据表识,数据主体和数据全生命周期概念,数据要有统一的数据注册标准。建立了这种技术体系,我们的数据系统就可以既自治又联合,自治可以成为他自己的独立系统,也可以通过数据路由把所有的系统联合成一体。

  从应用角度来看,现在的应用每天都在变化,需求每天都在增长,我们要建的系统应该是一个生态系统,是一个可持续发展的系统,是一个共享共存的系统,数据生态,数据共享,数据应用,系统共存要可持续发展。数据是生长应用的应用沉淀数据,我们就可以形成一种肥沃的数据土壤上面生长的茂盛的应用森林,我们通过我们的机制、体制,也就是我们的阳光雨露使生态系统能够成长,数据还要加密,授权使用,还要绑定数据利益,数据价值评估,数据权属绑定,数据利益体系,数据不断成长,应用不断增长形成良性应用系统。

  另外一个就是安全,在现实社会中每个人都要有正当的身份,网络世界里我们也需要有实名制,我们现在有手机实名制,但是更需要网络实名制,实现数据保护。数据安全要与人相关,不仅要从技术上做安全,数据还要有归属,确定数据的所有者,网络用户要实名制,一方面要回来网络活动的人员身份,另一方面利用网络人员身份对数据进行保护,对利益进行保障。

  数据是我们最关心的安全主体,所以数据要天生加密,在过去信息系统是没有考虑这一点,但是现在的技术条件使我们能够做到数据的天生加密。一旦加密以后,数据只能归数据所有者所使用或者被授权的数据使用者所使用,要想别人使用你的数据那么就要经过授权,这个授权是经过两个层面保障,一个是法律层面,一个技术层面,法律层面要形成契约,技术层面要用被授权使用者的公钥对数据进行加密。另外还要对数据过程进行记录,来进行违规溯源。

  从法律层面方面,现在很多有识之士都在呼吁数据立法,要实现数据治理,我们认为数据最重要的实际上是从数据的权属入手,因为数据类似于物质,数据也是有归属的,数据可以属于某个人也可以属于某个法人,过去技术无法做到对每个数据确权,但是目前技术发展已经可以做到对每个数据的确权,所以类比于物权法完全有必要对数据权利立法,就是《数据权法》或者《数权法》,有了数据权利法的保障才能对数据所有者的利益进行保障,不被侵害。有了法律、技术两个层面的保障才能构建未来有序的数据社会。

  第四个方面就坦谈我们的实践和解决方案,就是面向数据和遵循规律建立数据架构和发展机制。需要构建数据安全应用的体系结构,虚拟世界是由数据构成,数据支撑着各种应用,而且我们对数据研究的目的就是让数据发挥作用,要从数据科学和数据理论层面,硬件软件架构层面,数据保护和安全应用层面,法律层面,构建数据社会基础框架层面来考虑构建这个体系。要构建这种体系可以构建一个可信的数据,要构建这种可信的数据可以分十个步骤,这十个步骤就是身份、权属、加密、注册、评估、记录、应用、授权、发现、溯源。简单的对这十个步骤做一个说明。

  身份就是身份认证,每个在网络空间活动的人都需要有一个唯一的数字身份,无论是数据管理者,数据服务者或者数据应用者,单位法人都需要有数字身份,这件事情我们国家已经有一个信息方面的法律,就是《电子签名法》,这已经给我们提供了保证,也就是CA和PKI,这是网络基础设施。

  第二数据权属,每个数据都有自己的权利和权属,每个持有数据者都是数据拥有者,但数据拥有者不一定是数据所有者,对于一个数据有四种不同的数据拥有者,一个是数据所有者,一个是数据生产者,一个是数据使用者,一个是数据代理者。数据所有者和数据使用者是比较清楚的,数据生产者一定是数据所有者赋予的一定的权利来行使数据生产的。可以举一些例子,又是使用者又是所有者又是生产者,一个简单例子就是用照相机拍照自我欣赏,因为你用相机拍照自我欣赏它既是所有者又是使用者又是生产者,相机是产生数据的设备,在你购买相机或者手机的时候你已经对它进行了支付,现在你用它来生产数据你就是生产者。

  第三数据要天生加密,数据一生产出来就要对数据进行加密,不管是存储时还是传输时数据都要保持加密状态,在IT发展几十年以来我们一直很关注数据传输加密,现在很多数据在传输时候都是安全的,但是存储的时候是不加密的,这个时候就容易出现越权访问,漏洞攻击,泄露数据的情况,数据天生加密以后就可以防范这种情况,加密是和数据权属相关的,加密的密钥就是数据所有者的公钥或者是已授权的数据使用者的公钥,用公钥加密以后只能用自己掌握的私钥来解密,实际上这件事情很容易做到,在手机里面,IC卡里面都可以藏各自的私钥,我们使用的时候丝毫感觉不到它在使用。

  第四天生注册,数据也要天生注册,数据不一定要加密但是一定要注册,注册的目的是为了应用,数据注册就是获得唯一的ID和网络访问地址,已注册的地址是可见可查找,可建立可分析的,加密的数据如果注册了就可以被使用,我们需要建立统一的数据规范和标准,数据注册既可针对每个系统实现自治,也可以通过数据路由实现联合。

  数据要使用就要经过授权,使用者需要数据所有者授权才能使用数据,对合法数据使用者进行授权需要法律层面的契约许可以及技术层面的所有权转让,缺省情况下,契约应当指明授权数据不得向任何第三方泄露,技术层面数据应当用使用者的公钥加密,并且加密数据要进行注册。

  第六就是应用,数据仅仅在应用中才解密,这样我们的安全就考虑在应用终端上,APP应用软件中使用数据者的私钥对被公钥加密的数据进行解密。

  第七是过程记录,数据授权过程和应用过程应当被记录,要记录时间戳和空间位置信息,类似于区块连,数据注册与记录中心DCR将记录数据整个生命周期的数据事件。

  第八价值评估,数据只有被使用才会产生价值,数据可以容易复制和传输,为数据使用提供了方便,要采用数据评估模型来分析注册和记录的数据信息,计算数据价值。

  第九就是违规发现,依照数据注册和记录信息利用网络爬虫技术可以对比发现违规数据,在数据合法应用规则下对网络进行巡视,这可能会成为将来的一种常态。

  第十就是追踪溯源,一旦发现违规流出数据可以通过大数据分析追踪溯源找到不遵守协议的人,对注册和记录的信息,以及对系统LOG记录文件进行大数据分析可以定位发现违规人员。

  面向数据的体系结构我们称之为DOA,是开放环境下的数据安全应用解决方案,用以打造数据安全应用的生态系统,是数据时代的软件工程方法面向数据的软件工程,是实现信息共享,系统扩展、数据权属等基础架构。

  我的汇报到此结束,谢谢大家。

  (以上内容根据嘉宾现场发言整理,未经本人审核)

 

发布评论

您尚未登陆,请登陆后发布评论

首 页|热点关注|推荐案例|核心成员|精彩活动|城市动态|会员动态|会员之声|百人会|组织机构|地理图

  • CopyRight © 版权所有 百人岛京ICP备2021033779号-1
  • 地址:北京市石景山区石景山路63号中海大厦B座16层
  • 点击这里给我发消息点击这里给我发消息