企业见解 | 董艳:数据功能开放管道——助力政府数据资源共享交换和融合应用

2017-09-18 09:41 来源:数据中心联盟
浏览量: 收藏:0 分享

3月28日,在工业和信息化部的指导下,为期两天的“2017大数据产业峰会”在北京国际会议中心召开。

  北京因特睿软件有限公司副总裁、全国三八红旗手董艳在3月29日召开的“国家大数据综合试验区建设论坛”上发表了题为《燕云DaaS:数据功能开放管道——助力政府数据资源共享交换和融合应用》的演讲。以下是演讲全文:

blob.png

  大家好,我是来自北京大学的研究员董艳,也是北京大学软件所大数据软件产学研转化单位,北京因特睿公司的代表。

blob.png

  前面领导和专家对大数据综合试验区的顶层规划都提出了设想,我下面要分享的是创新的关键技术——燕云DaaS,通过这个关键技术如何来助力政府资源、数据资源的开放和共享。

blob.png

  我汇报交流的内容包括4个方面,首先跟大家共同探讨的一个问题就是,政府数据共享交换和融合应用的最有效方式,通过数据API的方式进行数据共享交换和融合应用。

blob.png

  从模式上看,数据共享交换有4种模式。从第一和第二种模式可以看到,通过底层的数据库,相当于把数据库里的数据通过一些数据网关,将这些有用的数据导到共享的数据池。通过数据池的编程和接口,提供给各个其他的系统使用。第三和第四种模式获取数据的方式发生了变化,第三种模式还是同样通过数据API的方式,将业务系统访问数据的形式用数据API的形式进行封装,通过API获取数据,然后放到标准的数据池里。通过数据池,为其他的业务系统提供服务支持;第四种模式则不用数据池,通过建设数据API的管道,像自来水一样,原业务系统数据资源就相当于水源,数据API相当于管道。通过这些管道将水源源源不断地获取出来,然后通过标准API转化就可以使目标的系统使用到原来水池里新鲜、有活力的数据。因此从效益上讲,用数据API的方式来实现数据的共享和交换,应该是最直接、最有效、最安全的方式。

blob.png

  从安全的角度来看,打开底层数据库,数据库里所有的数据对于开发者来讲就是公开的,安全存在一定隐患。对于第三、第四种方式,即通过数据接口的方式,建立权限限制了数据的访问,安全方面也得到提高。数据应用接口的方式直接有效、最安全。那么为什么没有广泛普及?原因是在传统的方式进行数据API的生成离不开原厂商的配合,也离不开原数据库的开放。目前,各行各业都开发积累了大量的、管用的、可靠的信息系统。这些信息系统年代不一、架构不一,各有特色。由于时间不一样,原厂商可能不存在,原代码也可能找不到,这就制约了数据API的形成。

blob.png

  第二部分——燕云DaaS:实现数据、功能API化的利器。下面介绍北大突破性的技术——燕云DaaS技术。

blob.png

  燕云DaaS技术可以在没有原厂商的配合也无需源代码的情况下就可以智能、主动地生成,重建这些数据的访问API接口。通过在网购软件的过程中,北京大学软件所在研究网购软件的新范型、新模式。研制过程中突破了体系结构重建的技术,可以使软件系统在底层运行的过程中,通过机器学习的算法,就可以跟踪用户使用的交互逻辑。从内存中分析出业务的逻辑,从而重新构建出底层的代码形式,并对相应的数据库接口进行重新构建。通过实现这个逻辑可以看到,在重新生成业务系统应用层面接口的同时,是不需要原厂商配合,也不需要源代码,数据库自行开发。

blob.png

  有了燕云DaaS技术,用各地业务系统、跟进系统,能够智能地生成一个个数据管道和功能的开放管道,可以为这些管道提供高效的运行引擎,并可以跟踪数据流向的安全监管。这种生成接口的方式与原系统架构无关,无论是B/S、C/S等层面,都可以将数据访问接口进行重新构造。通过构造出的接口还可以微服务的方式进行发布,独立运行于原应用系统,不改变原业务系统的运行模式。对原系统无侵害,也无干扰。

blob.png

  第三部分——燕云数据API实现政府数据共享交换应用实践。

blob.png

  有了燕云DaaS技术我们能做什么?下面要跟大家分享的就是通过燕云数据API技术,来实现政府数据共享交换。例如,在贵阳进行的活化数据目录的建设。

blob.png

  下面分享一下我们是怎么实现政府数据资源目录的活化、梳理和建设,政府资源数据目录的梳理是在共享交换的前提下进行的。梳理的业务层面,到底有哪些业务线?业务项包含哪些数据项?和其他委办局的数据项有什么相互的关系?这才是进行政务数据资源目录梳理的目标。数据在哪儿?关系是什么?这种数据一定是建立在数据业务的层面上,而不是底层数据库。

blob.png

  常规数据目录梳理方式是自底向上的,打开底层数据库,根据数据库表,与业务项进行对照,来梳理数据目录。在向上的过程中可能会遇到很多的问题,格式不一样很普遍。更糟糕的是,数据中心掌握了很多的数据库。

blob.png

  但是对业务系统来讲,这几个数据库表对应业务是哪一项,对业务不了解是怎么梳理,这也是通常进行目录梳理的时候遇到困难的一个方面。常规方法梳理需要1~2年的时间进行梳理,而且在梳理的过程中需要交互的部门也很多,在各个阶段都需要多个部门进行配合。梳理以后可以对数据采集,还要专门进行数据表的对接,意义重大。

  基于燕云DaaS,由于技术的特殊性,可以从业务系统的业务层面来梳理数据结构和数据之间的关系。数据的梳理称之为活化的数据目录梳理,为应用提供程序化的共享和开放。

  “活化”,首先字典的生成就是活化的,从业务层面可以获取到各个数据项、业务项的数据字典描述,从内存里获取业务字典的定义。通过原数据的标准将原数据的目录描述和转换方式按照标准的格式进行转化,这个转化也是自动生成的,活灵活现地生成数据字典——这是第一个活。

  第二个“活”,是活动的数据获取。接口出来就可以生成数据源,将数据实时获取。

  第三个“活”,灵活构建数据编目目录。

  第四个“活”,接口是程序化提供,可以按需、按约来访问到相应数据,所以服务也是灵活的。

  实施过程中协调的部门也没有那么多,只需要业务和技术部门相配合就可以,很多动作都是自动平衡。

blob.png

  由于我们的独特性,在贵阳活化目录建设中效率十分惊人,不到一个月的时间,就完成了51家单位的全量数据目录的活化处理工作;完成了223个业务系统,2000多个功能事项,以及800多个数据目录的梳理工作。后续进行了计算,生成活化数据管道的效率平均一天4个左右。

blob.png

  案例详解——构建信息系统“功能开放管道”。

blob.png

  有了DaaS后,还可以进行管道式数据共享交换。原来的共享交换模式可以用管道方式进行,把数据源放在原有的系统,通过API接口可以不断地给系统提供信息服务。同时,通过体主机库的建设,分别有不同的数据汇聚,可以通过接口方式程序化定制。

blob.png

  在综合服务大厅的业务处理系统整合上,我们也能提供有效的方案。原来要分别录入相关的信息,而我们建设以后,可以通过一次录入同步写入到其他的系统里,这样形成信息的自动流转。我们的效率是很高的,例如深圳平山新区,30天完成90个部门、33个系统、336个受理事项的接口生成,不需要相互的配合就能完成。

blob.png

  第四部分——燕云数据API助力大数据融合分析应用的新模式。

blob.png

  好比电力系统中的“电网”,通过自主可控的技术,无侵入地打破各孤立“数据源”(发电厂)的孤岛,联通数据源和数据使用方,让多源、异构、跨时空数据通过“电网”流动起来,完成“数据重建、重组、重生”,实现数据应用能力、业务能力的扩展和创新,构建出数据开放、共享、融合的生态环境。

blob.png

  通过燕云DaaS,构建出一个水网、电网,就可以把数据流动起来,让所有的数据重建、重生,进而实现扩展和应用。

  谢谢大家!

标签:

投稿人:zhangxiuqin
在线客服