我国十三五规划指出:要实施国家大数据战略, 把大数据作为基础性战略资源, 全面实施促进大数据发展行动, 加快推动数据资源共享开放和开发应用, 助力产业转型升级和社会治理创新。2015年8月, 国务院印发了《促进大数据发展行动纲要》, 指出目前我国在大数据发展和应用方面已具备一定基础, 拥有市场优势和发展潜力, 但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后、创新应用领域不广等问题, 亟待解决。
合肥市作为中部快速发展的省会城市, 积极响应国家大数据战略部署:2016年, 出台《合肥市大数据发展行动纲要 (2016-2020) 》。2017年组建合肥市数据资源局, 全面统筹全市信息化、电子政务、智慧城市、大数据、“互联网+”等工作职能, 加快推进政务、民生、产业领域各类数据资源的深度开发利用与开放共享, 力争全面提升合肥市的政府治理和公共服务能力, 支撑城市实现新一轮跨越发展。该局成立以后, 正式启动建设市级政务大数据平台项目建设, 以数据集中和共享为途径, 充分应用数据治理的方法和工具, 建设市级一体化的大数据中心, 推进技术融合、业务融合、数据融合, 实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。
1 项目背景
近年来, 合肥市大力推进信息化建设, 信息系统建设与应用能力显著增强。目前市级各委办局业务系统种类较多, 通过各类信息系统的应用推广, 极大提升了政府工作效能。特别是市数据资源局的成立, 对各单位电子政务业务系统建设实行统筹管理, 极大推进了信息化建设。但由于我市在政务数据资源整合方面长期以来缺乏顶层设计, 各单位信息化系统繁多且离散、数据交换与共享标准不一的短板, 政务数据无法通过共享交换整合成为数据资源, 无法支撑大数据的应用, 因此, 市数据资源局在成立伊始, 便开始积极谋划和推进市级政府大数据平台项目的建设工作。
2 项目的主要任务和目标
合肥市政务大数据平台项目主要任务是搭建合肥市数据资源的核心枢纽, 有效汇集、按需共享全市各部门数据信息, 支撑数字政务和智慧城市建设的各项工作, 具体工作任务包括:
2.1 实现全市信息资源整合及共享交换
建成全市政务信息共享交换系统, 该系统具备全市政务数据全量接入能力, 保证各单位业务系统均可通过该平台进行数据汇集、交换, 逐步取代各单位间独自建设的数据交换系统;首批要求实现60家市直单位业务系统政务数据的汇集、共享与交换。
2.2 形成完善的数据资源目录和规范的数据接口
图1:数据组织模型
制定全市标准政务信息资源目录, 为政务数据共享及治理提供规范依据;制定政务数据的交换、共享开放等相关制度和技术规范体系;研究大数据平台数据治理的方法和规范, 提高数据质量。
2.3 贯彻“互联网+政务服务”要求, 建设统一身份认证体系
(1) 建成覆盖电子政务网及互联网的统一身份认证体系。建成基于自然人身份认证号以及法人的统一社会信用代码的为民办事的线上线下互认的统一身份认证中心;建成基于公务人员的统一的面向电子政务的身份认证中心。
(2) 实现“互联网+政务服务”有关“一网通办、多点互联”的政策要求, 对覆盖全市1407项为民办事项 (主要为市级权力清单项) 的3个信息化系统 (合肥市政务服务中心行政审批平台、合肥市社会服务管理信息化平台、合肥市政府权力清单运行平台) 进行统一身份认证改造。
(3) 实现一个身份对应一个账号, 一次授权、一次登录漫游所有业务系统的“一点登录、多系统漫游”需求, 对新建的信息化系统要求全面支持统一身份认证。
(4) 统筹全市政务系统CA证书互认体系, 解决当前政务信息化系统CA证书各自分发, 重复混乱的情况, 实现一人一证, 全市通行。
2.4 深度挖掘政务数据资源价值, 创新典型应用
(1) 搭建全市统一的政务数据开放平台, 管理各类数据资源服务, 向社会公众提供政务数据资源。
(2) 搭建一个基于大数据和人工智能核心技术的大数据开发平台, 面向社会公众提供数据分析工具集, 推动我市大数据应用创新生态圈和产业的发展。
(3) 构建数个大数据应用示范, 惠及政府、行业、社会、百姓。
2.5 建立健全的大数据安全保障体系
(1) 按照国家信息系统安全等级保护的要求, 结合合肥市政务大数据平台实际业务需求, 构建多层次数据保护方式, 从业务信息、系统服务、数据保护等方面构建大数据平台安全保障体系。
(2) 构建数据从获取、传输、存储、处理、应用、销毁的全生命周期的安全保障, 形成对业务系统及数据完整的保护, 实现合肥市大数据平台“可防、可视、可控”的安全目标。
(3) 通过对大数据平台的安全风险分析, 结合身份认证、访问控制、日志分析等措施, 建立健全的安全审计制度、安全识别和安全保障体系。
3 项目的主要建设内容
概括来说, 合肥市政务大数据平台项目建设内容要完成大数据平台基础架构搭建, 内容可概括为“一个政务共享数据中心、二套体系、五个平台, 最终实现合肥市政务数据共享与开放的零距离”, 具体包括:
(1) 建设市级统一的政务共享数据中心, 主要包括:建设汇集各单位业务系统数据的数据原始库;建设全市统一的经数据加工后可形成多主题的数据成品库;并构建人口库、法人库、电子证照库等主题应用库的支撑能力。
(2) 建设二套标准规范体系:
一套大数据标准规范体系, 主要包括:政务信息资源目录及公开信息资源目录, 数据共享开放接口技术规范, 政务信息资源目录编制指南, 政务信息资源共享管理办法, 政务信息资源审计和安全监督制度等各种制度及规范。
一套安全保障体系, 主要包括:网络安全防护体系, 内部安全防护体系, 身份认证和访问控制体系, 安全分析审计体系。
(3) 建设五个平台, 包括:基于云架构的全市统一非涉密政务信息共享交换平台, 用于实现全市各政府单位数据的汇集、共享与交换工作;用于实现“一数一源”, 对海量数据进行转换、清洗、脱敏数据治理平台;用于承载全市统一的身份认证中心、政务服务总线等基础支撑功能的基础支撑平台;用于提供据、接口、应用、文档、分析报告等多种开放服务的政务数据开放平台, 构建数据开放门户, 实现信息资源目录的开放管理;具有数据开发、数据可视化等功能的基于大数据和人工智能核心技术的大数据开发平台, 提供基于大数据和人工智能算法组件的数据处理工具集。
4 4360数据组织模型方法论
结合合肥市本地化数据, 基于大数据平台的数据仓库技术, 有效对数据结构进行组织, 针对政务大数据的特点, 在本项目中提出了4360数据组织模型, 该模型的设计既考虑到政务数据的物理含义, 使其所反映的物理世界在数据空间中建立起易理解、易关联的对应关系, 又针对大数据处理、人工智能并行计算的特点, 使得数据组织方式能够更有效的清晰数据关系, 深度挖掘数据关联。
如图1所示, 模型将数据划分为原始数据、规范数据、事实数据、主题数据4个阶段。原始数据提取、清洗和转化为规范数据, 并将规范后的数据按照事实逻辑进行组织, 最后按照主题将数据提取形成主题库。主题阶段采用4360数据组织模型对数据组织结构进行抽象并按属性特征将数据分门别类形成个体、团队、事物、事件4个类别。
4360数据组织模型从多个角度展现城市大数据可以基于现有数据深度挖掘出各类有价值的主题, 根据具体主题需要继续裁剪和细化, 为城市大数据方案进行指导, 数据组织模型的分类说明如下:
(1) 个体360, 主要包括自然人身份属性, 以及自然人行为属性。其中自然人身份属性包括自然人的基本信息、社会面貌、社会关系、资产、行为习惯、各类偏好、政治倾向等属性, 行为属性主要包括用户的消费记录、贷款记录、上网记录、通话记录、出行记录等, 以及一些其他可以追踪的行为。
(2) 团体360, 主要包括具有团队身份属性的法人组织、社团、组织等, 以及团队的人群整体行为属性。身份属性包括基本信息、关联组织、注册资金或注册资本、企业经营范围、企业出资人等。行为属性包括企业生产、投融资、搬迁等。
(3) 事物360, 以事物为中心的全方位数据和信息。该“事物”具有泛指概念, 包括所有非人类属性的其他物理实体, 如车辆、建筑、自然地理 (如河流、湖泊、道路) 资源等。包括民生或生活参数, 所有权权属变化, 功能属性 (如建筑物的使用用途) , 城市管理相关信息 (如建筑物的消防, 卫生防疫, 交通) 等。如图2所示。
(4) 事件360, 以事件发展过程为线索的全息信息数据。该“事件”具有泛指的概念, 指所有具有时间变化特性, 围绕某一具体目标而发生的变化过程及相关信息的总和, 如办理某一行政事项, 发生某一踩踏事件, 出现某一刑事案件等。事件360涉及对该事件的前因后果, 关联的人、团体、事物的信息, 均可进行关联, 形成全方位信息。如图3所示。
总体来说, 可以将4360数据组织模型看做对数据的矩阵描述, 通过矩阵可以找到事实数据的相关维度, 也可以看做是数据架构蓝图, 确保数据正常在数据仓库流转, 顺利形成各种主题数据, 最终发挥数据价值。
5 建设成效
5.1 基本建成了合肥市级政务大数据库
截至2018年底, 共对接了近70家单位的160余个业务系统, 入库数据达1872类, 125亿余条, 数据总量达60TB。
5.2 建成政务信息共享交换平台
截至2018年底, 交换平台建成共9个物理节点, 创建逻辑节点135项, 创建数据源238项, 创建交换任务2587条, 其中正在运行1820条, 通过交换平台共抽取数据39.2亿条。在全省率先完成市级政务信息资源共享门户与省级、国家级联调工作, 打通了合肥市与安徽省、国家资源共享的通道。合肥市各单位可通过合肥市政务信息资源共享门户申请省平台和国家平台的资源, 实现与省、国家级平台资源共享与交换。
5.3 政务数据治理平台
完成数据质量管理、数据规整管理、数据建模、数据安全管理、资源共享管理等核心功能建设。在数据质量监控方面, 设置身份证号规则、姓名规则、统一社会信用代码规则、日期规则等10大类校验规则;在数据规整方面, 设置大写转小写规则、字符转日期型规则、身份证号15转18位等11类规则;在数据脱敏方面, 设置替换、重排、截断、掩码、偏移等规则。截至2018年底, 已通过数据治理平台已治理58家单位, 1703张数据库表, 共计数据量约65亿条。
5.4 政务数据开放平台
已完成政务数据开放平台前台门户和后台管理平台的基础功能建设。开放平台门户基于互联网环境, 按照合肥市门户网站要求, 针对大数据政务开放平台做出整改, 并接入“中国合肥”门户网站。截至2018年12月, 各单位已上报开放目录588条, 其中585条已提供数据。
5.5 政务大数据开发平台
已建成基于大数据和人工智能核心技术的政务大数据开发平台。针对不同的业务场景, 可以基于平台提供的开发套件与行业服务商的能力, 将多方产品集成形成行业解决方案。用户可以申请资源目录共享门户的资源或者私有数据源, 在开发平台中使用可视化的工具, 进行数据分析, 生产数据分析结果对外提供服务。
5.6 统一身份认证中心
已建成覆盖全市范围内所有的政府工作人员、自然人、法人, 实现统一的身份认证、用户与机构管理、权限管理及安全管理。目前统一身份认证已对接十个市级业务系统, 包括:合肥市统一政务信息处理平台、合肥市“互联网+政务服务”系统、合肥市信用平台、合肥市城市令管理后台、政务大数据工单系统、社管智慧社区、社管易企网、社管易社网、社管统计分析系统、社管电子监察系统。截止2018年底, 统一身份认证平台登记人员10622条, 登记单位3956个。
图2:事物360数据组织模型
图3:事件360数据组织模型
5.7 基础支撑平台
完成大数据用户权限管理、政务服务总线、统一消息中心、应用审计中心、运行监控中心、电子签章平台六大模块内容建设。其中政务服务总线GSB已为互联网+提供50多个服务接口;合肥市多个项目与统一消息对接, 如合肥市信息平台、合肥市综合服务管理平台 (合肥通) 、中小学报名系统等;电子签章平台已用于合肥市电子证照库建设, 支撑电子证照的签章。
5.8 电子证照管理平台
根据国家“互联网+政务服务”的政策指导、安徽省电子证照库建设规范, 建立合肥市电子证照管理平台, 并持续征集电子证照目录、模版和印章以及推动制证数据接入, 为电子证照制作做准备, 以支撑互联网+政务服务的工作。截至2018年底, 已梳理市、县级证照132类, 其中113类已经开始对外提供数据;省、国家级证照65类, 其中13类已经开始对外提供数据。
6 结语
李克强总理在2016年5月全国推进简政放权电视电话会议上指出:“目前我国信息数据资源80%以上掌握在各级政府部门手里, 但‘深藏闺中’造成了极大浪费”。合肥市政务大数据平台的建设, 以创新、协调、开放、共享为理念, 以智慧城市建设为统揽, 以推进数据资源的汇聚、开放、共享为主线, 充分发挥了政务大数据在公共治理和公共服务领域的巨大支撑作用, 为将合肥市建设成为区域性大数据中心城市打下了坚实的基础。