1 行业背景
金盾工程规划以来,各地持续加大公安信息化的建设力度。通过金盾工程一期、二期建设,公安信息化建设取得了长足的发展,在基础设施建设、应用系统建设、数据资源开发利用、组织机构和工作机制建设、标准化建设等方面都取得了重大进展。
近年来,随着公安大情报体系的建设,以及互联网技术的发展,一个以信息爆炸为特征的大数据时代正在到来。各种数据处理的技术层出不穷,这为"数字警务"、"智慧警务"带来了新的手段。对此,公安部门必须以创新的理念和思维,把深入实施科技强警战略,大力推进科技创新摆上更加重要的位置,努力提升公安工作的信息化、科学化和现代化水平。全警采集,内外联动,高度共享,综合应用。
随着大数据技术的普及和应用,"大情报体系"建设需要对数据的大开发,通过使用挖掘算法对海量数据进行分析和建模,挖掘出各类数据背后所蕴含的内在的、必然的因果关系,进而判断出某一事件发生的概率、科学预测其发展趋势,以此来服务打防管控等警务工作。
2 需求分析
当前公安的业务系统多样,但大多业务系统与实际的业务结合不够紧密,产生了技术与业务"两张皮"的现象,进而信息化难以有效支撑业务的进展,而业务的演变难以对业务系统的进化形成促进,造成信息化与业务脱节。
公安大情报体系建设需要大数据存储技术、管理技术、挖掘技术为契机,能够建立海量的公安数据资源库,不断挖掘公安情报,实现信息化随着业务的发展而快速变化,真正实现业务与信息化的融合,形成业务与信息化互相促进的格局。
(一) 建立大数据采集平台
大数据采集平台大小取决于所获取的数据的广度与深度,所以我们要采集现有的各种数据,公安数据具体可以分为以下几类:一是公安基础工作数据信息。主要包括:人员信息、案件信息、物品信息、线索信息、场所信息等。二是公安内网共享的数据信息。主要包括公安部及各省市公安内网中的在逃人员信息、盗抢汽车信息、违法犯罪人员信息、法轮功信息、通缉令、预警信息、研判指令等。三是外部社会信息。主要包括互联网刊载的违法犯罪信息、商业网站的一些异常信息、保险理赔信息、个人资信信息、中介机构信息、检察机关案件信息、审判机关案件信息、信用卡组织信息、公证机构信息等。
(二) 建立大数据组织平台
大数据采集平台的构建,解决了海量数据的统一存放问题,但是这些来自不同来源的公安数据仍然是散乱的、不规则的原始数据。对原始数据进行清洗、整合,建立规范、统一、完整的基础数据视图。然后在此基础上,针对业务部门提出的具体业务需求,进一步的进行数据的加工和处理,形成面向主题的数据集市,供业务部门使用。
(三) 建立大数据分析平台
大数据分析是公安信息化应用的重要环节,也是情报信息再利用的基础。公安机关对大数据的分析解读是一个去伪存真、去粗取精的过程。分析解读的方法和内容主要是:一是对大数据信息真实性分析。违法犯罪活动大多处于隐蔽状态,所反映信息往往缺乏明朗性,有的甚至具有伪装性,对初期收集到的信息必须甄别其真伪;二是对大数据信息的比对查询分析。这是公安工作特别是侦查工作中运用较为广泛的分析解读手段,通过同类信息比对查询,扩展信息量,串并同类信息;三是量化比较分析。对某个区域、时段、案件、涉案人员、财物、场所以及线索等的数量与前期、上年同期、周边同期进行比较分析等等,例如包括信息查询、人员甄别、串并、碰撞比对,重大案件特点分析预警,各类数据的统计分析、规律提炼及情报收集,可疑人员身份锁定及人员控制,生物信息档案管理和证件鉴别研究等功能。
3 架构设计
该方案分5个层次,前端网络分流设备将多个业务系统和渠道接过来的数据流量接入到处理系统中,然后用软硬件分流器对数据流进行分析和过滤,它按照设定好的规则将数据进行分发和推送,这就是前端数据处理平台。数据接入层将前端处理完的各类数据转发到后端,由统一的数据抽取和转换平台对数据进行抽取和格式转换。通过数据抽取、转换和加载工具,将清洗好的数据加载到大数据平台中,由于汇聚了多个源的数据,通常数据量非常大,所以大数据平台需要具有良好的可扩展性。加载到大数据平台中的数据将被用户进行最终的数据分析和数据挖掘,同时用户还可以根据具体的分析和挖掘需求,设计自己的查询任务流及更多的应用系统。整体架构如下图所示:
数据源层:分为业务数据和社会数据,这些数据基于网络通过数据接入层接入大数据平台。业务数据是公安行业内数据,包括人口数据,车辆数据,通信监控数据,刑侦数据等,社会数据是公安行业展开业务所需要的其他行业的数据。原始数据呈现的方式多种多样,它们可能来自数据库或者文件系统,采用各种不同的文件格式,取用不同的字符集编码。
数据接入层:数据源层的数据海量,骨干网的流量非常大,须用网络分流设备进行分流。数据接入层通过网络分流设备将骨干网过来的网络流量接入到处理系统中,以加大海量数据并行处理能力,减轻骨干网的流量负担,增大IO操作的效率。
数据清洗和转换:对接入的数据进行预处理和转换操作,以匹配定义的目标数据模式。数据预处理包括行列过滤,字段提取,文件拆分合并等;数据转换包括数据的格式转换,内容替换,对数据按照规则进行计算,列合并,列拆分,关联转换等。
大数据平台:提供结构化和非结构话数据的统一存储和处理,支持数据划分,索引,检索,统计分析。数据加载方面,可通过编程接口实现数据实时接入,通过加载工具工具由其他数据源(例如文件等)导入可实现海量数据的离线批量导入。数据查询方面,通过查询工具可实现数据的离线提取,为海量数据的线下分析提供条件;通过标准查询编程接口,可实现更加灵活可定制的数据提取方式;通过数据比对工具,为数据分析提供便利;查询结果可视化。
数据分析和挖掘:为了分离业务开发与大数据平台,允许接入外部数据挖掘分析系统。在接入的方式上,可按照类标准SQL语句的方式,组织外部数据挖掘系统的数据请求;可采用查询工具或者查询编程接口,提取外务数据挖掘分析系统所需要的输入数据。