案例概述
1、客户系统存在的问题和需求
原有的系统由IBM小型机、DB2大型数据库和EMC磁盘阵列组成的顶级配置,但是能处理的数据量依然非常有限,系统的容量到了极限。且原有系统不具备数据分析功能,硬件设备不具备扩展能力,每次系统的更新换代都需要停机进行数据迁移,迁移成本很高。
现有系统不仅性能如此低下,而且包括硬件、软件开发费用、软件实施费用等所有费用,系统总价为3000万,其中硬件成本就达到1200万。如果按其只支持6个月数据来计算的话,每天数据的系统总成本为166,667,每天数据的硬件成本将高达66666。
通过与供气公司的沟通,根据其现有的业务运营系统以及多年以来商业智能(BI)方面的经验总结,公共服务行业当前主要的需求分为数据存储类需求、数据安全类需求、系统扩展性需求、数据查询类需求、统计类需求、数据分析类需求以及统计分析结果的展示方式需求。
2、JimoDB解决方案
JimoDB是上海晟淘独立研发、拥有完全独立自主知识产权的新型NoSQL实时智能大数据平台和大数据完整解决方案。JimoDB在普通硬件上实现了高度分布和线性扩展,其即可以在一台设备上运行,也可以在上千台设备构成的集群上运行,实现PB级海量处理能力。通过JimoDB为客户架构大数据平台,以普通的x86 pc server代替价格高昂的高性能服务器实现客户3-5年的话单及流量明细数据的存储,并通过JimoDB的快速分析平台,为客户实现快速的数据分析功能,使客户原来小时级的查询可以在秒级实现。
本方案充分利用了JimoDB的高性能数据存储、非结构数据处理、无共享点技术、快速查询与快速统计等功能,使得研判分析的深度、数据量及响应速度都在同类方案中领先,同时通过云立方实现的完全无共享点技术使得整个系统的硬件投入降低90%。因此,同样的投入情况下,本方案能够提供更多维度更高效的舆情分析能力。
1)高性能大数据存储引擎(JDFS)
高性能大数据存储是所有大数据系统的基石。Hadoop的HDFS虽很大程度解决了大数据存储,但HDFS存在着诸多问题,导致应用开发极为困难。JDFS是上海晟淘独立研发的一款高性能大数据虚拟文件系统,专注高性能大数据存储核心技术,解决了HDFS诸多问题:
●多级缓存
●高性能索引引擎
●高性能排序引擎
●高性能小块数据(Docs)引擎
●克服了HDFS只写不修改和不支持随机读取限制,支持高性能随机读取、写入和动态更新
●通过Data Connector可以非常容易地集成外部数据,包括Hadoop、关系型数据库数据、HBase等
2)云立方体系结构
云立方剥离运行环境与物理设备的依赖,通过虚拟技术,建立大数据抽象层。云立方"垂直分割"大数据系统,拥有完整的计算能力;每个云立方相互独立,在统一抽象数据层上组成云立方集群,构成强大的高并发计算矩阵。云立方相互多份备份,发生故障时实时切换。数据路由技术"算出"哪个数据保存在哪个云立方上、备份在哪些云立方上,系统任何单点故障源,无系统瓶颈口。当系统硬件发生变化时,云立方检测其变化而做相应调整,实现动态实时扩容。
3)可视化大数据应用开发平台
众所周知软件开发难,而大数据应用开发则是难上加难。传统的手工编程需要靠员工的丰富的编程经验以及不停的Debug来使软件变得稳定可靠。然而大数据系统由于数据量如此之大,以至于很多的任务本身就要几个小时乃至几天才能得到结果,由人手工编程此时的风险则显得风险更加不控制。可视化编程技术极大地简化应用开发的难度,让业务人员可以直接业务数据的分析与应用开发,摆脱对编程人员和开发商的依赖。
可视化不编程技术无需手工编程,是实现极速应用开发的关键性技术,让我们可以对市场和公司经营出现的新需求做出快速反应,捕捉商机。而Hadoop系统必须手工编程,开发周期长且对开发商的依赖程度大。
4)快速查询与快速统计
数据仓库本来为快速统计而生,但陈旧技术无法面对大数据。上海晟淘 Sync Data Warehouse 专利技术从数学模型入手,专为高性能大数据统计设计,放弃 tables,采用多维向量矩阵存储计算技术、Bicodes技术、和多层叠代统计技术,极大地提升统计速度,实现了千亿级数据秒级速度。
JimoDB方案说明
1、方案配置
根据客户的存储及查询量的需求,我们最终为用户设计了系统硬件由5台IBMPC-SERVER组成,每台2个CPU,共8核,内存为48G,硬盘为5个2T的SATA,2个千兆网口。硬件费用约20万人民币。
软件系统全部由我国自主知识产权的技术组成,B/S架构,底层为linux平台,包括分布式面向文档的大数据管理系统、可视化大数据SQL,可视化无编程应用开发环境和运行环境。
在主系统之外,目前有一套测试和备份系统,每天的增量处理先在测试系统上进行,完成后再在主系统上进行,随时可以切换。
系统目前处理的数据种类已经有几十种之多,业务应用需求超过70多个,下一步计划加入账单数据和用户数据等其他类型的数据,业务逻辑将超过200个。
目前已经实现了数据分级管理,各层级相关人员通过办公网进入数据管理系统,可以查询看见所对应权限的数据和这些数据构成的各种统计和分析。
在网络畅通的前提下,所有的查询(5个条件以内的复合查询)的显示不超过60秒,统计结果的显示不超过5秒。全数据处理的时间小于12小时,下班前配置好新的业务逻辑和显示页面,启动系统的全数据处理进程,明天上班时已经看到处理后查询、统计的结果。
经验与收获
1、节约成本
JimoDB系统使用传统的x86 pc 服务器代替价格比较高的小机+存储的架构,一方面为客户节约了大量的成本,使整个系统有更高的投入产出比,另外通过数据的多分备份,权限控制等功能增强系统的安全性,保证客户系统的安全稳定运行。
2、快速响应
JimoDB系统查询分析速度基本都在秒级完成,对比原系统小时级别的统计分析速度有非常大的提升,同时对于更大量的数据,更长的分析周期都可以在秒级完成整个查询分析。
3、灵活可扩展
系统可以非常灵活的进行扩展,容量和性能问题都可以通过添加额外的硬件即可,如果硬件发生损坏也可以方便的进行硬件的替换,而对整个系统的数据不会产生任何影响。