一、 大数据分析项目背景
钢铁企业在变化的过程中,必须要面临 3 种变革,分别是管理变革,技术变革以及决策变革,现如今面对的变革是决策变革。以往的钢铁企业都是通过人工经验来进行决策的,但是现如今不单单只能通过人工经验来进行制造精益生产了。科学决策不能脱离信息化的支持,从原材料采购到生产组织,从销售策略到库存优化,从资金使用到财务平衡等,企业运行的许多重大问题都需要科学准确的量化决策来实现。科学决策可以从大量的数据中获得一些文化与一些规则,为决策服务提供关键的特征,预警等预测。数据挖掘技术是帮助企业实现科学决策的关键技术。数据挖掘的最大特点是将各种类型的数据放在一起进行分析提炼,找出它们之间的关系,以图、表或文宇的形式展现挖掘结果。随着钢铁企业IT信息化建设,先后建设钢铁企业的ERP系统、MES系统、计量与检化验系统、SCADA平台等信息化系统,积累大量的产品设计、生产制造、质量检测、物流管理、CRM等管理数据及实时数据。而这些数据目前并没有被通过大数据挖掘分析技术手段实现数据价值的发现。贵阳水钢集团目前也面临这一困境,未将大量数据的深层价值用于决策过程。因而建设一套大数据服务平台,显得更为重要,极为迫切。
二、大数据分析项目目标
通过数据挖掘分析辅助营销中心制定出更加合理的销售预测订单;
大数据分析寻找影响吨铁成本价格的升高的关键因素;
寻找特定产品型号的精炼成材率的关键控制点;
基于大数据分析支撑,辅助能源管理人员完成能源平衡分析、错峰用电分析、能源消耗预测分析、能源超限报警及趋势分析、设备能效实时评估分析;
实现钢铁企业原料采购策略优化、成品及半成品库存优化、辅料、耗材库存优化;
实现环保数据中水平衡分析、三废排放预测、环保数据挖掘分析;
实现设备故障预测与健康管理;
三、大数据平台功能架构
数据平台面向整个冶金全生命周期过程,融合行业的大数据算法,形成一套自助式、一站式的服务,同时提供统一访问界面,内置数据分析挖掘、可视化分析等功能,满足钢铁企业在生产大数据分析、供应链优化、环境资源优化、能源大数据分析、设备故障预测分析、质量优化分析等分析应用可视化展现等,同时支撑多部门、多地点同时使用,大大降低了大数据分析与挖掘的门槛。
图 1 1 大数据平台功能架构
Tempo大数据分析平台提供包含可视化分析和数据挖掘分析两部分构成,其中可视化分析模块以可视化、图文交互的方式实现数据源连接、数据加工处理、数据分析和结果展现的过程,能够完成数据观察、操纵、研究、浏览、探索、过滤、发现、理解,从而有效地发现隐藏在信息内部的特征和规律;数据挖掘分析通过科学的数据挖掘方法建立模型,并对模型进行评估、调优,挖掘出对用户有价值的知识成果,以可视化的方式将数据挖掘的知识结果展示给用户,从而帮助钢铁企业从海量数据中发现规律、提升生产管理水平、质量品质、供应链管理水平、优化环境资源、设备故障管理、能耗精细化管理。从而帮助提升企业的核心竞争力。
四、大数据平台应用架构
相对于传统的数据分析,为了实现更深层的数据洞察,需采集更高频率更多维的数据,实现海量数据的接入、实时处理、存储、计算、数据建模;同时随着钢铁企业的快速发展,设备数据、生产数据等在不断增加,平台需具有高度可扩展性,包括存储量的扩展和计算能力的扩展。作为钢铁行业的关键应用如供应链优化、环境资源优化、能源大数据分析、生产大数据分析、质量大数据分析、设备故障预测等关键环节的应用,平台需具有高度的稳定性和可用性,包括单点故障的避免,数据存储的备份,稳定的吞吐量和系统性能等等。
图 1 2 大数据应用架构
因而,需借助于分布式大数据技术以及大规模机器学习算法,从而构建稳定、高效、高可用、可扩展的平台,帮助数据分析人员更好的挖掘数据中的价值,洞察数据背后的规律,解决供应链、能源、环保,生产、质量、设备等领域中遇到的问题。通过Tempo大数据平台的分布式流数据技术实现对结构化、半结构化以及流数据的接入,可以接收高频多维数据,实现海量数据实时处理、存储、计算、数据建模,保障数据分析模型能跟钢铁企业内部现有的多种成熟系统进行无缝集成,实现数据的批量对接。通过收集不同层级的设备运行数据、仪器仪表数据、生产数据、能源数据、三废排放数据、天气等为监测管理对象,将采集的实时数据和业务数据进行数据存储和管理,同时工作人员也可根据实际需求将历史数据导入到大数据平台,实现数据的统一存储和管理,为后续数据的挖掘和分析应用提供数据基础。数据采集和存储完成后,对数据进行预处理,针对异常数据可进行数据清理,筛选相关参数进行特征转换,形成统一的数据标准,以满足数据统一管理的需要。在对数据进行统一管理后,后续数据挖掘人员可通过大数据平台开展供应链、能源、环境资源等方面的大数据分析业务,支撑决策及流程控制等,降低运营成本,提升企业生产效率,从而提升企业的核心竞争力。
五、大数据业务场景应用
1. 生产大数据分析钢铁企业属于流程行业,除了设备检修外,全年基本上是按照满产能不间断生产。在生产过程中,生产订单来自两类,一类是客户的实际订单,另外一类来自营销中心的预测订单,目前预测订单更多来自销售人员对市场产品销售种类及价格的经验识别判断,没有数据分析作为技术支撑,而往往会导致某种成品钢库存过高而滞销。因而需要通过大数据分析手段,结合企业内部与外部数据挖掘分析辅助预测订单制定的更加合理。分析模型:基于成品钢库存数据及历史数据和历史销售数据以及当前市场数据,基于数学算法模型,预测分析出企业生产产品利润最大化、同时库存最低的销售预测订单清单。2. 质量大数据分析冶金行业有着严格质量控制标准,有国际标准,国家标准,企业内控标准,同时也会客户针对不同的产品有着个性化的要求,比如性能要求、成分要求、外观要求等。同时冶金行业针对不同的质量要求订单,是通过技术中心完成质量设计及工艺规程设计的并指导实际生产过程,往往由于现场工况的负复杂性,对于一些高质量要求、高附加值值得产品不能好的做到质量控制。因而需要通过大数据分析的技术手段实现质量目标控制。分析模型:1)钢铁企业铁前成本往往占据吨钢成本的70%-80%,如果能很好降低铁前成本能使钢铁企业成本钢有更好市场竞争力,也是企业有更大的利润空间。通过铁前区各工序的关键工序的原料数据(计量数据、质量数据)、用能数据、辅料数据(计量数据、质量数据)、设备关键工艺参数、产出品质量数据、价格数据的关联挖掘分析,寻找引起铁前成本升高的关键影响因素,以便钢铁企业更好控制铁前区成本。2)钢后区往往存在,精炼过程中高附加值高端产品的成才命中率的过低或波动问题,通过对关键工艺设备的工艺状态数据监控数据、过程质量数据、过程投料数据、过程操作数据、成才质量高的历史各类数据,通过关联分析模型,预测分析给出最佳质量控制点。另外该模型针对企业内部特定产品特定场景展开应用的。3. 能源大数据分析对于连续性流程企业来说,能源有效利用率是衡量企业能源使用水平的综合指标,既反映企业用能设备的状况,也反映企业能源管理的水平。在大型钢铁企业里,用能设备较多,对其逐一进行能量平衡测定,计算企业能源有效利用率是比较困难的。但是,可以采用一些简便的方法进行概算,即对一些耗能大的设备进行测试,然后根据这些测试数据,概算各种能源的有效利用率,最后求出企业能源有效利用率。能耗作为企业运维的重要指标,不但涉及到运维成本,同时也是评价企业各能耗节点利用程度的重要依据。但是如何通过历史数据预测评估能耗、优化能源平衡模型、同时对高耗能工序进行诊断并在此基础上进行优化、制定最优的能源消耗策略以降低成本等,是钢铁企业面临的重点问题。分析模型:1)基于仪器仪表数据(如超声波测速计、流量计)、生产数据、设备数据等,通过统计分析、箱形图等手段,依据历史能耗数据,按不同维度进行挖掘分析,结合生产计划,预测分析未来一段时间的用能需求并平衡用能需求,实现用能平衡。2)基于企业各工序用电历史需求,结合错峰用电国家政策(不同时段电价不一样)策、企业实际生产计划,基于数学算法模型,辅助企业制定合理的用电计划,达到不影响生产的情况下,降低企业用电费用。3)基于仪器仪表数据(如超声波测速计、流量计)、生产数据、计划数据,通过回归算法、短时时间网络等算法模型,通过历史能耗数据及生产周期,预测未来一段时间内的能源消耗等,为制定生产计划、能源精细化管理提供决策支持和依据。4)通过对历史能源消耗数据进行分析,同时考虑生产、环境、原料等变动因素,建立能源消耗超限模型,实现对复杂波动条件能源消耗超限的精确预警及趋势波动分析,为能源精细化管控和降低能耗成本提供决策支持。5)对各关键环节的能耗、生产操作记录、工艺条件、设备运转、供方介质、季节等因素进行关联分析,建立能耗能估模型,寻找引起能耗波动的关键因素,实现能耗主动寻优;同时通过对能源的实时监控分析,寻找高耗能工序设备平静和工艺瓶颈,从人、机、物、料、法、环方面收集数据,利用大数据分析算法寻找问题发生的原因,指导进行工艺和控制优化等。4. 供应链大数据分析在大宗商品领域,目前国内外对铁矿的需求在快速增加,钢铁企业为了增加产能面临着更大的原材料、产品价格波动等风险和同时承担环境责任也更高。而为了争夺市场原材料资源等,钢铁企业间的竞争必将越来越激烈,现有企业在价格、规模、行业影响力、对环境的影响等方面的较量才真正开始。传统通过期货工具、库存管理、价格议价等手段已经渐渐不能满足企业的需要,借助大数据、物联网、机器学习等新技术,打通企业供应链的上下游,优化企业的库存、制定最佳的采购策略,促进供应链一体化、精细化管理等在企业内推进,提升企业在成本、收入、企业经营等方面的稳固发展。预测模型:1)基于历史的原料采购及库存数据、结合生产计划及生产产能,通过定期采购模型和定量采购模型预测分析,实现动态制定最佳的采购周期及数量。2)基于成品半成品历史消耗、未来需求、库存成本、产能损失系数,通过ARMA、指数平滑法,根据历史数据及边界规则,制定成品及半成品库存最优库存控制策略。3)基于辅料、耗材库存数据、采购周期及需求计划、库存数据、生产数据,通过箱形图、粒子群、烽火遗传算法,根据历史数据及边界规则,制定辅料、耗材最优库存控制策略;5. 环境资源大数据分析随着国家环保要求的加强与完善,对钢铁企业“三废”处置有了更高的要求。本次通过Tempo大数据平台需明晰企业三废的来源,并对工序过程中的三废排放量进行监测与趋势分析,制定处置控制措施以满足国家环保与排放要求;同时需采集冶炼过程中的关键工艺数据、生产数据等进行匹配,挖掘各因素对污染物排放的影响,从而促使企业注重源头控制。分析模型:1) 基于仪器仪表数据(如超声波测速计、流量计、水表等)、特征数据、生产数据,通过岭回归、梯度提升树、概率分布算法,分析时间段内废水的来源、流向、排放,估算冶炼各环节的废水排放量,实现水平衡分析。2) 基于仪器仪表数据(如超声波测速计、流量计)、生产数据、当前生产状况、三废成分数据等,通过时间序列、交叉熵、趋势分析算法,通过生产历史数据,结合当前生产情况,预测未来一段时间内的三废排放量并进行预警等;3) 基于仪器仪表数据(如超声波测速计、流量计)、生产数据、工艺数据、操作过程数据、检验数据等,通过回归算法、相关性分析等算法,挖掘分析建立关联分析模型,寻找影响三废排放的关键环节,为后续三废的控制与降低提供决策支持。6. 设备故障预测与健康管理设备故障预测与健康管理(PHM),通过设备状态监测、设备故障诊断、设备故障预测、设备寿命预测等技术手段,保障生产设备的正常运行。目前工厂有部分核心(高价值)设备和大量分散的辅助型设备(电机、泵、液压系统等)。核心设备发生故障时会对工厂造成重大的经济损失,一方面是维修费用或设备更换费用高,另一方面会造成工厂停产;对于大量分散的辅助设备,虽然大多采用1备1的方式来保证生产的正常运行,但这种备品备件库存管理方式占用了大量的企业资金,造成了不必要的浪费。因此,需要采用先进测试技术、故障诊断分析技术、大数据技术以及人工智能技术为工厂设备健康管理服务,提高设备运行能力,并结合各种可利用的资源信息提供一系列的维修保障措施以实现设备的视情维修,减少运维和库存成本。针对冶金行业的核心动力设备,通过对现有业务场景和历史数据的分析,建立业务基理模型,采用大数据技术作为支撑,通过如下模型实现全业务产业链的智能化决策分析。实现功能如下:设备预测性维护:1)对动力系统设备(大型回转机械)的运行状态进行实时监测,通过智能动态阈值技术实现设备状态的动态监测与预警;2)针对动力系统设备的振动故障,通过降噪、滤波等算法技术实现早期故障预警;3)针对大型压缩机组,通过相应算法实现喘振早期预测与预警;4)通过多传感器融合技术、故障诊断算法和机器学习算法,实现动力系统设备故障的智能诊断;5)通过多传感器融合技术,实现动力系统设备状态评估;通过大数据算法实现动力系统设备状态劣化过程的评估与预测,并实现动力系统设备寿命预测功能;6)通过人工智能算法,实现动力系统设备的关联故障分析功能;7)通过动力系统设备健康管理和备品备件管理,结合大数据算法实现备品备件库存优化功能。六、大数据分析展现方案大数据分析的关键业务如供应链优化、环境资源优化、能源大数据分析应用,分析中的过程数据及相关结果可通过大数据平台可视化组件进行具体页面及指标的设计与展示。大数据平台提供行业领先的可视化组件和数据挖掘组件,帮助数据分析人员进行全流程可视化交互式模型构建引导。平台使用交互式操作界面集成,通过点击就可以构建通用机器学习流程,包括脚本管理、数据导入(支持HDFS、数据库、MySQL、Hive、HBase等主流数据存储系统)、多维特征分析(趋势分析、关联分析、概率分布、特征降维等)、模型构建、模型预测评估、数据可视化展现(提供柱状图,折线图,散点图,雷达图,瀑布图,气泡图,箱线图和趋势图等可视化展示方式)、预测服务(支持构建的模型通过预测服务模块发布成网页、接口服务以及模型导出,提高模型业务部署效率)。同时支持多语言混合编程调用,包括基于JSON格式的SQL、R语言以及Python。通过可视化成果发布的形式,Tempo大数据分析平台能够对数据分析人员所有的操作进行完整的记录以及展现,所有执行过程以及返回的结果都在同一个工作包中进行全面保留,极大的方便数据分析人员在模型构建过程对结果的反复校验以及修改的需求。传统BI指标的构建往往非常复杂,无法支持联动钻取及关联分析,导致展示方式非常困难,而采用工作包的方式能够更好的提高模型构建效率以及团队之间的协作能力。具体每一个挖掘模型在部署支持手机端、PC端、大屏、云端等多种部署方式。1.发展趋势。新兴的数据挖掘工具都是统一的风格,传统工作流模式已经在退化,传统BI公司通过与R集成来展现可视化功能,但是R语言的使用难度较大,本次提供拖拉拽交互式等交互式操作方式,降低数据挖掘门槛,并提供联动、钻取等多种功能,提高BI的应用能力。2.操作体验。数据分析人员在构建过程往往需要反复修改流程,参数调优等,这些过程对于专家来说通过函数命令行会更加高效,但对于初学者很难。本次大数据平台使用交互式操作界面集成,通过点击就可以构建通用数据挖掘流程,能快速投入到数据挖掘分析工作,可避免高难度编程语言的学习门槛。平台能够对数据分析人员所有的操作进行完整的记录以及展现,所有执行过程以及返回的结果都在同一个工作包中全面保留,极大的方便在模型构建过程对结果的反复校验以及修改的需求。3.可视化展现。模型构建操作需要依赖每一步骤的输出结果以及已有配置信息,大数据平台提供了统一视图,在一个界面内包含的信息量更大,通过上下滚动就可以快速查找查看,工作流更加标准与规范。同时,Tempo大数据平台采用B/S模式,提供web操作管理界面,支持多用户远程使用,支持FireFox、Chorme等多终端展示方式。采用多层服务模式设计的好处在于,表现层与业务处理层和数据通讯层分隔,在增加一个新的访问渠道时,仅增加渠道驱动,改变内容展示格式,而事务处理和与后台的数据通讯及处理不作任何修改,通过单点登陆、数据访问隔离、计算资源多策略分配等,帮助数据分析工人员对结果进行多样化的快速展现与发布。