一、需求与挑战
企业IT 系统越来越多,网络、设备和产品越来越复杂,企业的各项经营活动越来越依赖于稳定可靠的业务应用系统的支撑。面对着复杂多样的 IT 网络和业务支撑系统,信息部门面临着诸多挑战:
如何最大程度的提前发现和改善 IT系统中的不稳定因素?
如何满足信息部门复杂的IT 资源不同层面的监控和管理需求?
如何从业务角度提高质量,保证业务使用部门的满足度?
如何实现 IT 资产和运行情况的统一管理分析,为 IT 系统建设提供量化的决策依据?
......
浪潮SSM作为业务管理产品,全称应用监管系统,是浪潮在多年系统管理和服务经验积累之上,推出的第三代业务系统监控解决方案,定位于对应用服务、安全设备、网管系统、基础支撑系统等一系列资源的不间断监控,是一套能够对网络基础平台和业务支撑系统进行统一监控的业务监控管理平台。
浪潮SSM面向国内客户的业务环境和管理模式,加入了客户和市场迫切要求的重要特性,融合了国内外的监测技术发展趋势,可满足在复杂的IT环境下实施面向业务服务的监控需求。系统为客户提供直观、全面、多角度的视图,动态预测业务应用的发展,对影响正常运转的事件快速响应,帮助信息部门建立主动化管理模式,实现对IT 资源和运维资源的高效管理,提升业务服务质量,从而保障 IT 信息系统的可持续性发展。
SSM产品概念示意图
二、基于SSM的浪潮政务云统一运维管理解决方案
浪潮凭借多年的相关软件开发和实施经验,结合国内管理实际情况,并在充分吸收国外先进网络管理理论的基础上,研制开发出了SSM IT运维管理平台。部署该平台将帮助用户及时的发现IT系统运行中所存在的问题,做到异常事件早发现、早解决,既提高了信息系统的运行效率,又增强了企业的故障应急处理能力。
面对用户日益复杂的IT环境,SSM IT运维管理平台将以往对网络、服务器与业务应用、安全设备、客户端PC和机房基础环境等的分割管理进行了有效的整合,实现了全面监控与集中统一管理;并融入了基于ITIL理念的IT服务管理,实现了技术、功能、服务三方面的有机结合,从而提高了企业IT系统的运行管理水平和服务能力,为企业生产和日常办公提供高效、贴身的保障。
方案架构
浪潮 SSM系统架构图
浪潮 SSM系统架构分为五层:
基础资源层
包含网络设备、服务器系统、数据库、中间件、基础应用平台、通用服务管理和基础运行环境等被监测资源。
数据采集层
数据采集层包含监测采集器、采集探针和监测数据接收几部分:
监测采集器利用HTTP、SNMP、Syslog、CLI(Telnet、SSH、WMI)、JMX、CORBA等标准协议和各种业务系统专有协议实现远程监控和数据采集,同时也支持SSM UniAgent代理式监测采集被管资源的监测数据。
监测采集器运行在采集探针(Probe)内,采集探针可以分布式部署,满足多个隔离子网和多级大规模IT环境监测的要求。
监测数据接收模块接收各个采集探针上报的数据,并交由数据处理层统一处理。
数据处理层
性能数据经过整理、归并与挖掘处理,为上层提供可靠参考;同时故障数据经过过滤、压缩、归并与关联分析之后,产生告警信息与事件记录。
业务模块层
提供全面业务功能支撑,展现监测分析结果。
监测配置:各类监测任务配置,监测调度和阈值管理。
资源管理:面向资源监测与数据汇总。
业务管理:业务应用与业务影响模型建模。
业务拓扑:业务拓扑视图管理
告警管理:智能告警处理与展现。
统计分析:各类数据的统计和分析报表支撑。
功能展现层
用户接入方式与WEB客户端功能展现。
关键技术
浪潮 SSM的产品关键技术有:
基于J2EE平台,B/S展现模式,采用先进的业务框架,良好的互操作性和扩展性,轻松实现跨平台部署。
默认数据库为Oracle 10g。
内嵌WEB应用服务器,简化配置、优化性能、加固安全。
支持监测配置集中管理,分布式探针(Probe)监测采集部署,满足多个隔离子网和多级大规模IT环境的统一监测管理要求。
主机监测提供远程无代理和UniAgent代理两种模式。
强大的监测插件体系,确保监测功能和指标的可扩展性。
内置智能事件分析引擎,通过业务影响依赖关联模型iBDM自动分析事件关联。
遵循各类标准化协议与规范
ICMP
SNMP
JMX
Corba
CLI(Telnet、SSH)
WBEM/WMI
HTTP、HTTPS
LDAP
DNS
FTP/POP3/SMTP
…
部署模式
浪潮 SSM产品部署示意图
浪潮 SSM产品支持分布式监测采集部署与集中配置管理模式,通过在服务端集中配置采集策略下发到采集探针(Probe)执行周期采集任务,完全可以满足在大规模网络环境下的对IT基础设施的监测要求。客户端无需任何安装,直接通过浏览器查看各类IT资源的即时性能指标,方便快捷。
SSM系统采集探针(Probe)具有以下几大特性:
探针自带监测数据存储功能:在网络临时中断或服务端临时关闭的情况下,Probe端会临时存储监测数据(Probe关闭后也不会丢),待网络和服务端恢复后再向服务端传输数据,保证监测数据的完整性。
探针支持自我管理和故障自恢复:当采集探针由于某些原因无法正确运行时,探针会自动重启并迅速执行监测任务,保证监测数据的连续性。
探针支持自动升级功能:当探针有新版本发布时,只需要把探针升级程序发布到服务端固定的目录,探针会自行判断并升级到新版本,减少手工升级带来的成本和出错几率。
探针提供自动注册功能:采集探针在启动时会自动根据配置信息连接到服务端进行自动注册,增加了管理的方便性。
探针支持多种常见平台部署:采集探针可在Windows和常见类Unix操作系统下部署,并能以服务模式运行(默认提供Windows操作系统下的安装程序)。
功能
深度全面的资源监测
浪潮 SSM集网络安全设备、应用服务和基础支撑系统等监测管理于一体,支持SNMP、Syslog、CLI(Telnet、SSH、WMI)、JMX、CORBA等远程监控手段和SSM UniAgent代理监测,各类标准应用协议仿真,拥有了500多种监测器,提供对整个业务网络的7X24不间断监控。
强大监测插件体系
无需二次开发,通过监测插件,不断增加监测器数量,扩展监测范围与内容。众多监测器工作独立,互不影响,保证整个监测体系的稳定运行。
灵活的监测时间调度机制和智能化的监测阈值模型
自定义监测时间与监测阈值,形成多样化、组合型监测策略,满足复杂环境下不同的监测任务要求。
主机代理Agent监测和远程无代理监测两种监测模式
多方式、多手段的自由组合,兼顾业务网络各部分性能影响,适应不同监测条件。
网络安全设备管理
全面支持CISCO、华为、中兴、北电、Foundry、Extreme、Avaya、H3C 、DLink等各种不同厂商、不同型号的网络与安全设备,提供各类设备的基本信息、CPU / MEM负载状况,设备可用状态、连续运行时间、响应延时、端口速率、ICMP连通性等设备属性与监测信息,亦可自定义SNMP监测内容。
CISCO路由器监控详细视图
网络设备监测项包括:
设备CPU利用率:监测网络设备的CPU使用率。
设备内存利用率:监测网络设备的内存使用量、内存使用率。
端口速率监测:监测网络设备中指定端口的入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出错误帧速。
端口上下线监测:监测网络设备指定的端口的上下线状态。
自定义SNMP监测:可监测多个SNMP表达式(支持四则运算、时间差值运算等)对应的采集结果。
ICMP连通性监测:监测与网络设备的连通性。
……
服务器系统管理
管理和监测Windows、Linux、IBM AIX、AS/400、HP-UX、SUN Solaris、SCO Unix 、SGI、Tru64等不同操作系统的服务器或集群的运行状态和性能数据,包括服务器的基本信息、CPU负载、内存利用率、应用进程、文件系统、磁盘空间和吞吐、事件与错误日志等信息的分析与监视。帮助用户及早发现服务器系统的性能瓶颈与故障隐患。
Solaris监控详细视图
服务器监测项包括:
主机基本信息采集:主机的基本信息,包括:CPU数目、机器型号、系统名称、系统版本、IP地址、内存大小、总线程数目、磁盘名称等。
主机CPU使用率:监测主机系统的CPU使用率。
主机内存使用率:监测主机系统的内存使用量、内存使用率。
主机磁盘使用率:监测主机系统的指定磁盘使用率。
主机磁盘IO监测:监测主机系统的磁盘TPS数、磁盘写操作速率等、每秒完成IO读写次数、每秒读写扇区数、每秒读K字节数、平均I/O队列长度等。
应用进程监测:监测主机系统中指定应用进程的内存使用量、内存使用率、CPU使用率。
系统服务监测:监测主机系统中指定服务的运行状态
主机当前登陆用户信息:当前登录用户登陆的时间、终端IP、终端名称
主机端口速率监测:监测主机系统中指定端口的入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出错误帧速等。
主机重要文件监测:监测主机系统中指定的文件大小。
Job基本信息采集(AS/400):监测Job的名称、CPU使用率、类型、状态、所属用户等。
ICMP连通性监测:监测与主机的连通性。
HACMP集群状态监测:监测集群的可用状态及子节点的状态。
自定义指标监测:系统提供了通用监测器,用户可以通过编写shell或者groovy脚本自定义监测指标
……
数据库及中间件管理
根据预定义的监测项目对Oracle、SQL Server、Sybase、DB2、Informix 、MySQL等多种数据库,按照属性相关性分为数据库工作状态、数据库表空间的利用情况、数据文件和数据设备的读写命中率、数据碎片的情况、数据库的进程状态、数据库内存利用状态等属性监测组,分组监测数据库系统的性能、事务、连接等性能数据。
Oracle监控详细视图
DB2数据库监测
基础监测:最后一次备份时间、数据库状态、数据库激活时间、当前连接数、连接总次数
缓冲池信息监测:各缓冲读写次数、命中率
锁监测:死锁数、锁等待率、锁升级率
锁表信息:锁状态、锁模式、表空间、Schema
排序信息监测:应用排序数、排序溢出百分比
表空间监测:已使用页、表空间类型、页长、总页数、表空间状态、空闲率、空闲页、使用率、预取大小、扩展数据块大小
表空间容器监测:使用率、总页数、已使用页、容器类型、表空间名称
Oracle数据库监测
基础监测:表空间使用率、连接会话数
高级队列监测:ready消息数、错误的消息数、消息平均访问时间、消息总数
归档目的地监测:归档目的地类型、归档目的地状态、归档目的地可用空间、归档目的地可用空间百分比、归档目的地位置
基本信息采集:使用spfile启动、只读模式、归档路径、例程开始时间、限制模式、归档模式、例程名、并行状态、位长、DB版本、DB名称、主机名、实例状态
检查点监测:发生检查点数、完成检查点数
数据文件监测:文件大小、读次数、写次数、读时间、写文件块数、读文件块数、读写文件块数、写时间
全表扫描配置: RSRATIO值、LTSCANRATIO值
资源锁定监测:锁定时长
碎片监测: FSFI值
PGA配置:PGA内存及各区域大小、实例处理性能等
进程资源消耗监测:可用PGA百分比、可用PGA、已分配PGA、已使用PGA
命中率监测:共享区字典缓存区命中率、多次解析(重装)的条目比率、高速缓存区命中率、共享区库缓存区命中率、磁盘排序与内存排序比率、回退段等待次数与获取次数比率
递归调用信息监测: 递归调用百分比、时间间隔的递归调用百分比、用户调用数、递归调用数、递归-用户调用比率、递归调用速率
Redo日志配置:重做条目的平台大小、多种请求成功/失败比率、错误次数等
Rman备份监测:增量备份大小、全备份大小
回滚段:大小命中率、等待率、等待次数、活动事务数、翻转次数、扩展次数、一致更改率、收缩次数、用户回滚率
会话监测:会话ID、用户名、CPU时间、排序次数、缓冲区命中率、读次数、写次数、提交次数、占用游标数、扫描次数
SGA配置:共享库缓存大小、SQL缓存大小、数据字典缓存大小、共享池大小、重做日志缓冲区大小、高速缓冲区大小
SQL监测:使用内存、执行时间、SQL语句、用户
转存空间监测:转储空间使用率
表空间监测:未使用Extent数量读时间、最大Extent数量、已使用率、已使用量、未使用量、未使用百分率、允许最大空间、是否自动扩展、写时间、Segment管理方式、表空间类型、当前Extent数量、下一个Extent大小
表状态监测:增长速度、索引大小、数据大小、表空间、用户
撤销空间监测状态监测:快照太旧错误计数、无空间计数
作业队列监测:破损作业数量、过期作业数量、失败作业数量
MySQL数据库监测
基础监测:缓存查询数、连接数
数据库大小监测:数据库大小
SQL Serve
基础监测:连接会话数、CPU使用率、数据文件大小、日志文件大小
基本信息:阻塞进程数、处理器名称、Windows版本、处理器数目、主机名、内存(MB)、数据库数目、会话数目、启动时间
数据库大小:数据大小、数据库大小、未分配大小、未使用大小、索引大小、保留大小
文件监测:路径、增长方式、容量、文件组、数据库、大小
会话监测:最后处理时间、命令、数据库、CPU时间(ms)、内存(KB)、程序、建立时间、用户、状态、主机
Informix数据库监测
基础监测:回滚数、死锁数、写缓存命中率、读缓存命中率、数据库连接数
检查点监测:检查点速率、检查点等待速率
DbSpace监测:数据空间使用率
磁盘读写监测:页写速率、页读速率、物理磁盘写速率、物理磁盘读速率
锁监测:锁请求速率、锁超时率、锁等待率、死锁率
日志读写监测:物理日志页面写速率、物理日志写速率、逻辑日志页面写速率、逻辑日志写速率、逻辑日志记录写速率
共享内存监测:块写速率、缓冲区写命中率、缓冲刷新到磁盘速率、Foreground写速、缓冲区等待速率、LRU写速率、顺序扫描速率、Latch等待速率、缓冲区读命中率
排序监测:内存排序速率、磁盘排序速率
事务监测:事务提交速率、事务回滚速率
Sybase数据库监测
基本信息采集:DBMS名称、DBMS版本、系统信息、产品版本、主版本号、产品名称、次版本号
数据库监测:使用百分比、已使用大小、数据大小、空间大小、索引大小、未使用段大小、数据段大小、段总大小、索引段大小
会话监测:数据库、命令、已用内存、CPU时间、IO读写次数、程序、主机、用户、状态
事务监测:系统事务交易总数、每秒回滚事务数、每秒事务数
设备监测:属性值
数据库:CPU使用率、数据库空闲表空间、数据库表空间、连接会话数
产品还支持对Websphere、WebLogic、MQSeries、Tomcat、Tuxedo、Tibco、Resin、TongWeb、金蝶Apusic等各类不同中间件,提供包括配置信息、连接池、线程队列、负载监测、通道情况监测等多类监测组,分析与监测中间件的各项运行状态参数。
WebLogic监控详细视图
中间件监测项包括:
系统信息采集:监测中间件基本信息,包括:操作系统、操作系统版本、当前可用堆栈及大小、当前目录、重启次数、开启线程数。
JVM使用监测:监测JVM的堆栈大小和使用率。
JDBC链接池监测:监测指定JDBC连接池资源连接情况。
JTA事务监测:监测中间件中数据处理事务的活动情况。
线程池监测:监测指定线程类的线程平均数、空闲线程平均数以及线程吞吐量。
Servlet监测:监测指定Servlet执行和调用情况。
EJB监测:监测指定EJB激活次数、钝化次数、缓存个数、事务提交次数、事务回滚次数、事务超时次数、访问次数。
WEB应用监测:监测指定Web应用中Session的当前个数、最大值以及累积个数。
JMS队列深度监测:监测中间件中JMS消息队列活动情况。
MQ通道情况监测:监测MQ的通道情况,包括:每秒接收字节、每秒发送字节、通道状态、发送间隔、事务数。
MQ队列深度监测:监测MQ服务的消息队列的队列深度。
Tuxedo负荷监测:监测Tuxedo的机器状态是否被激活、每秒处理的队列服务数每秒入队的队列服务数、当前客户端数、当前WorkStation客户端数。
TongWeb数据连接池监控:监测国产中间件Tongweb数据库连接信息,如最大、最小连接数,可用、创建、关闭、等待连接数等
TongWeb应用性能监控:主要监测系统线程情况、请求队列情况、吞吐量、发送接收字节数等信息;
……
基础应用平台及通用服务管理
提供对IIS、Apache 、Exchange、Domino等基础应用平台的基础信息、连接测试、基本负载等重要信息的监测。
有效实时地分析HTTP/HTTPS 、DNS、FTP、DHCP、LDAP等常见通用服务的运行状态和参数,深入分析服务响应速度变化的技术原因和规律,从根本上解决服务响应性能的问题。
Web应用详细监控视图
Domino服务器监测
基础监测:监测Domino服务器的内存占用值、指定数据库的使用率、待发邮件数、僵死邮件。
基本信息采集:采集Domino服务器的基本信息,包括:Domino版本、数据库存放路径、CPU个数和CPU类型信息。
负载监测:监测Domino服务器当前负载情况,包括:每分钟交易数、每分钟最大交易数、交易总数、当前用户数、最大用户数、当前任务数。
复制(Replication)监测:监测Domino服务器复制情况,包括:成功复制次数、失败复制次数、删除文档总数、增加文档总数、修改文档总数。
邮件服务监测:监测Domino邮件服务情况,包括:死邮件数、路由邮件数、待路由邮件数、已投递邮件数、待投递邮件数、平均邮件大小、最大邮件大小。
缓冲池监测:监测Domino缓冲池的使用情况,包括:缓冲池大小、缓冲池使用值、缓冲池最大值、扩展管理池使用值、扩展管理池最大值、NSF使用值、NSF最大值。
扩展管理池监测:监测Domino扩展管理池的使用值、最大值。
Apache负载监测:监测服务器是否连接,采集CPU负载、正常运行时间、响应时间、累计访问数、累计访问数据处理、每秒请求数、每秒处理字节数、每请求处理字节、忙作业数、空闲作业数等指标。
IIS监测:
连接监测:监测IIS服务运行时间、服务运行时间、尝试登陆/秒、尝试连接/秒、当前连接数、最大连接数。
传输字节监测:发送字节/秒、接收字节/秒、传输字节/秒、服务运行时间、接收文件/秒、发送文件/秒、找不到文件的错误数、服务运行时间、传输文件/秒。
用户监测:服务运行时间、最大非匿名用户数、非匿名用户/秒、匿名用户/秒、当前非匿名用户数、当前匿名用户数、最大匿名用户数。
WEB请求监测:post请求/秒、head请求/秒、其他请求/秒、服务运行时间、get请求/秒。
WEB服务器可用性监测:监测http、https和Web Service服务器是否连接以及是否正常运行,可以监测指定http的URL路径是否包含或者不包含指定内容。
标准邮件服务器监测:监测pop3、smtp邮件服务器是否连接以及是否正常运行,可以监测具体的邮箱的邮件数以及邮箱使用量。
Active Directory服务监测:监测AD服务运行情况,对请求的响应情况,服务复制列表情况等;
Exchange服务监测:
访问监测:监测Exchange服务是否正常,SMTP/POP/IMAP是否可以正常连接。
SMTP信息监测:监测本来和远程SMTP重试次数,本地已发生的Message数量,未发生的Message数量等信息。
MTA信息监测:监测Exchange工作队列长度和传输数据量,TCP/IP接收和传输量。;
邮箱存储信息监测:监测邮箱接收/发送的邮件数,信息分配/发送每秒数据量等信息;
基础服务监测
DNS服务监测:监测DNS服务器是否连接以及是否正常运行,可以监测指定域名是否正确解析。
FTP服务监测:监测FTP服务器是否连接以及是否正常运行,设定已FTP方式登录该资源的阈值,监测指定文件是否存在。
LDAP服务监测:监测LDAP服务器是否有效,LDAP上的信息是否正常,监测LDAP的连接时间。
通用资源监测:
TCP端口监测:可监测多个TCP端口,并采集连接时间,可指定端口开启或者关闭时告警。
通用SNMP监测:可监测多个SNMP表达式(支持四则运算、时间差值运算等)对应的采集结果,并可设定告警阈值。
……
虚拟化平台监测
对虚拟化平台的监测主要以VMware为主。主要监测虚拟机常见的性能指标如CPU、内存、磁盘。
VMware监测
基本信息采集:虚拟机的操作系统类型、虚拟机的总体状态、虚拟机的电源状态、虚拟机的配置文件路径、虚拟机名称、主机的基本信息或状态等
虚拟机CPU监测:虚拟机可使用的CPU数量、虚拟机的CPU频率、虚拟机的CPU使用率
虚拟机内存监测:虚拟机的内存使用率、虚拟机可已使用的内存量
虚拟机磁盘监测:存储置备大小、已分配使用率、未共享大小、已分配大小、虚拟机名称
集群信息采集
基础运行环境管理
对于IT环境系统,我们支持各种智能设备的快速监测,同时通过SNMP、数据库接口等其他接口方式可以实现客户化的扩展监控,监测内容包括基础运行环境的温度、湿度、漏水、烟感和电源、UPS、智能空调等。
面向业务的监控
SSM通过业务和服务模型来管理IT资源,业务应用监控视图由整体到局部逐层钻取,从粗线条到细颗粒度的导航模式,方便运维人员深入浅出的分析当前被监控资源的运行状态,定位问题发生的故障根源并评估影响度。SSM提供业务应用总控视图、资源运行展现视图及部件指标分析视图等三级视图呈现,方便用户便捷的获取业务SLA和服务响应指标。
业务应用总控视图(一级)
以业务为核心,全局展现所有业务应用运行状况的一级视图,即业务应用总控视图;它把与业务运行相关的资源动态关联起来,并以业务拓扑的形式呈现,用户可以根据资源对业务的影响度定义不同的影响权重进行计算,得出业务的健康状态与可用状态,更加贴合用户的管理思路;业务应用总控视图还直观的呈现了最近24小时业务的可用性和健康性,方便用户快速定位到最近的故障时间点。
业务应用总控视图
资源运行展现视图(二级)
针对业务应用的具体关联资源,根据不同的资源分类(如网络设备、服务器、数据库、中间件等),详细展现资源的基本信息、负荷状况、稳定性、响应延时各项关键性能指标和健康度与可用度的状态分析,轻松掌握资源当前的运行状况。
资源监测视图
监测指标分析视图(三级)
自定义查询区间,展现区间内各时间点被监测资源的关键性能指标,帮助用户把握总体走向,捕捉细节变化,粗细结合地利用图表比较、分析详细性能趋势,并支持分析结果单独导出与发送。
CPU 使用率趋势分析视图
智能准确的告警预报
业务系统网络经常会产生各种各样的故障信息,如何快速识别、定位故障信息与故障原因,是IT信息部门尽早尽快排除故障的先决条件。
集中化告警管理
强大灵活的事件分析
智能识别各类不同来源的原始事件。通过内建的智能事件分析引擎,对标准化后的原始事件进行可靠过滤、重复压缩、对齐归并与依赖关联,自动修正告警记录,最终形成有效告警。
自定义事件解析规则
用户可自定义编辑和导入解析规则库文件,自主制定事件解析规则,同时支持第三方MIB库的装载与自动解析。
基于iBDM的事件关联分析
事件的产生以及其影响都不是独立的。基于业务影响依赖模型iBDM的事件关联分析,自动发现关联,追溯事件影响、定位问题,发现问题根源。
事件分析机制与流程
告警台
作为告警管理平台,呈现最新告警信息,并以最近24小时、最近一周、最近一个月等不同区间统计最近的告警记录,提供自定义刷新、告警确认与消除等告警管理操作。
分等级告警
产生的告警信息分为提醒、警告、次要、重要、紧急五个等级,用户可以根据告警等级安排告警处理的优先次序。
分类查询
借助按资源与按节点的分类导航,快速搜索分类告警记录;支持通过告警信息的事件等级、时间、类别、名称、资源等组合条件进行自定义查询。
告警的关联特性
点击具体告警,会列举告警关联的事件,同时展现事件的详细信息、问题资源信息和依赖关系图等,方便分析故障详情。
告警台视图
灵活的告警通知
多样的通知方式
支持短信、邮件、语音等告警通知手段。
支持外部命令、UniAgent执行脚本、NetSend、Snmp设置、Trap转发等告警处理动作。告警处理动作将按预定义,自动在告警发生后执行,先一步尝试恢复业务正常运行。
灵活的通知策略
根据不同的告警事件来源为它们指定不同的通知和处理方式,组成全面告警通知策略。
深入量化的报表统计
全面的性能与告警报表
依据对监测数据的自动汇聚、抽取、分析,提供基础架构性能与告警、资源比较、指标排名、指标趋势等各类层次化统计分析报表。从业务运行状态到微观性能指标,自定义查询业务应用系统及其关联资源的当前和历史运行情况。
报表详细视图
业务运行报表
支持按业务的方式对业务应用可用性、MTTR和MTBF进行统计。
节点报表
支持按节点的方式对其监测数据的进行汇总分析,提供基础架构性能指标趋势等各类层次化统计分析报表,并支持自定义时间段进行查询。
节点报表
“所见即所得”的报表
支持报表收藏功能和订阅。支持导出为Excel、PDF文件和立即发送报表到指定Email邮箱,还能够为不同的用户订阅相关报表,自动定时发送到指定Email邮箱,提供系统优化、决策分析和业务规划的量化参考。
报表订阅
三、方案亮点及价值
面向业务的监测
SSM提供以业务组织为核心,面向业务的监测模式,并通过独创的业务影响依赖模型iBDM,进行业务的故障根源分析,真正实现了基于业务视角的监控。
系统通过业务监测拓扑和业务展现视图,多角度分析展现业务监测结果,衡量业务运行状态,评估业务服务水平,使用户能够站在业务的高度运筹帷幄,对业务进行有效管理。
深度监测、易于部署
SSM遵循各类标准化协议与规范,通过丰富的监测器满足各种网络设备、服务器系统、数据库、中间件、基础运行平台与通用服务等多样性监测需求,做到即开即用。
提供主机代理Agent监测和远程无代理监测两种监测模式,自由组合,兼顾业务网络各部分性能影响,满足各种差异化监测环境下的不同监测条件。客户端无需配置,服务端一次安装,即可完成对整个业务系统网络的监控。系统的安装实施与维护操作轻松简便,对现有系统性能影响甚微。
配置灵活、上下扩展
无论是监测配置、告警配置还是报表配置,SSM都提供模板化的配置支持,帮助用户实现快速定制。同时,多元化参数设置,允许用户充分地配置自定义,满足各类复杂监测要求。用户可自定义编辑和导入事件规则库文件,自主制定事件解析规则,同时支持第三方MIB库的装载与自动解析。
SSM稳定的插件管理体系,提供了标准的插件实现接口,无需二次开发即可完成特定的业务监测和管理功能。同时开放的扩展接口允许监测功能的添加或者与其他系统的集成。产品还支持第三方告警接入,通过Syslog、SNMPTrap集成其他系统的故障信息。
易用、安全、稳定
SSM主要面向信息系统运行维护人员,在原始数据的有效组合和表现形式上,处处体现出服务于运维的设计原则。产品采用B/S架构,全中文WEB 界面,易用友好。提供全程导航,快速定位,引导式简易操作,轻松掌控整个监控环境。层次化运行展现,方便获取各层次监测数据,可形成多种格式文档即时导出。
为了满足监控数据的安全传输,无论是Agent还是远程监控方式,产品均支持可选的SSH加密方式,保证数据在传输过程中的安全。