(一)监控与告警管理
为达到的可用性目标,提供功能强大的监控管理系统对云平台进行统一监控及时发现问题,确保各个IT系统功能7*24小时稳定可靠运行。监控管理总体要求如下:
针对网络、计算、存储和虚拟层等各系统的不同特点,制定详细完整的常规巡检制度及检查/监控规程,确保云平台的高可用性;
监控系统本身的运行情况,每天由值班工作人员进行检查,包括监控软件运行情况、声光电系统工作状态、短信猫运行状态,确保监控系统的正常运行;
监控系统达到:告警出现时立即通知相应系统的后台值班人员,由后台值班人员负责故障的排除及判断是否升级故障;
支持邮件或者短信方式的主动告警。对于监控系统所产生的告警,值班工作人员应按照事件处理流程,做统一记录,并进行故障处理;
监控系统应确保安全管理,操作人员严格按规定执行登录记录、数据备份、系统软件备份齐全;
(1)平台资源及网络监控
平台资源网络监控应能够监测支撑网络全部物理设备及虚拟设备的当前实时流量、资源使用率、链路状态;对于异常情况,可以根据告警管理当中设定的监控原则及标准,进行主动告警,主要监控内容如下:
设备管理:监控在网交换机、路由器、安全设备及虚拟设备等的设备数量、设备状态、设备标签、型号、IP地址、设备类型及资产投入使用时间;
拓扑管理:监控网络拓扑及异常变化;
性能管理:监控网络设备的通断、CPU、内存等性能指标
告警监控:监控网络设备的故障,及时产生告警,包括主动轮询、设备trap上报、设备syslog上报等多种方式;
告警可以通过邮件、短信等方式通知维护人员;
(2)应用监控
应用层监控能够主动监测各项云应用、数据库系统运行情况,根据告警管理当中设定的监控原则及标准,进行主动告警,主要监控内容如下:
服务器监控:可监控到服务器的可用性、健康状况、CPU、内存利用率等基本指标;监控磁盘利用率、网络接口、进程等扩展指标;
(3)机房监控
机房环境监控系统应达到:温度、湿度、漏水检测、氢气监控、闭路监控等测量准确,数量显示稳定;
动力环境监控系统应达到:交流、直流等被测量准确,数据显示稳定;
火灾自动报警系统应达到:无误告警出现,烟感告警反应时间满足要求;
门禁监控系统应达到:门禁出现异常及时通知相应的维护人员,进行故障的判断及维修。
(二)硬件设备运维
运维管理系列规范对硬件设备运维给出了详细的操作规范和指导,构建严密的监控防护体系,对云机房内的服务器、存储设备、安全设备、终端展示设备、网络设备的正常运行进行运维。硬件设备老化故障是数据中心运维无法逃避的主要问题,是大量业务故障的根源,针对设备老化问题制定了许多的管理要求,如比较典型管理要求:
(1)硬件标准化:对上线硬件选型、规格做标准化设计,选型确定前必先经过严格的测试,严控硬件质量。硬件标准化也便于建立备件池,大大缩短故障设备更换时间。
(2)硬件生命周期管理:采用IT系统对投入运行的硬件设备做全生命周期管理,从上线到退役做监控管理。对接近维保期限的硬件设备做过滤筛选呈现,并触发预警,运维人员发现预警则开始调度备件进行更换处理。
(3)硬件设备巡检:当IT监控系统对某种故障条件没能有效监控时,巡检是另一道可靠保障,根据云运维管理规范要求,机房须制定值守排班表,每天按照巡检内容清单进行例行巡检,如设备报警指示灯是最重要的巡检项。并定期做深度巡检。
(4)平台服务高可用:硬件故障无可避免,但是服务不能中断,云运维规范要求,所有上线平台服务均需要审查可用性设计方案,否则不予上线。
(三)网络运维
网络运维包括用户层网络运维和平台层网络运维。
用户层网络运维,是指对用户隔离的虚拟网络(VPC)的运维,项目提供的云Web管理控制台可随时随地登录进行虚拟网络运维,远程管理且所做配置无需等待即时生效。VPC服务支持网络拓扑可视化、节点自动发现。
云平台层面,网络的可靠稳定是云服务可用性的关键因素。云服务的可用性依赖可靠的网络,可靠的关键是网络运维。
运维接入,运维采用堡垒机解决方案,对运维人员可授权,对历史运维操作行为可追溯。
方案构建了高可用、可运维、可定位的云计算网络运维解决方案。
构建高可用网络,可靠的云服务网络首先依赖高可用的网络建设方案,最基本的要求是云网络内无单点路径设计,网络互联要提供多出口。
构建可运维网络。网络是云服务的最复杂的子系统之一,要打造可运维的网络,必须借助于专业的网络工具,打造了覆盖全路径的网络运维工具体系,对平台网络进行有效的监控运维。
构建可定位网络。网络异常事件可定位往往是快速解决网络事故问题,减少业务损失的关键,通过布置网络探针,构建分析平台等手段构建了出了问题可定位的云服务网络。
(四)安全运维
安全与运维放到一起,实际一般包含安全运维和运维安全两个方面。安全运维,是指对涉及安全相关设备和服务的运行维护行为,主要是外在的安全防范。而运维安全,是指运维行为本身不当可能带来的严重安全后果,主要是内在的安全防范。
在安全运维方面,运维团队内,有一支专业的安全运维专家团队,专职负责设备安全相关的运行维护,包括对服务器安全、网络安全、数据安全、应用安全的运维,他们身怀安全绝技,定期对安全设备、云管理系统进行健康检查,借助于专业的安全工具,对各类系统产生的安全日志实现全面、有效的集中收集、分析、管理、审计。
安全构筑在一整套完整的安全解决方案之上,其中运维安全也是非常重要的一环。服务通过对运维和运营系统的安全事件管理、运维账号认证、运维权限管理、运维接入安全、漏洞管理和集中日志管理等多角度出发,全面保障运维和运营安全万无一失。
(1)安全事件管理
安全事件指由网络攻击或者破坏,可能或已经造成云服务系统信息泄露、数据被篡改、服务不可用及影响云服务品牌的的事件。这些攻击行为主要包括网络攻击事件(如后门攻击、漏洞攻击、网络扫描窃听、网络钓鱼攻击、DDoS攻击等),信息破坏事件(如信息篡改、假冒、泄漏、窃取、丢失等),信息内容安全事件(如发布非法、反动业务等违反法律法规的安全事件)。由于安全事件处理的专业性和紧迫性,云服务提供商应组建7*24的专业安全事件响应团队以及对应的安全专家资源池,同时,根据安全事件对整网、客户的危害刷新事件定级标准以及事件响应时限和解决时限要求。移动秉承快速发现、快速定界、快速隔离与快速恢复的安全事件响应原则。
(2)运维账号管理
运维人员接入管理网络对系统进行集中管理时需使用员工身份账号,使用多因子认证,包括USBkey、SmartCard等。对用于日常或应急运维的功能账号,通过账号管理系统绑定到个人或运维团队,支持使用堡垒机进行日志审计,确保运维人员在目标主机上的操作行为可以定位到个人。
(3)运维权限管理
系统帐号/权限管理分两个维度:帐号生命周期管理和授权管理。
帐号的生命周期管理:包括帐号的开销户管理、帐号责任人/使用人管理、口令管理、开销户监控管理。帐号建立完毕之后,纳入帐号管理员处日常维护管理;
账号授权流程:如果帐号使用人要使用帐号,启用授权流程,通过口令或者提升帐号的权限等方式进行授权;帐号的申请人和审批人不能是同一个人。
根据不同业务维度和同业务不同职责,登录权限分为:核心网络、接入网络、安全设备、业务系统、硬件维护、监控维护、数据库系统等权限,不同岗位职责人员限定只能访问本角色所管辖的设备,其他设备无权访问。所有运维帐号由统一运维审计平台集中管理,并且进行自动审计。
(4)运维接入安全
移动的云服务为了保证云服务数据中心的持续稳定运行,建立了一支强大的运维队伍。数据中心外网运维人员和内网运维人员对网络、服务器等设备的本地及远程操作全部集中到堡垒主机系统上,通过二次跳转系统将维护人员直接连接到指定设备,实现用户对设备资源操作管理的统一接入、统一认证、统一授权和统一审计。
(5)集中日志管理
应用了业界先进的日志管理系统,支持与第三方SIEM系统和威胁分析平台对接,可实现对日志的收集和整理,支持安全事件的可视化、审计及溯源。
(五)云服务管理系统运维
要求云平台管理系统和各服务组件是自带监控设计的,并且产生并记录运行日志。平台管理系统除正常的版本演进计划之外,还会根据客户需求和运行bug发布紧急补丁,现网运维评估问题影响,安排补丁升级。