大型数据中心运维管理“智”关重要

从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营管理者最为关注也是最棘手的问题。在看来,高品质的数据中心运维管理“智”关重要。

复杂多变的市场环境,快速发展的业务,促使数据中心管理者对IT运维管理提出更高需求,传统的“重建设,轻管理”的IT思维禁锢着数据中心IT系统的价值发挥和潜力发掘。

在后信息时代,管理服务的价值愈发凸显,激发着数据中心管理者对于如何提升管理质量和效率的思考和探索。

宁波是国内最早提出建设智慧城市并启动实施的城市之一。近年来,宁波依托发达的临港产业、制造业基地和外向型经济等优势,为智慧城市建设提供了广阔的发展空间。A数据中心是宁波市规模较大的数据中心,总建筑面积超过8000平方米,拥有逾1000台机柜,参照五星级机房标准进行建设。该数据中心承担着华东地区多个行业多家重量级企业的IT系统入驻、应用和管理维护。

对于如此规模的数据中心,需要一套完整、规范、切合需求的运维管理体系和一支具备丰富运维管理经验和极强的运维管理能力的运维管理团队协助其实现高效运维管理。

整合先进的数据中心运维管理经验和技术,将IT运维管理流程与A数据中心的需求和发展进行科学匹配,建立了一套完善的运维服务管理体系,按照ITSS科学的方法论实现“人员、流程、技术、资源”四大要素的整合,将规划、运维及管理以规范化的IT运维管理方式贯穿整个运维管理过程,制定了专业而全面的维护流程、制度、预案以确保优质的服务水平。

运用科学的管理思路,为该用户解决IT基础设施的管理难题。为保证电源无间断故障产生,采用部署两路市电常供、柴油发电备用的安全方案,双管齐下保证电源环境常年无间断。通过对各种应用系统采用“事前监控预警、事后及时响应”的备战策略,一方面通过先进的监控预警平台,防患于未然,大大降低故障产生率;另一方面对已发生的故障快速响应,积极“灭火”,最大程度地降低了故障损失。

在服务团队及A数据中心管理团队的通力配合下,该数据中心建立了完善的IT系统维护流程、规范的操作制度、详尽的应急预案,并定期进行多种类别的应急演练,保障业务开通和故障处理及时率达99%以上,电源供电可用率99.99%。通过建立安全运维机制,实现7×24电信级集中监控以及7×24小时现场维护值守,对数据中心的网络、动力、环境、消防等系统进行集中监控和预警,现场值守人员进行日常巡检和维护作业,并进行现场处置。其中,现场维护按专业分为IT维护组和动力维护组,并设置动力支持、网络支持、客户服务经理、资源管理和质量分析等支持岗位。相应岗位人员具备专业资格和多年维护工作经验。

数据中心运维管理工作是一项长期的、具有累积效应的工作。以稳健、可靠的服务在历次考核中获得优秀成绩。而随着该数据中心的用户进一步增加、IT设备更加复杂多样,的运维服务管理能力也将面临更高的考验。


图片 1


从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营…

为了保障新时代数据中心的安全,在实际运维过程中,运营商不仅需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题,通过预警机制及相应的流程做到防患于未然,还要科学运用这些数据来为应急措施及节能措施提供可靠的指导依据。

现场人员均按照演练计划中各类指令进行下一步操作。

IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

人云亦“云”的时代,数据中心作为重要基础设施发挥着必不可缺的重要作用,而随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心的运维难度也“更上一层楼”。尤其是当面临“突发事故”,更是考验一个数据中心的运维能力。

2、应急物资的存储

(3)建立规范的事件跟踪流程,强化运维执行力度

图片 2

数据中心基础设施运维的应急处理体系建设,有利于提高风险防范意识,应急预案的编制、评审、发布、宣传、演练、教育和培训,有利于各方了解面临的重大事故及其相应的应急措施,有利于促进各方提高风险防范意识和能力。

IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前–自动化,这是IT技术发展的必然结果。现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。所谓IT运维管理的自动化是指通过将日常IT运维中大量的重复性工作小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。

其实,采用智能化的管理手段,可以轻松满足这些需要。以电源管理为例,领先的智能电源管理解决方案供应商力登提供了一整套以智能PDU为核心的机柜内部微环境和供配电监控管理以及整个数据中心平台管理方案:通过智能PDU进行实时远程电源监控,能够对相关参数包括对电流、电压、功率(单位:kVA、kW)和能耗达到±1%计费级准确度,甚至可以单独对每个电源插座的上述相关参数进行监控。除了高效、可靠地分配电源之外,新的iPDU还凭借更多计算和存储功能,可支持新的应用并收集和分析IT设备的用电数据、数据中心内可用电源容量以及机柜环境健康状况;并且提供更多的传感功能与基础架构数据收集点(特别是独特的力登电子门锁)。此外,还能通过Power
IQ电能管理软件对设备所处微环境的温度、湿度、气压等状况进行监控,更重要的是这些计量后的数据会被收集整理,从而为管理者提供决策参考。

(2)数据中心基础设施运维相关应急物资储备部门,要加强应急物资维护管理,根据储备物资的有效期和质量要求对储备物资进行保养和适时轮换,确保应急物资的可用性和完好率。

(4)设立IT运维关键流程,引入优先处理原则

数据中心在国内突飞猛进只有十多年的时间,却已从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临更大的挑战。

为提高数据中心发生突发安全生产事故时,维护人员的快速反应能力,检验及维护在非正常状态下的组织能力,缩短处理事故的时间,减少事故状态下的经济损失,各类数据中心应当本着“安全第一,预防为主”的方针,组织进行数据中心基础设施应急演练。通过数据中心意外事件的实战演练,为日后数据中心基础设施故障处理积累经验。通过应急演练,查找目前存在的薄弱环节,采取措施进行补救和提高,以保证在意外状态下正确快速地处理异常状况,保证数据中心基础设施安全运行。数据中心各专业应急演练,应参照应急演练的总体部署。

(2)缺乏一套高效的IT运维机制

首先,规模超大带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本。其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升。此外,规模集中,导致风险集中,事故影响更大。例如之前亚马逊的数据中心事故,导致了全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。

(1)选址在交通便利,供电可靠,周围没有明显的安全隐患,不易受洪涝、山体滑坡等影响。

四、开放的IT管理架构。

上个月,北京亦庄某数据中心柴油机起火事故再次为数据中心运维管理敲响了警钟!

(2)数据中心基础设施运维应急处理组织指挥体系及职责:包括组织机构和职责、组织体系框架描述。

(1)建立自动化运维管理平台

数据中心基础设施运维应急物资存储工作,应遵循“统筹规划、分区储备、保障急需、方便调度、专业管理”原则。

尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。另外,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。

3、应急物资的维护

变革带来的思考

一、应急处理的目的及意义

IT运维自动化的工具

x、y、z均为非负整数。每当x加1时,y和z应清零。

1、配置合规检查

  • 数据中心基础设施运维应急处理应当遵守国家相关法律法规,遵守数据中心所在地区的行政法律法规。
  • 数据中心基础设施运维应急处理在保障人员生命安全的前提下,积极承担应尽的社会责任,优先确保涉及民生的信息服务安全、畅通。
  • 数据中心基础设施运维应急处理要做到统一领导,分级指挥,充分利用现有资源,突出保障重点。
  • 数据中心基础设施运维应急处理的信息发布应当及时、准确、客观、全面,要积极主动,准确把握,避免猜测性、歪曲性的信息披露等。

简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

(3)数据中心应急保障车辆应制定专门的安全生产管理办法,车辆的保养和检修频次应高于车辆保养手册的要求,五年以上车辆应将保养里程或者时间减少一半以上。

云计算最终的目标是达到系统的按需运营,运营系统能够根据用户请求执行服务的开通。任何一套管理系统,都不可能满足所有用户的需求,在云时代尤其如
此,这就要求用户在建设数据中心时具备开放的管理战略,IT管理系统具备开放的能力。iMC是一个开放架构的SOA平台,所有iMC相关产品都是在此统一
平台上开发的,并在此平台上封装网络服务并开放服务接口,第三方产品可以使用基于iMC
平台和开放的API接口实现对网络资源的调度。

(3)数据中心基础设施运维应急处理的预防和预警机制:包括对预防机制、预警监测、预防预警行动、预警分级和发布的介绍。

数据中心规模庞大,设备及系统众多,管理人员经常面临的问题就是大量重复设备配置的规范性、安全性问题。伴随着各种审计体系在级别和频度上的不断增
加,传统的通过人工方式检查设备规范性的审计方法,不仅效率低下,还会存在遗漏,已经无法适应云时代数据中心的安全管控需求。都说安全问题“三分技术,七
分管理”,但是想要把那“七分管理”iMC配置合规检查内置常用的策略,如NSA路由安全建议、PCI、Syslog功能、设备安全高级建议等,以满足用
户的日常检查管理。用户可以自定义合规策略,对网络设备进行配置检查。合规策略包括一个或多个检查规则,一个检查规则分为配置文件、接口、链路、聚合链
路、配置片段、脚本等不同类型,包含支持的厂商、设备系列、检查内容来源、规则内容等信息。用户可通过创建检查任务来检查设备是否符合合规策略,检查任务
包含待检查的合规策略、设备的信息等。检查任务执行完毕后,可以通过报表查看设备违背合规的信息。对于违背合规的设备,用户可以创建违规修复任务进行修
复,及时解决在数据中心环境中出现的配置问题,提高安全等级及各种法案法规的遵从度。

所有参演人员应做到听从指挥,严格按照操作流程执行操作,意外情况做到及时上报,并采取有效措施防止意外事件继续发展。

(3)缺乏高效的IT运维技术工具

所有人员应严格遵守职责分工,演练过程中密切关注设备异常情况,发现异常及时记录和报告。

1、虚拟资源自动迁移。服务器虚拟化为保障VM系统的可靠性、灵活性,提供了VM迁移、以及高可用性HA)、热备容错FT)、动态资源池调度
DRS)等特性,这些特性都会影响VM的物理部署位置,而VM接入物理网络设备是需要一定的网络资源配置的,其接入位置的动态性就要求物理网络配置能提
供随需而动的管理能力,否则VM对网络的连通性、安全性、可靠性需求就无法得到保障。为了实现网络配置的动态迁移、随需而动,准确定位VM和物理交换机的
连接关系是关键能力。正在形成标准的802.1Qbg协议不仅保证了所有网络流量都必须在物理交换机上处理,而且通过EDCP/CDCP/VDP等协议解
决了VM和交换机连接关系的定位需求。另一方面物理交换机端口和VM的1:N连接关系,使针对每个VM的网络配置实现精细化控制是非常复杂的,H3C实现
的802.1Qbg方案通过在物理交换机上支持vPort概念,为解决该问题提供了更好的支持。iMC基于802.1Qbg实现了虚拟化环境中网络配置的
自动迁移能力。同时基于iMC对于网络和服务器、VM的融合拓扑分析能力,支持vSwitch环境下的网络配置自动迁移能力。首先根据用户应用对网络资源
的需求,定义网络资源类型。然后将此网络资源类型分配给不同的VM,则VM在迁移或启动时,就会在网络设备中自动分配相应的网络资源。

(2)应急物资管理遵循“统筹管理、科学分布、合理储备、统一调度、分级负责”的原则。

IT运维自动化迫在眉睫

  • 易于查询。
  • 语言简洁、通俗易懂。
  • 层次及结构清晰。

(1)运维人员被动、效率低

各类数据中心应针对本数据中心基础设施运维的特点,建立基础设施运维应急处理体系,应急体系建设原则如下:

IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。

Author

发表评论

电子邮件地址不会被公开。 必填项已用*标注