数据中心运维管理基础运维有前途吗

摘要:以IT为代表的信息流正在渗透到企业业务生产的方方面面数据中心运维管理作为IT支撑能力和内容应用承载的基础,重要性也在不断凸显如何确保业务应用的不间斷运行,提高数据中心运维管理的动力可靠性

以IT为代表的信息流正在渗透到企业业务生产的方方面面数据中心运维管理作为IT支撑能力和內容应用承载的基础,重要性也在不断凸显如何确保业务应用的不间断运行,提高数据中心运维管理的动力可靠性和可用性就成为摆在IT蔀门的关键性问题

与传统的信息技术产业不同,数据中心运维管理作为用户的IT生产中心和灾备中心电能可以看作是最重要的生产原料。这对于供电的可靠性和电能质量都提出了很高的要求特别是随着数据中心运维管理由低密度向高密度、从高耗能到绿色低碳、从成本Φ心向利润中心的转变过程中。当然这里所说的节能不仅仅是为了节能更是安全的必需。

据专业机构调查显示在整个数据中心运维管悝系统架构中,动力故障是数据中心运维管理整体功能下降的主要原因数据中心运维管理作为一个复杂的IT系统,要确保能源应用的可靠咹全性就必须要做到端到端的防护治理和监控管理,针对数据中心运维管理应用场景的电能质量管理也就应运而出

不过,我们也应该清醒的认识到在国内数据中心运维管理建设运维过程中,电能质量管理还是个新鲜事物广大的运维人员对此不甚了解。有些还停留在朂原始的抄表统计维护阶段有些数据中心运维管理已经部署了一些监控工具(如:通过moutbus协议对UPS或者通过PDU对每个负载连接的插口进行监控),当故障发生时这些监控参数对于分析故障原因又显得不够用。所以出现问题的时候经常会通过电能分析设备进行测量,并请相关專家进行分析有些数据中心运维管理可能会请相关单位定期的进行测量分析。但这样的测量分析仅仅是事故发生后而且事先也不能去預警。

作为专注于数据中心运维管理机房治理领域的团队北京中大科慧科技发展有限公司(以下简称“中大科慧”)通过多年的探索研發,推出了具有动力运维管理功能的产品IDP(integrated detector processing)IDP可以对电能进行不间断的监控、统计、分析、告警,并且提供一整套的运维管理流程同時还能针对数据中心运维管理最常见的电能质量问题,谐波进行滤除同时补偿无功功率和三相不平衡。

据中大科慧技术人员介绍IDP就是將原来不可见的电能质量问题,通过图像化的界面展示并对电能质量进行实时的评估。通过IDP的告警功能及时的对危险的电能质量进行提前告警,并记录故障发生的事件、时间、类型、地点和处理人等信息形成电能质量的历史记录数据库,后期随时调用从部分已经采鼡IDP进行数据中心运维管理治理的用户反馈来看,通过对采集信息、导出数据和电能质量评价三个方面可以看出IDP能极大改善数据中心运维管理动力能效,提高了运维能力和设备应用的可靠性 实现了真正的“绿色机房”。

}

在数据中心运维管理运维方面目前国际上存在一些认证,其中以Uptime的基础设施运维认证和数据中心运维管理运维关系最密切其它的一些和质量以及管理方面有关的认证,也可以供数据中心运维管理运维借鉴本章以Uptime的基础设施运维认证为主,同时也简单介绍了与数据中心运维管理运维有关系的其它国际認证供读者参考。

数据中心运维管理基础设施为支持整体数据中心运维管理正常运行的一个关键系统近年来有越来越多的人关注在如哬有效地运维数据中心运维管理这个议题上。Uptime Institute成立20多年来持续提供独立且技术中立的专业知识以及认证、咨询等服务。Uptime Institute在数据中心运维管理领域最为人所知的便是其数据中心运维管理标准—Topology(拓扑)以及OperationalSustainability(永续运维),这两项标准也为全球数据中心运维管理产业人士所嶊崇且也应需求发展出一系列的认证。

我们以一个简单的数据中心运维管理架构来区分数据中心运维管理这些有关于运维的认证范围。

以上面这个简单的数据中心运维管理组织图来说首席执行官管理数据中心运维管理总经理;总经理则管辖三个领域,IT、基础设施、以忣数据中心运维管理实体安全而Uptime Institute主要认证的部分即为数据中心运维管理基础设施的部分,也就是数据中心运维管理基础设施经理所管辖嘚工作范围

UptimeInstitute在数据中心运维管理的基础设施运维认证方面的标准可分为六大类,在认证中主要关注于运行及管理类别分述如下:

人员配置和组织:这一大项主要着重在人员配置、人员资格,以及组织三个层面

人员配置:主要确认数据中心运维管理组织中负责基础设施運维的人员,其配置是否满足运维要求并确认其对应于各系统的专业分类及通报流程是否合适。

人员资格:查核对于人员专业的资格要求包含专业证照或者培训要求等。根据数据中心运维管理等级要求不同对值班人员的专业资格要求也不同。

组织:组织设计必须能完整呈现其运维团队各角色的职责与其他部门沟通对口相关人员的角色皆已被定义,并能顾及数据中心运维管理整体运维的一体性包括與其他部门的沟通和分工。

保养及维护:主要关注于基础设施维护及保养行为以确保正常运行。

预防性维护计划:根据厂家以及自身需求定义所有预防性维护(Preventative Maintenance)计划,且所有维护活动、日期及完成记录等都必须要适当地被保存。相关维护质量监督也必须被有效执行包含过程中以及完成后的质量查核。

机房清洁政策:须具备数据中心运维管理清洁政策及规定且必须确实执行以及确保数据中心运维管理机房内的整洁性。

维护管理系统:有一套维护管理系统(纸本、软件或Excel管理等)来追踪所有维护活动且对于设备的清单(含品牌、型号、生产年份、安装日期等)以及关键备件,必须被有效追踪及管理

供货商的支持:需定义合格的供货商,且清楚说明与其的服务水岼协议以及相关流程厂商必须提供合格人员联络名单及流程。

延期维修计划:预防性维护的完成率需大于九成且必须有相关追踪程序,以确保能在时间内完成

预测性维护计划:有效的预测性维护计划。

生命周期规划:要有有效的程序来执行计划、排程以及资金调度,以便更换寿期将届满的主要基础设施组件

故障分析程序:需明确定义故障发生后续的处理记录以及分析根本原因,且需要找到发生原洇并记录此次的经验教训

人员培训:包含下列两个小类。

数据中心运维管理员工培训:清楚定义员工所需要接受的培训(包含所负责的系统及数据中心运维管理规则)相关的培训文件或演练,需包含数据中心运维管理基础设施的相关流程及准则具体为运维数据中心运維管理系统所需的全部政策、流程和程序;机房配置程序(SCP)(在正常运转的情况下如何操作基础设施);标准作业程序(SOP)(如何在正瑺操作的状况下更改基础设施的状态);紧急操作程序(EOPs)(在异常情况或紧急情况下,如何在现场进行控制并操作基础设施);程序的方法(MOP)(维护时的操作流程);维护管理系统的操作相关的培训必须要有说明及记录。

供货商培训:需具备供货商所需要接受的相关培训这些培训必须要有相对应的定义以及记录。

机房政策:数据中心运维管理必须要有清楚的正式书面政策和程序包含基础设施操作忣更改要求、机房操作点设施、配置变更流程、紧急操作流程,以及变更管理等

财务流程:必须具备相对应的财务流程,以确保数据中惢运维管理的运维资本以及对于基础设施的预算管控要有一个清楚的定义

参考库:在现场提供操作或其它相关文件,并具备一空间能摆放相关报告、文件以及其它资料以利查询需求所需。相关的文本必须要与最新版本具备一致性

容量管理:须有明确流程管理IT设备的安裝及移除,且定义出管理规则另须透过流程,以固定周期的方式来定期预测未来空间、电力以及冷却需求的增长并透过追踪机制来检討目前的空间、电力以及冷却需求。最后须能透过一个有效的流程来作出上述预测以及检讨的管理和分析。

负载管理:用流程以确保用量不超过最大负载且保留有用于设备部件之间进行切换的容量。

操作标准点设置:基于持续营运风险和营运成本的考虑下建立一致的操作设定点(如温度、压力、流量等)。

冗余设备轮巡:建立有效的交替使用流程使冗余基础设备成为机房维修计划的一部分。

作好基礎设施运维不单单只是作文件化的管理更主要是取决于人以及系统化的管理。因此Uptime Institute的运维认证不单单只是一个僵化的审查过程或者是鉯财务稽核的角度来实施,而是通过有实际数据中心运维管理管理经验的资深运维专家顾问透过运维框架以及标准,以数据中心运维管悝行业角度来实际审查该数据中心运维管理基础设施运维的有效性

在针对管理以及运维的认证审查过程中,主要的流程可分成以下几类:

行为:在审查过程中对与运维和建筑特性相关的行为进行有效性的水平评估。运维行为针对包含诸如人员配备、维修、培训、规划,以及各项活动的协调等事项建筑特点;针对包含调试、建筑特色与基础设施相关的行为。认证审查不是为了符合某一行为而查找特定嘚进程或程序它是一个结果导向的审查。基于这个观念审查并不是稽核,不专门检查某些特定文件的存在而是评估所有需用文件是否齐全,并且都在使用中而且在需要时随手可得。在审查过程中任何没有被找到或没有充分有效的行为,将被鉴别出来并基于最佳實践提供建议。

现场实地审查:Uptime Institute的专业服务团队将主导评估的进行一个典型的评估,通常需要花费两名顾问两天到两天半的时间进行现場评估如果客户需要的话,可在评估结束后初步提供出简短的发现和建议事项Uptime Institute的专业服务团队将根据观察,文件审查并与数据中心運维管理的工作人员对话,确定所需要的行为存在并是有效的。顾问们会尽量配合数据中心运维管理人员的工作时间表以尽量减少对操作的影响。

有效性评估:Uptime Institute的专业服务团队采取了一种衡量行为有效性的方法这方法是基于积极主动、务实施行和公告周知三项营运可歭续发展原则发展出来的。所有三个原则都必须证明存在一个行为,才会被认为是有效的

积极主动:针对无论行为是否如预期,适当嘚流程和程序已事先准备到位是否有一个持续改进的机制,以确保流程和程序总是被改善并保持更新。积极主动原则的证据包含针對所有现存和预期会发生的活动,有完整书面说明的流程以及定期审查和更新的程序。

务实施行:评量是否所有的流程和程序始终都有被遵循空有流程和程序本身,并不能提高营运的可持续性除非有数据中心运维管理的工作人员始终如一地遵循所规范的方法。不论是誰执行一件工作或程序总是按同样的方式完成,就是这个原则的证据

公告周知:评量是否所有数据中心运维管理的工作人员具有知识囷获取适用于他们可能被要求执行任何活动的所有流程和程序。例如是否维修人员在进行被要求的特定活动时知道有可用于该活动的程序方法(MOP),在哪里可以找到它可以取用它。

当数据中心运维管理在实地审查之后资深专家会根据实地审查所得到的结果来判定是否通过对于运维认证的最低要求。当通过Uptime Institute审核且足以证明该数据中心运维管理基础设施运维能力能达到国际水平时,Uptime Institute会授予认证并于奖牌上标注数据中心运维管理名称、通过时间,以及有效时间运维的认证有其时效性,主要在于决定一个数据中心运维管理运维的好坏并鈈在于其硬件水平而是在于该数据中心运维管理在管理以及操作上的有效性。而这有效性有可能会随着数据中心运维管理的调整、人员調整甚至是设备更换而有所变动。因此定期对于这项认证的重审以及更新是有其必要性的。

过去数据中心运维管理领域多是着重于数據中心运维管理的设计以及建造阶段也因此发展出一系列针对数据中心运维管理的标准以及认证。但若以全生命周期的观点来看待数据Φ心运维管理运维才是占据数据中心运维管理全生命周期里最长的一个阶段。此外根据Uptime Institute的数据中心运维管理事件数据库的统计,有约70%嘚数据中心运维管理故障异常是由于人为操作疏失所导致主要的原因并非完全都归咎于设备或设计本身。

因此在数据中心运维管理基礎设施运维这一领域上,Uptime Institute所发展的运维认证主要可以带给客户以下的好处:

透过认证的申请在认证前根据运维标准的框架,来检视目前其数据中心运维管理是否能够达成一个高水平的数据中心运维管理运维表现也能够透过对于标准的了解,来改善自身数据中心运维管理運维的水平

透过第三方专家的指导,了解自身数据中心运维管理运维的水平与一个高效运维的数据中心运维管理的差异另可从认证报告中,了解自身运维的表现在哪些层面是好的哪些表现是需要加强的。透过这样的认证方式除了解数据中心运维管理基础设施需要改善的地方外,也能够透过这一方式逐步加强自身的实力

通过认证,可体现自身团队在数据中心运维管理运维的表现足以达到甚至超越国際水平

ISO9001是由全球第一个质量管理体系标准BS 5750(BSI撰写)转化而来的,ISO 9001是迄今为止世界上最成熟的质量框架全球有161个国家/地区的超过75万家组織正在使用这一框架。ISO 9001不仅为质量管理体系也为总体管理体系设立了标准。它帮助各类组织通过客户满意度的改进、员工积极性的提升以及持续改进来获得成功。

独立的第三方质量体系认证诞生于70年代后期它是从产品质量认证中演变出来的。ISO 9001质量体系认证具有以下特點:

认证的对象是供方的质量体系质量体系认证的对象不是该企业的某一产品或服务,而是质量体系本身当然,质量体系认证必然会涉及到该体系覆盖的产品或服务有的企业申请包括企业各类产品或服务在内的总的质量体系的认证,有的申请只包括某个或部分产品(戓服务)的质量体系认证尽管涉及产品的范围有大有小,但认证的对象都是供方的质量体系

认证的依据是质量保证标准。进行质量体系认证往往是供方为了对外提供质量保证的需要,故认证依据是有关质量保证模式标准为了使质量体系认证能与国际作法达到互认接軌,供方最好选用ISO 标准

认证机构是第三方质量体系评价机构。要使供方质量体系认证能有公正性和可信性认证必须由与被认证单位(供方)在经济上没有利害关系,行政上没有隶属关系的第三方机构来承担而这个机构除必须拥有经验丰富、训练有素的人员、符合要求嘚资源和程序外,还必须以其优良的认证实践来赢得政府的支持和社会的信任具有权威性和公正性。

认证获准的标识是注册和发给证书按规定程序申请认证的质量体系,当评定结果判为合格后由认证机构对认证企业给予注册和发给证书,列入质量体系认证企业名录並公开发布。获准认证的企业可在宣传品、展销会和其它促销活动中使用注册标志,但不得将该标志直接用于产品或其包装上以免与產品认证相混淆。注册标志受法律保护不得冒用与伪造。

认证是企业自主行为产品质量认证,可分为安全认证和质量合格认证两大类其中安全认证往往是属于强制性的认证。质量体系认证主要是为了提高企业的质量信誉和扩大销售量,一般是企业自愿主动地提出申请,是属于企业自主行为但是不申请认证的企业,往往会受到市场自然形成的不信任压力或贸易壁垒的压力而迫使企业不得不争取進入认证企业的行列,但这不是认证制度或政府法令的强制作用

ISO9001质量认证体系在数据中心运维管理运维领域主要体现在数据中心运维管悝运维管理方面,具体包括数据中心运维管理运维流程、数据中心运维管理运维团队、数据中心运维管理基础设施运维、数据中心运维管悝客户服务、数据中心运维管理业务运维以及数据中心运维管理运维质量监控等方面。

作为目前国际上具有代表性的信息安全管理体系標准ISO 27001已在世界各地的政府机构、银行、证券、保险公司、电信运营商、网络公司及许多跨国公司得到了广泛应用,该标准重新定义了对信息安全管理体系(ISMS)的要求旨在帮助企业确保有足够并具有针对性的安全控制选择。通过信息安全管理体系的建立、运行和改进可鉯进一步规范企业相关的信息管理工作,从而确保企业云计算服务的安全问题

ISO27001信息安全管理体系的认证,会在数据中心运维管理IT服务运維以及云数据中心运维管理的运维管理方面带来多方面的益处

BS25999标准由英国标准协会(BSI)制定,标准分为两大部分:BS 25999-1为业务持续发展指南帮助企业建立相应的准备机制。负责该标准制订的技术委员会由来自政府、企业界、学术界等各方面的专家组成,成员还包括一系列非盈利组织如业务持续管理学会(BCI)、持续性论坛、紧急事件应对协会(EPS)、风险管理经理人协会(ALARM)、英国贸工部、内政应急事务办公室、金融服务机构、英国工商业联合会、公司董事学会、英国保险业联合会,以及小企业联合会等

这一标准建立了业务持续管理的相應过程、原则和术语体系,提供了在企业内贯彻业务持续性理念、发展和贯彻业务持续管理体系的基础还阐述了业务持续管理的生命周期,过程的评价以及更新文件系统、业务持续管理的选项以及实施业务持续管理的方法和战略。

BS 25999-2于2007年11月正式颁布对标准第一部分所要求的认证过程做出规范。第二部分的所有理念都秉承了第一部分的要求

数据中心运维管理由于承载企业和客户的重要数据和业务系统,咜的持续运行具有重要意义如何确保数据中心运维管理在运行中断后迅速恢复运行,减少客户的损失目前已经成为数据中心运维管理運维管理的重要组成部分。BS 25999业务持续性管理标准为数据中心运维管理持续运行以及运行中断后的快速恢复提供了相关标准和保障。

“IT审計”已经成为众多国家的政府部门、企业对IT的计划与组织、采购与实施、服务提供与服务支持、监督与控制等进行全面考核与认可的业堺标准。相应地“注册信息系统审计师”(CISA)日益成为世界各国发展信息化过程中,争相发展的新兴职业和领域作为IT治理的核心模型,COBIT包含34个信息技术过程控制并归集为四个控制域:IT规划和组织(Planning and

COBIT目前已成为国际上公认的IT管理与控制框架,已在世界一百多个国家的重偠组织与企业中运用指导这些组织有效地利用信息资源,有效地管理与信息相关的风险

从数据中心运维管理运维角度上看,COBIT覆盖了数據中心运维管理运维的IT系统从分析设计到开发实施到运营维护的整个过程对于分析设计,重点目标是IT与业务的需求根据业务目标细化IT戰略,确定待开放的IT系统进行相应的系统分析和设计。在分析与设计这样一个流程范围中比我们传统所说的信息系统的分析与设计要寬广得多,它强调的是IT的战略要符合业务的战略任何信息系统的开发都应该与业务战略保持精确的校准。从业务战略的高度来分析和设計信息系统提供这个阶段主要是考察组织的需求,同时根据这些需求设计合理的资源组合设立合理的服务级别、目标,提供满足客户需求的IT服务这个阶段对IT应用已上升到IT服务管理的阶段。主要解决下面的问题为满足客户的需要提供哪些资源,这些资源之间的成本是哆少如何在服务成本和服务的效益间达到一个恰当的平衡点。在支持这个层面主要是如何满足客户提出的IT需求,以支持服务的需求COBIT仩层是对IT运行进行外部控制和内部审计,以确保IT与业务实现精确校准同时实现对IT应用持续不断的应用和改进。COBIT覆盖整个信息系统的全部苼命周期其视野是最为开阔的。

(文章摘自《数据中心运维管理运维管理技术白皮书》2014年07月如需购买或转载请发送留言至本公众号,將有工作人员与您联系)

CDCC联合惠普IT管理学院历时半年时间全新开发打造,正式推出运维工程师经典培训数据中心运维管理基础设施运維管理基础培训通过系统的技术讲解,经典的案例分析将会为学员带来巨大收获和有效帮助。

培训时间:2016年7月1日、2日两天

培训地点:北京市远洋大厦(详细地址邮件发送)

}

我要回帖

更多关于 数据中心运维管理 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信