容灾备份
新闻媒体
关于同向
加入同向
联系同向

数据中心运维管理防微杜渐 容灾备份做到位

浏览次数:395    发布时间:2019-04-01 08:37:57    来源:中科同向

  去年6月底,北京亦庄某数据中心机房柴油机发生一起起火事故,所幸并未出现去年多家金融机构设备大规模宕机。本次起火事件,缘起亦庄地区发布的30天限电令,当地不少数据中心开始使用柴油发电机进行带载。

  亦庄电力公司对多家变电站进行改造,在进行改造期间,受限于用电单位务必将平日用电负荷减少、限制25%。于是,部分数据中心开始使用柴油发电机进行带载,以保障数据中心的正常运行。

  多家金融机构和73家村镇银行的所有设备宕机,服务全部中断长达7小时以上——去年亦庄某数据中心的断电事故,仍令人心有余悸。事后的调查发现,当时两台老旧的UPS负载过高,切到旁路,很快三台柴油发电机接连出现“失磁”报警,停止运行,导致机房全部设备断电,系统宕机……

 

数据中心容灾备份

 

  在大多数人的印象里一定会认为数据中心和火灾没有太大关系,因为数据中心里除了电子设备就是电子设备,再加上数据中心具有完善的消防监控系统,认为就算有些火灾隐患也很快就消去了。然而,实际恰恰相反,数据中心却成了火灾的高发行业。

  ✦2017年4月,拥有信息黄埔之称的北京邮电大学校园核心机房着火受损,众多北京高校校园网纷纷崩溃。

  ✦2015年10月13日,Windows Azure上海数据中心发生故障,是由服务器所在机房着火断电引起,导致Azure基础设施离线无法提供正常服务,受影响的用户包括金融、互联网、房地产。

  ✦2015年5月26日早晨,远在美国亚利桑那州平顶山的苹果工厂发生火灾,起火点位于该公司数据处理中心屋顶光伏项目;

  ✦2015年1月10日亚马逊公司正在美国弗吉尼亚州建设的一座数据中心着火。

  ✦2014年7月20日重庆农商行数据中心发生重大火灾,整个机房全部烧毁,直接损失达到一个亿以上。

  还有更多没有被媒体报出来,没有造成严重影响的火灾就更数不胜数了,作为高科技技术最为集中的场所,数据中心有各种各样高技术的消防监控系统,为何火灾还是屡禁不止?

 

  数据中心起火原因

  数据中心作为提供信息资源服务的基地,应具有非常好的机房环境、安全保证、网络带宽、主机的数量和主机的性能、大的存储数据空间、软件环境以及优秀的服务性能。

  数据中心火灾的主要特点是: 散热困难、烟气量大、用电量大、电气火灾居多、火灾损失大、扑救难度大、节点易燃烧。

  在数据机房发生的各类事故中,火灾事故约占80%左右。主要包括以下几种:

  ❶ 电子计算机本身起火;

  ❷ 配套设备或附属装置起火;

  ❸ 空调设备或电气设备起火;

  ❹ 外来火灾侵扰。

  对于数据中心发生的故障,行业专家认为故障多发的原因还是在运维管理上,正所谓“三分技术,七分管理”,数据中心的故障大多源自于人祸。据日本计算机制造商对用户所作的调查结果表明:

  ❶计算机故障占3.4%;2、交换器与配电箱故障占6.9%;

  ❷设备装配错误占10.2%;

  ❸调节器故障占10.3%;

  ❹火焰蔓延引起的第二次火灾占17.1%;

  ❺ 与计算机无关的其他原因造成的火灾占52.1%。

 

  运维管理防微杜渐

  据悉,电力成本占数据中心整个支出成本的50%-70%,其中一半是机器设备散热需要的空调费。行业数据显示,数据中心设备运行时的最佳温度为22℃,上下浮动不能超过2℃。在基准温度情况下,温度每升高10℃计算机的可靠性就下降25%,这就需要在选址和冷却系统上下功夫。

  工欲善其事必先利其器。可靠的电力保障与高效节能的冷却系统正是数据中心提供稳定服务的基础,然而光有硬件和技术支撑还远远不够。

  运维工作对数据中心来说至关重要,关乎整个数据中心业务的正常运行。一旦突发故障,具备一定的专业技能和应急能力的运维团队可及时对故障原因作出准确判断并迅速找出解决方法,避免宕机风险,从而达到防微杜渐的效果。

  数据中心的日常业务运维主要包括日常检查、应用变更、软硬件升级以及应对突发故障四大方面内容。其中,日常检查作为业务运维的基础性工作,其意义非同小可。

  除了日常运维,数据中心的应急预案也很重要,建设容灾备份系统正是其重要的环节。

  其实,我国早在2007年时就颁布了首个关于灾备的国家标准《信息系统灾难恢复规范》。现在的数据中心承载的业务越来越重要,引入有效的灾备技术,使用专业的运营商提供的灾备软件。

  比如,业内许多家企业选择了中科同向的备份软件,以CDP数据保护技术为支撑,在性能恶化时提出预警,使企业能提前感知并采取相应的修补动作,避免宕机事件的发生,能减少数据中心发生故障时带来的损失。