机房应急预案

时间:2025-05-03 09:11:46 应急预案 我要投稿

机房应急预案(经典)

  在学习、工作、生活中,有时会出现一些意料之外的事件或事故,为了减小事故造成的危害,往往需要预先编制好应急预案。那么应当如何编制应急预案呢?以下是小编收集整理的机房应急预案,欢迎大家分享。

机房应急预案(经典)

机房应急预案1

  为确保办公室机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,特制定本预案。

  一、机房日常维护

  1、建立健全机房管理制度

  (1)在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除网络故障隐患。

  (2)节假日期间信息技术人员轮流值班,负责处理有关异常情况。

  (3)机房采取来人来访登记制度,未经允许,无关人员不得进入机房区域。

  2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房入口处24小时监控录像等措施。

  3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。

  4、信息技术人员对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保办公室网络的`正常运行。

  二、机房突发事件应急处置方案

  1、电源系统应急预案

  (1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:

  (2)当机房发生市电供电突然停电或是电源异常时。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。

  (3)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。

  (4)恢复供电后,严格按照操作程序逐步恢复机房设备,以防瞬间电流过大造成设备损坏。

  2、网络和服务器络系统应急预案

  (1)发生网络故障时,首先检查机房设备情况,确定网络故障的原因,然后联系网络维护人员,及时处理和排除故障。

  (2)当确认原因为短时间无法恢复,应该及时向负责领导汇报,然后再联系维护人员,及时处理故障。

  (3)当人为或病毒破坏的故障发生时,具体按以下顺序进行:判断破坏的来源及性质,断开影响安全与稳定的信息网络设备,断开与破坏来源的物理网络连接,然后再联系维护人员,及时处理故障。

  (4)发生服务器系统故障后,应立即向相关领导汇报情况,同时安排人员将故障服务器脱离网络,保存系统状态不变,保护原始数据。

  在确认安全的情况下,重新启动故障服务系统:若重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即 联系相关维护人员,请求技术支持,做好技术处理。

  处置结束后,技术人员应将处理过程记录下来,以方便日后对此问题的处理。

  3、消防和防雷应急预案

  (1)上班工作时间发生火警,还在机房工作的人员应及时紧急撤离,并立刻拨打119报警。在确保自身安全的情况下,应尽量使用灭火器进行灭火,减少电子设备的损坏。同时采取关闭电源总闸等措施,尽量减少可能造成的损失和破坏。

  (2)非工作时间或节假日休息时间值班人员发现火情后,要立刻拨打119报警,并立刻通知相关部门和领导,做好火灾的处置工作。

  (3)火情结束之后,机房相关人员应全体赶赴现场,同时立即联系相关网络公司和设备相关厂家,及时评估事故损失情况,研讨恢复网络系统正常运行的最佳解决方案。

  (4)遇雷暴天气或接上级部门雷暴气象预警,应关闭所有服务器,切断电源,暂停内部计算机网络工作。雷暴天气结束后,及时开通服务器,恢复内部计算机网络工作。因雷击造成的损失,应及时进行核实、报损,并将详细情况向部门领导汇报。

  4、自然灾害和盗抢应急预案

  (1)发生自然灾害后,首先应该组织人员撤离现场。当确认灾害不会造成人生伤害后,在回到机房检查设备,立刻向上级领导汇报,并联系相关网络和设备厂家,积极做好灾后恢复工作,确保在最短时间内

  恢复机房正常运行。

  (2)发生盗抢事件后,要保护好现场然后报警,并向上级领导汇报情况。待现场处理完毕后,要组织相关人员估计损毁情况,并联系相关网络和设备厂家,积极做好恢复工作。

机房应急预案2

  高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

  1.主机和运维管理制度简介

  超级计算机是功能最强、运算速度最快、存储容量最大的一类计算机。目前只有少数国家掌握研发技术,系统造价非常昂贵,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。上海超级计算中心作为上海信息港主体工程之一,国家和上海市政府投资先后引进神威-I超级计算机、神威-64P集群计算机、曙光4000A超级计算机系统并投入商业化运行。

  上海超级计算中心自20xx年正式开通至今,这些高性能计算机系统已安全、稳定运行七年多时间,上机用户取得了丰硕的科研成果和社会效益。在这七年中,为保障这些高性能计算机系统安全、稳定、不间断地运行,技术支持部在中心引进第一台高性能计算机--神威-I超级计算机系统的同时,建立了机房应急预案、运行记录、设备运行参数等基础运维制度,在二期引进曙光4000A超级计算机系统过程中,不断完善原有运维制度,并针对该主机系统特点编写了大量操作方法和应急预案。

  中心自20xx年获得ISO27001(BS7799)信息安全认证以来,技术支持部根据其要求规范了文档体系建设,形成了机房管理制度、应急预案、操作方法、运行情况记录的四大类运维文档。

  正是这些运维管理制度的不断完善和有效执行,才确保了资产价值高、服务对象广、社会影响大的中心主机系统安全、稳定运行,保障重点项目、用户服务的连续性。

  2.应急预案重要性

  上海超级计算中心机房运维管理文档划分为机房管理制度、应急预案、操作方法、运行记录共四大类(如图1所示)。

  图1应急预案分类

  应急预案在应急系统中起着关键作用,它明确了在突发紧急情况发生之前、发生过程中以及刚刚结束之后,谁负责做什么、何时做,以及相应的策略和资源准备等。它是针对可能发生的重大事故,按照其影响和后果严重程度,在应急准备、响应、操作各个方面预先做出的详细安排,是开展及时、有序和有效事故应急工作的行动指南。因此,应急预案在这四类运维管理文档中处于最为重要的地位。

  3.应急预案分类

  应急预案按重要性和事件种类,可以划分为消防预案、断电预案、空调预案、其他预案共4种,预案各文档之间彼此独立又互为关联,具有非常强的可操作性。制定预案的指导原则是尽一切可能,最大限度地确保向用户提供的服务不中断。在紧急事件发生的情况下,保证核心设备连续运行,避免存储数据丢失。在事件处置完成后,能快速恢复高性能计算服务。

  3.1消防预案

  消防预案是主机房最重要的应急预案。该类预案根据《上海超级计算中心灭火和应急疏散预案》的原则并结合主机房主机设备和消防设备的运行特性而制定。主要由《主机房消防应急预案》和《主机房气体喷淋消防系统启动撤离及处置应急预案》2个文档组成。

  消防应急预案:该预案着重规范了火警事件发生后,所有主机维护人员如何根据所属区域和现场情况,判断和选择正确的处理方法,同时配合中心物业人员处置,降低事件带来的影响。

  对于设备发生烟雾,主机维护人员协同物业人员寻找烟雾点予以切断相关区域电源;当设备发生可以控制火情,协同物业人员灭火;当主机房发生火灾而无法控制,应采取施救方法等措施。

  气体喷淋预案:该预案描述主机房气体喷淋系统启动的响应和确认并具体规定了撤离机房路线、善后处置。

  这两个预案中,消防应急预案作为消防预案的主体,涉及到如何处理与消防有关情况的各个方面。气体喷淋预案是主机房发生重大火灾时应对的最终灭火手段和人员撤离引导方法。

  3.2断电预案

  断电预案的重要性仅次于消防预案。该类预案根据中心供配电系统实际情况和各种断电影响范围下对主机运行的最小保障要求而制定的。主要由《主机房断电应急预案》、《曙光4000A超级计算机系统紧急关机操作方法》、《曙光4000A超级计算机系统双路断电关机操作方法》等多个文档组成主机房断电应急预案:该预案用于断电情况下,主机维护人员如何与中心物业部门联系控制主机房供电情况,并且负责对主机系统运行受断电影响程度做出正确判断。指导维护人员按影响程度,分别选用预案中对应的操作方法。本预案在所有断电预案中起指导思想作用。紧急关机操作方法:该预案制定了主机系统在紧急情况下,最快速度关机的操作步骤。主要用于发生烟雾、明火或消防、断电预案需在数分钟内关机断电的事件。

  双路断电关机操作方法:该紧急操作预案主要用于在外界双路供电全部中断情况下的操作。

  该预案的关机原则是:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证存储节点、SAN和SCSI存储设备、工程用户的计算节点的运行,尽可能减少关闭范围,以确保能在恢复供电的情况下,主机尽快恢复正常运行状态,减少影响范围。

  3.3空调预案

  超级计算机系统在运行中消耗大量电能,在

  提供高性能的计算能力同时产生大量的热量,必须采用专用空调系统,以保持主机系统适当的温、湿度、空气洁净度等运行环境需求。因此,专用空调系统与主机系统密切相关,空调预案是主机房必备的应急预案。

  制定该预案的`原因在于,断电情况下,空调与主机系统存在互相牵制的现状。主机和空调系统均为外界双路供电,主机系统配有UPS不间断电源系统,而空调系统无UPS支持。在双路停电情况下,主机系统可获得UPS电池组支持运行若干分钟,空调系统无UPS支持只能停机。由于在无空调冷却情况下,主机系统会在短时间内积聚大量热量导致超过运行警戒温度,主机系统在有可供电余量的情况下,仍将被迫关机。因此,确保空调中断情况下的主机运行环境是该预案的制定原则。

  预案根据各台主机配备的空调系统特点制定,由《曙光机房空调系统故障应急预案》和《神威机房空调系统应急预案》2个文档组成,这里仅介绍曙光机房空调系统应急预案。

  该预案的第一步:考虑增强主机系统散热效果,采用打开主机机柜前后门,和机房周边木门,在通风道上布置有UPS支持的应急风扇,形成空气对流,带走热空气,从而增强主机系统散热效果,降低升温速度。

  该预案的第二步:在采取上述措施并持续升温到一定温度之上的情况下,考虑紧急关闭部分或全部计算节点,减少热量生成,确保主机系统的核心存储和网络系统不受影响,确保空调系统修复后,主机系统能快速恢复运行。

  3.4其他预案

  除了固定的三类预案之外,技术支持部还根据主机系统实际运行中出现的各种意外情况,随时制定具有针对性的预案。

  如《大楼顶棚坍塌应急操作方法》的制定,就

  是由于20xx年1月连续发生雨雪等灾害性天气,中心大楼顶棚大量积雪且难融化,物业预计存在情况继续恶化,有发生顶棚坍塌事故的可能,一旦发生将影响一楼主机运行。

  针对该突发的隐患,中心技术支持部制定应急操作方法,对维护巡查频度范围、漏水可能发生位置、如何处理受漏水影响的主机设备等操作步骤进行严格界定。即使在最后,中心大楼顶棚经受住灾害性天气的考验,该预案并未发挥作用,这正体现了应急预案的备而不用的特点。而且通过各种意外

  情况的迅速分析、应对和实践操练,不断锻炼主机维护队伍,使之走向成熟。

  4.在实际案例中,应急预案的作用

  在主机系统年复一年的运行中,我们希望这些设备正常稳定运行,应急预案永远不会被使用,然而在实际运行中,总免不了因突发事件执行应急预案。

  而每次突发事件是检验应急预案制定是否科学、有效的最好证明。

  4.1双路断电,UPS正常运行案例

  20xx年8月某天,因打雷导致供电一路跳闸自动换至另一路供电,曙光机房2台空调掉电。

  主机维护人员立即按应急预案操作,电话通知物业人员恢复空调运行,恢复过程中所有空调相继出现高温报警,机柜液晶屏平均温度35度,开启全部曙光机柜前后门,打开神威-曙光玻璃门并调集应急电扇,于12:45恢复正常。

  12:50再次出现双路供电中断,曙光空调因无

  UPS支撑全部断电,启动断电应急预案,开启

  5、6号木门,开启神威机房全部空调,布置电扇,将冷气导入曙光机房,热量从6号木门的外部通道排出,选择性杀除部分作业,至13:05供电恢复,曙光空调开始工作,13:20环境恢复正常。全机在此过程中,正常运行未停机,只损失了部分不重要的作业。

  4.2单路断电,UPS失效案例

  20xx年8月某天,因低压配电柜开关至UPS房间X-JM柜电缆发生相对地短路,造成UPS机组逆变器自身保护动作,关闭UPS机组,导致曙光主机系统失电。

  全机掉电后,主机维护人员迅速按应急预案

  手工关闭所有电源开关。10:30恢复供电,温湿度恢复正常后,全机加电,恢复过程中修复

  storage00

  1、00

  5、010三个盘阵的9个用户文件系统,修复15个节点加电故障,除cnode00

  9、anode029电源

  环境模块故障,于当日15:10全机系统恢复正常。

  由于处置及时,主机受影响范围很小,在恢复供电后数小时即成功开启全系统。

  5.随时保持应急预案的适用性

  主机长年累月的运行,故障和问题的发生,往往是必然的,也是客观、无法回避的。因此,要求在维护工作中,预先考虑到可能的问题和故障,制定完善的应急预案。应急预案不可能包含所有的故障和问题,但应根据维护经验,尽可能地设想各种危机情况下的处置措施。做到预想到各种可能的问题。

  而在形成应急预案后,更重要的是持续地在

  运行中加以完善、测试和演练,尽可能模拟实际情况,做到即使只有1名维护人员在场,也能在真正发生危机时,以最短时间独立处置故障。

  以目前中心的主机运维工作为例,三年内,仅断电预案就已根据实际运行情况的变化,制定并更新了5~6个版本,针对夏季突发断电也有专用预案。这样的措施,直接保障了20xx年8月突发断电事件中的主机连续运行。而20xx年8月的突发断电事件中,由于预案在之前刚根据实际情况进行过演练和修改,主机维护人员仅用半小时就完成所有应急操作动作,整机仅有个别设备故障,确保了主机设备未因突发断电而发生大范围损坏现象,恢复供电后直接完成开机。

  实践证明,完善而适用的应急预案能保障向用户提供稳定的高性能计算服务。

  6.结束语

  完备而适用的应急预案能有效降低主机系统因意外事件发生带来的运行风险,对可能发生的意外来说,是一种事前防范措施。但对整个主机系统产品而言,是一种事后防范措施。如果主机系统生产厂商能把这些防范措施纳入整个系统设计过程中,使操作方法更加简便、更趋于人性化,这将帮助主机维护人员更为妥善处理意外事件,用户得到更为稳定的高性能计算服务。我们相信未来国产的高性能计算机能做到这一点,期待着这一天早日到来。

  (为帮助了解,特在附录中节选部分双路断电关机预案内容)

  附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

  曙光4000A超级计算机系统双路断电关机操作方法

  注意:

  1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

  2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

  1.断电确认及操作:

  主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

  1.1打开机房门便于散热,..

  1.2机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

  机房的温度尽量降低。

  1.3打开所有机柜前、后门。

  1.4密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

  2.紧急关机条件确认:

  在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

  2.1自断电发生起,已达到XX分钟仍未恢复供电;

  2.2采取上述紧急通风措施,节点温度持续上升,超过XX℃;

  可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

  3.紧急关机操作步骤:

  注意事项:

  3.1..

  3.2关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

  业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

  3.3应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

  点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

  第一级操作:(首先执行)关闭主机系统外围设备..

  第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

  关闭非重要用户计算节点(ABC组)..

  第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

  关闭所有用户计算节点(D组)..

  第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

  关闭SAN存储设备和LSF数据库服务器..

  第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,完成关机操作)

  关闭SCSI磁盘阵列和所有存储节点..

  特别关注:

  1.如时间非常紧急,UPS电池低于XX分钟:

  直接执行关机脚本:..

  此脚本可分别将计算节点、接入节点、存储节点进行关闭。

  2.如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX),直接拉闸操作。

  (上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

  3.如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

机房应急预案3

  第一条:机房意外停电后,首先确定停电的范围以及受影响的设备范围。

  第二条:确认停电的范围为本公司或本机房,应立即联系工机科电话汇报。估算电力可能恢复的`时间,并通知直接上级。

  第三条:如果确认停电的时间在1个小时内,可以在UPS正常供电的时间内,等到电力恢复。如果不能确认在2个小时内恢复供电,需及时到达现场。做好各设备的电源停电准备。在UPS供电达1.5个小时后,严格按操作手册停掉存储和各应用服务器的电源,最后停核心交换机和路由期。等待电力恢复,电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障,立即汇报给机房电源维护负责人。

  第四条:机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向直接领导汇报,马上联系相关厂家,如有可能请厂家立即到现场支持。第五条:将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。

  第六条:等各厂家和相关的人员到齐后,商议设备恢复时因注意的事项,并形成相关文档。

  第七条:电力室恢复供电后,先不要急于给电源柜加电,等待10—20分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。

  第八条:供电正常后,确定设备处于下电状态后,打开电力柜的总控开。第九条:根据设备加电顺序,启动分项空开。第十条:设备加电顺序,网络交换类设备正常后再给磁盘阵列柜加电,存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电)。第十一条:设备启动正常后,开始启动数据库。第十二条:数据库启动正常后,开始启动中间件服务器。第十三条:中间件服务器正常后,启动应用程序。

  第十四条:机房设备进行全面点检,确认所有设备运行和服务正常。

机房应急预案4

  机房是我单位的重要场所,重要仪器、设备相对集中,一旦发生事故,会造成严重后果 。为此特制定本应急预案。

  一、触电

  (1) 一旦发生触电事故,应迅速安全切断电源,切忌直接接触触电者。

  (2) 即刻拨打紧急电话120并通知相关领导,同时开展现场应急救护 。

  二、火灾

  1、报警程序:

  即刻通知领导及相关部门,根据火情大小如需报警立即就近用电话或手机报告消防中心(电话119).。

  2、组织实施:

  机房管理员一旦发现火情后,应即刻切断电源,并使用灭火器扑救起火设备。

  三、空调漏水

  若空调系统出现渗漏水,应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时临时用电扇进行降温。

  四、设备发生被盗或人为损害事件

  ( 1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告中心负责人,同时保护好现场。

  ( 2)中心负责人接报后,通知保卫处,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的.影像记录和文字记录。

  ( 3)当事人应当积极配合公安部门进行调查, 并将有关情况向领导汇报。

  五、机房停电

  (1)接到长时间停电通知后,应及时发布相关信息,部署应对具体措施。

  (2)如遇临时停电,且停电时间在3小时之内,管理员要检查UPS是否正常工作,以确保机房设备的正常运行。。

  六、网络故障

  (1)发生通信线路中断、路由故障、流量异常等故障后,网络管理员应及时查清通信网络故障位置,隔离故障区域,组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

  (2) 事态或后果严重的,应及时报告领导并请求协助解决。

  七、不良信息和病毒事件

  (1)发现不良信息或网络病毒时,管理员应立即断开网线,终止不良信息或网络病毒传播,并报告。

  (2)中心负责技术人员应采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。

  (3)事态或后果严重的,应及时报告相关领导以及相关部门。

  八、服务器软件系统故障

  (1)发生服务器软件系统故障后,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;

  (2)若重启失败,应立即安排备份服务器启用,并请求技术人员支援,作好技术处理。

  九、注意事项:

  第一、机房管理员要加强日常监控,及时处理、消除及上报安全隐患。

  第二、备齐安全相关装备。

  第三、及时做好备份。

机房应急预案5

  计算机机房作为所有业务、应用系统的核心,一旦计算机机房发生突发事件,将对单位的数据等造成严重损失。为此,特制订机房突发事件应急预案。

  一、机房突发事件定义

  机房突发事件是指由特殊原因引发威胁机房安全并且不能通过日常维护手段解决的事件。比如,火灾、漏电、断电等非人为或者人为的事件,重大突发事件发生后,应立即组织现场救护或临时处置,控制事态发展,最大限度地减少损失和影响。

  二、机构和职责

  机房突发事件应急小组单位领导:

  机房突发事件应急小组部门领导:

  机房突发事件应急小组成员:

  各责任人职责:

  应急小组单位领导:负责单位层面及范围内的决策与领导。

  应急小组部门领导:负责部门层面及范围内的决策与领导并组织实施突发事件预案。

  应急小组成员:按岗位职责分工,听从指挥,服从安排全力以赴解决突发事件。

  三、突发事件报警

  应区分原因在第一时间报警。

  自然灾害(火灾),拨打火警电话:119人为事件(非法盗取、攻击等)拨打匪警电话:110人员伤亡,拨打急救电话:120其他时间(断电等),拨打值班电话:

  四、突发事件处理

  突发事件发生后,应立即启动应急预案。

  1、失火、漏水:

  视事件的紧急程度,应急小组成员要在领导的'指挥下,有组织、有顺序的备份数据、关闭服务器的电源;组织人力转移设备。如果自动设备未能正常启动,应在组长安排下首先切断机房的水、电路,组织人力采用灭火器等灭火设备人工灭火,同时要在第一时间报警。

  2、断电:

  在城电断电的情况下,机房的备用电力将发挥作用,电力供应最长可持续4小时。由于机房空调没有备用电力,如确认是供电局断电,应立即联系发电机发电;如果不是供电局断电,而是由于办公楼电力线路故障引起的断电,应立即通知电工查找原因,尽快排出故障。如果无法尽快恢复供电,在电力延续期间,应尽快结束未执行完毕的任务,如无法完成需及时备份数据,同时应关闭所有非必须服务器,尽量不让机房温度过高,保证网络设备的正常运行,以便保障集中在单位的应用系统能正常使用。

  五、恢复生产

  突发事件结束后,有关人员应首先对现场进行清理,汇总损失情况并上报各级领导。紧急召开专项会议分析损失情况,制定数据恢复计划。设备损失的要及时更换设备,保证恢复计划的顺利进行。

  恢复生产后,系统管理员应对各系统进行自查,上报书面报告,并由部门领导汇总后上报单位领导。

  机房管理员在恢复生产后要及时检查各项维持系统,如UPS、灭火器、漏水、漏电探测器等是否正常运行,应及时更换受损的元器件,补充灭火器的填充物。

机房应急预案6

  为更好的应对机房停电此类突发事件,提高处理各类停电事件的能力,建立健全可靠的应急机制,最大限度地降低各类停电事件对公司各部门的影响,特制定《杭州博日有限公司机房停电事件应急预案》(以下简称预案)。 1.2工作原则

  (1)预防为主。立足安全防护,加强预警,重点保护公司重要系统信息,数据安全。 (2)快速反应。发生突发事件时,及时获取充分而准确的信息,迅速处置,最大程度地减少突发事件影响。

  (4)坚持“统一领导、协调配合、明确责任、坚守岗位”的原则。 1.3适用范围

  所有机房临时停电,突发停电以及较长时间停电的事件。 2.组织机构及职责

  2.1组织机构(联系人名单及联系方式每半年更新一次)设备计量课主要联系人及联系方式Helpdesk:分机:XXXX。(7 X 24工作)各主要设备供应商联系人及联系方式:2.2各组织机构职责

  1)设备计量课应尽可能及时通知所有部门停电信息,且准备好应急措施。

  2).设备计量课应及时做好停电应急措施,通知各相关部门做好重要数据备份,并通知到机房设备供应商,同时做好拉闸限电的准备。为保障停电期间和恢复供电后机房所有设备正常运行,设备计量课所有相关人员在此期间必须保持随时待命状态。

  3).机房设备供应商应做好相关设备技术支持工作,若是计划内停电,应提前对机房设备做好停电应急方案,且在停电至恢复供电,所有设备恢复正常期间保持随时待命状态,重要关键设备,须有技术支持人员现场侯命;突发临时停电应尽可能做好远程技术支持工作。

  3.设备计量课应急预案

  3.1机房长时间停电应急预案

  ⑴接到长时间停电通知后,应询问停电原因及具体停电时间并及时通过邮件发布或电话通知停电公告,要求各部门尽可能在停电前停止业务、保存数据,关闭所有能关闭的用电设备。 ⑵根据停电时间长短情况,协同有关部门部署应急措施,检查应急设备是否正常,若时间条件许可模拟停电测试应急设备性能。

  (3)对机房设备用电做好统计,做好拉闸限电预案。

  (4)各相关技术支持人员部署到位,确保停电期间重要系统和设备运行正常,以及恢复供电后所有系统,设备运行正常。 (5)通知相关部门,停电期间加强对存在安全隐患的设备及区域的巡查(如电梯间,水房等),保障公司人员和财产安全。

  (6)机房管理人员详细记录事件原因及此期间采取的应急措施,备案。 3.2机房突发性临时停电应急预案

  (1)相关人员发现突发性停电时应立即报告部门领导,及时了解停电原因及停电时间,并立即检查机房设备是否运行正常,检查各系统是否运行正常,同时查询机房设备相关记录,计算UPS当前状况下可供电时间,并向相关部门领导汇报。 (2)告知各业务部门停电相关信息,判断停电时间长短做好相应应急措施,提醒各部门做好数据备份以防万一。

  (3)通知相关部门检查存在重大安全隐患的设备运行情况(譬如电梯,水房等),保障公司人员和财产安全。

  (4)通知IT部门机房管理人员及机房设施相关人员进入紧急待命状态。

  (5)恢复正常后,查明停电原因,记入机房安全管理日志。 4.培训和演习4.1培训

  IT运维部门及机房相关人员每年至少开展一次机房停电等突发事件处理的'培训,提高机房管理人员及其相关人员的应急能力。 4.2预案演习

  各应急组织机构每年至少安排一次演练,通过演练发现应急工作体系和工作机制以及各备用设备,系统存在的问题,不断完善应急预案,提高应急处理能力。

  5.附则

  5.1预案更新

  本预案结合演练和实施情况,及时进行修订和完善。 5.2责任与奖惩

  各应急机构对在应急事件处置中作出突出贡献的集体和个人,提出表扬和奖励;对玩忽职守,造成不良影响或严重后果的,按有关规定提出处理意见,并追究其责任。 5.3制定和解释

  本预案由设备计量课制定并解释。 5.4本预案实施或生效时间

机房应急预案7

  第一条 机房突发事件

  包括网络设备或服务器故障、自然灾害(水、火、电等)造成的.物理破坏、人为失误造成的安全事件等等。 针对突发事件的预防措施如下:

  建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。

  第二条 机房漏水应急预案如下:

  1、发生机房漏水时,第一目击者应立即通知机房管理人员。

  2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。

  3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。

机房应急预案8

  第一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。 针对突发事件的预防措施如下: 建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。

  第二条 机房漏水应急预案如下:

  1、发生机房漏水时,第一目击者应立即通知机房管理人员。

  2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。

  3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。

  第三条 机房火灾应急预案如下:

  1、完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品进入机房。

  2、机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源。

  3、一旦发生火灾,迅速切断机房电源,避免灾情的`扩散,并迅速和保安部联系必要时立即报火警。

  第四条 机房停电应急预案如下:

  1、接到停电通知后,应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求在停电前停止业务、保存数据。

  2、机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作15分钟以上,保证员工工作的数据及时保存。

  第五条 通信网络故障应急预案如下:

  1、发生通信线路中断、流量异常等故障后,发现状况的员工或部门领导应及时通知网络管理员。 2、网络管理员了解情况后,迅速组织检测故障区域,并作相关故障处理,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

  第六条 服务器故障应急预案如下:

  1、机房管理人员每日检查机房内各服务器状态。

  2、定期备份数据服务器数据。并将备份资料拷贝到移动设备。服务器出现严重硬件故障时启用备用服务器以保障正常运转。

机房应急预案9

  信息中心机房是就业中心开展各项工作的重要保障,也是重点消防部位。为了应对消防事故的发生,特制定以下应急预案:

  一、机房消防安全坚持“标本兼治、综合治理,防消结合、预防为主”的`基本原则,坚持严防死守,确保万无一失。

  二、加强单位职工的安全教育,全面提高应对火灾的能力和心理素质,把损失和危害减少到最低程度。

  三、加强领导,健全机构,成立机房消防安全责任小组。 组 长:

  副组长:

  责任人:当班人员、信息中心工作人员

  四、正确处置消防事件:

  1、发现火情后,迅速切断电源,利用就近灭火器灭火;如不能及时控制、扑灭火灾,立即启动应急预案,以最快的方式向上级报告,并视火情立即拨打119报警;

  2、接到火警后,组长、副组长及工作人员应在最短时间内迅速赶赴现场进行扑救;

  3、及时抢救重要设备,并引导人员疏散自救。

  4、一旦有人受伤应及时实施抢救,并及时拨打120请求救护支援;协助医护人员对受伤人员进行紧急救护等;

  5、火警解除后,及时保护现场,看护设备,防止次生事故发生,并及时向上级汇报火情和损失,配合相关人员进行事故调查。

  五、注意事项

  1、避免人身伤害,扑救要在确保人员不受伤害的前提下进行。

  2、火灾第一发现人应查明原因,如是电源引起,应立即切断电源。

  3、逃生时应尽量采取保护措施,如用湿毛巾捂住口鼻,用湿衣服包裏身体。同时启用消防应急通道,严禁拥挤、阻塞和跳楼、跳窗等事件发生。

  4、坚持预防为主,坚持安全值班巡查制度,严守机房消防安全管理制度,保持通信工具畅通,发现隐患及时上报处理。

  6、认真分析事故原因,总结经验教训,虚心接受有关部门的检查、指导、批评和教育。

机房应急预案10

  第一章 总则

  第一条 为规范我所网络中心机房设备管理,提高处理机房突发事件的能力,形成科学、有效、反应迅速的应急工作机制,确保重要计算机信息系统的实体安全、运行安全和数据安全,最大限度地减少突发事件造成的危害,根据《中华人民共和国计算机信息系统安全保护条例》、《信息化建设员工遵循守则》及《企业信息安全管理制度》等相关管理规定等,制定《网络中心机房应急预案及管理办法》(以下简称管理办法)。

  第二条 本文件适用于有计划性、有预防性地管理我所的网络中心机房以及发生和可能发生的与机房有关的突发事件。

  第三条 信管部负责编制、修订网络中心机房管理办法及所辖范围内突发机房事件应急预案。

  周期性或即时性地向局域网用户发布系统安全警示;对异常流量来源进行监控,并妥善处理各种异常情况。及时组织专业技术人员对所辖范围内机房突发事件进行应急处置;负责调查和处理机房突发事件,及时上报并按照相关规定作好善后工作。

  第二章 中心机房管理办法

  第四条 机房内的所有设备需要定期保养,应指定人员做维护、清洁工作,做到两天一收拾,一周一打扫;严禁将各种食物、饮用品带入机房,在机房内禁止吸烟。

  第五条 计算机设备维修工作由专门人员进行,管理人员应把设备的检修情况记录在相应的设备卡上,以便统一归档管理。如发现机房设备故障应及时向上级领导报告,并负责计算机及外设的日常维护与排除故障,在遇到设备保修范围内的故障时,应及时催促供应单位上门或将机器送修;

  第六条 系统管理人员必须严格遵守有关机房、设备及系统运行管理规定,不得在机房内从事与系统管理、运行维护、系统安装和调测等无关的工作;

  第七条 如其他人员需使用机房内设备应向机房负责人提交申请,经主管人员审核签字后,将书面申请提交信管部存档后方可借用机房内的设备;

  第八条 做好防火、防雨、防湿、防盗工作,注意用电安全;机房内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标准要求;

  第九条 系统管理人员应定时对机房供电系统及其他运行中的系统、设备进行巡视和检查,建立档案,做好系统日志。要对发生的故障以及排除故障情况做好详细记录;机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应机房设备正常工作半个小时,保证机房设备的数据及时保存。

  第十条 要统一管理机房内的设备,计算机及其相关设备的驱动程序、保修卡等随机文件与资料要保存完整。要明确专人负责计算机文档、信息化等资料的保管,要做到资料齐全,存放安全;

  第十一条 机房内的交换机和服务器系办公自动化的关键设备,任何人不得自行配置或更改系统参数;

  第十二条 要做好机房的安全工作,对服务器的各种帐户、密码严格保密。对网络运行理,设备维修维护、系统或设备安装等进入机房,必须由机房管理人员陪同进入,做好登记,并配合项目的实施。

  第十七条 进入机房的设备应在进入机房前拆除外包装,以保证机房环境的清洁和安全。

  第十八条 严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。

  第三章 机房用电管理规定

  第十九条 机房内提供的UPS电源只允许为主机、服务器、网络及存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。

  第二十条 严禁擅自切断供电系统,确因工作需要断电时,首先应做好相应准备工作,经部门领导批准,然后给所有部门发放断电通知,最后方可实施。

  第二十一条 机房内安装用电设备或有用电需求的项目时,必须经过专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或符合要求后工程才能实施。

  第四章 机房施工管理规定

  第二十二条 任何进入机房的施工,施工单位必须指明施工管理人员。

  第二十三条 施工人员进入机房,必须遵守机房有关管理规定,不得携带与施工无关的物品进入机房,并自觉接受保安人员或机房管理人员的管理、监督和检查。

  第二十四条 施工人员未经许可不得进入非指定工作区域,施工前须布置适当的防护设施;施工人员在现场严禁吸烟,不得在机房的任何地方坐卧,饮食,或从事与施工无关的事情。

  第二十五条 施工人员在施工过程中不得擅自动用机房设施和设备,如因施工管理不善造成机房设施、财产及其他一切经济损失,施工单位必须承担责任并负责赔偿。

  第五章 机房安全管理规定

  第二十六条 进入机房的人员必须遵守《机房出入管理规定》以及有关规章制度。

  第二十七条 机房内的设备、工具及相关资料应存放在指定地点,未经许可不得私自带出机房。

  第二十八条 机房内严禁吸烟,严禁存放易燃、易爆、易腐蚀等危险性物品,严禁动用明火;禁止在电器设备上放置纸张等其它杂物;不得存放与系统运行维护和管理无关的设备、物品和资料。

  第二十九条 机房管理人员或保安巡检员应熟悉机房环境以及安全通道的位置,应懂得防火知识,灭火常识,熟悉机房消防设施的使用方法,具有及时发现火灾隐患的能力。

  第三十条 未经批准,不得擅自对网路拓扑结构、连接方式进行修改或拆接,如需作拆接或修改,需经信管部经理同意后方可进行,并把修改情况记录在案,未经允许,机房管理人员、保安人员不得动用机房内的计算机网络设备,线路等。

  第六章 中心机房突发事件应急预案

  第三十一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的`安全事件等等。 针对突发事件的预防措施如下:

  1、建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强所有人员防火、防盗等基本技能培训。

  2、服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。

  第三十二条 机房漏水应急预案如下:

  1、发生机房漏水时,第一目击者应立即通知机房管理人员。

  2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进行降温。

  3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。

  第三十三条 机房火灾应急预案如下:

  1、完善机房环境,确保机房FM200自动灭火系统工作正常,设置为灭火系统为自动状态。

  禁止携带易燃易爆物品进入机房。

  2、机房管理人员应熟悉机房内部消防系统安全操作和规则,了解机房内FM200灭火消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。

  3、一旦发生火情,要迅速切断电源(电源已和消防系统联动),利用机房专用灭火系统灭火,使用气体灭火系统,要保证机房内所有人员全部撤离现场,方可放气灭火(紧急情况采用手动启动,见气体灭火系统操作手册);如机房气体灭火系统失效,在保证人员安全的情况下要立即使用备用手持式灭火器手动灭火,同时以最快的方式向主管领导汇报,尽快增加援助人员协力救火,并迅速拨打物业管理和119火警电话。

  4、等待消防车到来期间,应组织物业保安或工作人员在保证安全的前提下灭火,应急领导小组应在第一时间内集中所有可用灭火器,抓住时机,尽可能的把火扑灭。

  5、配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。

  第三十四条 雷击事故应急预案如下:

  1、遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算机网络工作。

  2、雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。出现故障的,事发部门应将故障情况及时报告信管部。

  3、因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告领导。

  第三十五条 设备防盗被盗或人为损害应急预案如下:

  1、机房管理人员每日查看、清点设备并锁好机房大门。

  2、机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。

  3、发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告信管部负责人,同时保护好现场。

  4、信管部接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

  5、事发单位和当事人应积极配合公安部门进行调查,并将有关情况向信管部汇报。

  第三十六条 机房停电应急预案如下:

  接到停电通知后,信管部应及时通过办公系统 、电话等发布相关信息,部署应对具体措施,要求涉及到的工作人员在停电前停止业务、保存数据。

  1、确认电力可能恢复的时间,立即通知中心机房电源维护负责人和中心机房各设备的负责人到达现场,做好各机房停电准备。

  如果确认机房停电的时间为短时间停电,立即可以恢复供电的情况(如15分钟以内,根据UPS电池使用周期和寿命,电池后备时间将会减少,应根据现场实际情况,留出机房设备正常关机时间),可以在UPS正常供电的时间内,应密切观察UPS带负载时间,等到电力恢复,期间如UPS剩余时间低于50%(应满足机房设备正常关机时间),机房负责人应立即严格按操作手册停掉机房内的所有设备(包括各应用服务器、存储、核心交换机和路由期等设备的电源,以及机房辅助设备的电源,最后关闭UPS(见UPS操作手册),等待电力恢复,电力恢复供电后转第七条执行。

  如果不能确认恢复供电时间,立即汇报给机房电源维护负责人和中心机房各设备的负责任到达现场。做好各设备的电源停电准备,严格按操作手册停掉机房内的所有设备(包括各应用服务器、存储、核心交换机和路由期等设备的电源,以及机房辅助设备的电源,最后关闭UPS(见UPS操作手册),等待电力恢复,电力恢复供电后转第4条执行。

  2、机房维护负责人将停电的电源柜总空开和分空开的状态处于断开状态,关闭顺序应为,先关闭回路小开关,再关闭总开关(UPS关闭后,应先关闭UPS输出回路开关,再关闭UPS输出总开关,接着关闭UPS输入开关)并向主管领导汇报。

  3、将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。

  4、电力室恢复供电后,先不要急于给电源柜加电,等待10-20分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。

  5、供电正常后,确定设备处于下电状态后,打开电力柜的总控开,开启UPS的市电输入开关,开启UPS(见UPS操作)。

  6、根据设备加电顺序,启动分路空开。

  7、设备加电顺序,网络设备正常后再给服务器、存储等设备加电开机。(以上各设备务必按操作手册的启动顺序上电)。

  8、设备启动正常后,开始启动数据库。

  9、数据库启动正常后,开始启动中间件服务器。

  10、中间件服务器正常后,启动应用程序。

  第三十七条 通信网络故障应急预案如下:

  1、发生通信线路中断、流量异常等故障后,员工应及时通知信管部人员。

  2、信管部在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

  3、应急处理结束后,信管部应在一日之内提交故障分析报告,以便备案。

  第三十八条 服务器故障应急预案如下:

  1、机房管理人员每日检查机房设备工作状态,确保系统运行的完善。

  2、机房管理人员定期备份数据和资料,并将备份资料刻录成光盘或拷贝到移动硬盘。

  第三十九条 发生机房突发事件后,信管部应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,信管部对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。

  第七章 附则

  第四十条 信管部会结合信息网络快速发展和经济社会发展状况,配合相关法律法规的制定、修改和完善,适时修订管理办法。

  第四十一条 本文件由信息管理部制定并负责解释。

  第四十二条 本文件经批准后发布实施。

  20xx年05月10日

  上海市xx信管部

机房应急预案11

  一制定目的

  为应对医院突发性大面积停电事故,迅速有序地组织和恢复供电,确保病人生命安全和减少财产损失,保证医院用电畅通,促进事故应急工作的制度化和规范化,依据国家相关法律法规,结合我院实际情况,制定本预案。

  二适用范围

  本预案所称“突发性大面积通电事故”(下称“大面积停电事故”)是指因严重自然灾害重要设施损坏或遭受破坏等原因造成突发性的全院大面积电力系统安全防线失效,电网发生大面积瓦解或崩溃的事故。

  三应急原则

  大面积停电事故处理工作贯彻“预防为主,常备不懈”的方针,遵循“统一领导,完善机制,明确责任,加强合作,快速发应,措施果断”的原则。

  四组织机构

  医院成立大面积停电事故应急领导小组,下设应急抢修队。

  1、医院大面积停电事故应急领导小组组长:

  总经理副组长:

  院长成员:

  人事行政部经理后勤主管电维修工职责:

  (1)做好日常安全供电工作,落实安全生产责任制,防范大面积停电事故发生。

  (2)发生大面积停电事故时,及时做好停电事故应急工作,尽快恢复供电。

  (3)根据大面积停电事故严重程度,决定启动和终止应急预案。

  (4)及时向上级报告事故情况并向社会公布。

  (5)必要时请求外力支援。

  (6)领导小组组长是履行本预案规定的第一责任人。成员单位应在领导小组的统一指挥下,各司其职,各负其责,通力合作,做好大面积停电事故时的`社会综合应急工作。

  2、应急抢修队队长:

  后勤主管成员:

  电维修工职责:

  发生事故时,组织人员实施救援行动;向指挥小组汇报事故情况,必要时向供电部门发出求援请求,事后总结应电路还是低压电路。如果高压电路出现故障,医院电工立即导入备用电源,应及时与供电部门抢修班联系,尽快恢复,保证用电;如果医院抵押电路出现故障时,应快速查明原因,按照操作规定恢复电路。

  (二)部门科室应急程序

  1、各科室接到停电通知后,应该在允许情况下吧所有的及其电源切断,待电路恢复正常后再投入使用。

  2、接到停电通知后,立即做好停电准备。如有抢救患者使用备用电源。

  3、突然停电后,立即寻找抢救患者及其运转的动力方法,维持抢救工作,并开启应急灯照明等。并应及时通知电工或总值班。

  4、危重患者手术中使用呼吸机的患者平时应在机旁备有简易呼吸器,遇突然停电,医护人员立即将呼吸机脱开,使用简易呼吸器维持呼吸。使用电动吸氮的患者,用50ml注射器接吸氮管吸氮。

  5、如双线均突然出现供电故障,院内发电机供电前,医护人员则应首先保证病人抢救;护士应沉着镇静,上呼吸机者采用手抱球法,上监护仪者采用人工测血压脉搏,电动吸氮者则采用50毫升注射器接吸氮管抽吸等,严密观察并请变化,其余工作人员则立即电话通知电工,人事行政部,并采用应急灯供照明。

  6、加强巡视病房,安抚患者,同时注意防火防盗。

  7、电梯遇到突然停电后,后勤人员要做好乘客思想工作,向外面打电话,用人工方法把所有乘客放出去。

  六保障措施

  1、电工日常应做好发电机的维护保养工作,保证发电机随时投入使用。

  2、电工平时要掌握供电知识和操作规范,注意操作安全。

  3、临床科室常规备有应急灯电筒等照明用物,定期检查,保持完好状态。

  4、后勤部门要组织进行应急停电演练,每年1-2次,通过演练,使大家熟悉掌握突发停电的应急处置程序,确保病人安全。电路还是低压电路。如果高压电路出现故障,医院电工立即导入备用电源,应及时与供电部门抢修班联系,尽快恢复,保证用电;如果医院抵押电路出现故障时,应快速查明原因,按照操作规定恢复电路。

机房应急预案12

  网络信息中心机房环境主要监控目标对象为:电力供应、火情、空调异常。监控对象表征为:UPS可监控数据(包括输入、输出、负载等)、烟雾、环境温湿度值。

  环境监控报警根据影响范围不同定为不同级别,予以不同处置,应急处置流程如下:

  一、 紧急告警

  (一) 机房烟雾告警

  1. 如消防系统已启动,立即通知相关区域同志撤离机房。

  2. 如消防系统尚未启动,立刻调出该场地视频监控,确认是否有火情。一旦确认火情,立即疏散,并确认消防系统能正确启动。

  3. 火警必须在第一时间电话通知中心主任、相关机房安全责任人、办公室主任和环境与设备工程师。

  4. 按消防相关程序处置。

  (二) UPS输入掉电告警

  1. 立刻通知环境与设备工程师和相关机房负责人,环境与设备工程师即刻响应并处理,通知机房负责人电池放电情况。

  2. 相关机房负责人待命响应,根据需要按预定程序逐级安全关闭各类系统或设备,并通知相关部门及人员。

  3. 如影响中心关键业务,由机房负责人作出判断,并立即通知业务所属责任部门。

  (三) 机房地湿告警

  立刻通知相关机房负责人和环境与设备工程师,现场查看空调底下是否有水管爆裂漏水。

  备注:漏水事故影响不可轻忽,某些情况下会引起灾难性事故,请务必关注。

  (四) UPS输出故障

  1. 立刻通知环境与设备工程师和相关机房负责人,环境与设备工程师即刻响应并处理,通知机房负责人影响范围。

  2. 相关机房负责人立即响应,如影响中心关键业务,由机房负责人作出判断,并立即通知业务所属责任部门。

  二、 重要告警

  (一) 监控数据通信中断告警

  发现监控数据通信中断告警,需要综合查看,首先排查是否网络原因,其次排查是否服务器原因。以下状况考虑环境因素:

  如果同时有大面积的网络故障和服务器故障,很可能是UPS输出故障,立即通知环境与设备工程师、运行部负责人和系统部负责人。

  如果是单纯的数据数据通信中断,一般是监控设备死机,在工作时间通知环境与设备工程师处理。

  1. 机房高温告警

  立刻通知环境与设备工程师,如判断空调已失效,则需到现场处置。

  备注:由于机柜上的温湿度仪因热通道和铁架的`热传导作用使得感应温度偏高很多,只能做参考。因此,如夜间发现高温告警,可注意观察,如有持续异常升温则通知环境与设备工程师处理。

  2. 冷冻水高温告警

  发现冷冻水高温告警或空调进水高温告警,即刻通知环境与设备工程师处理。

  3. 市电掉电告警

  工作时间,立刻通知环境与设备工程师处理。非工作时间,如发生UPS输入掉电告警,按前述流程处置。

  三、 一般告警

  其他机房环境监控告警,考虑都是设备故障或者部分功能异常,影响面有限,在工作时间通知环境与设备工程师处理。

机房应急预案13

  为建立有效防范和处理火灾事故的工作机制,防范消防安全事故的发生,力保消防安全事故发生时能够快速、高效、合理有序地处置,特制定本预案。一.机房火灾隐患分析 由于机房内电气设备多,线路复杂,大部分的火灾都是电气火灾,引发电气火灾的主要因素有:

  1.电气线路短路、过载、接地电阻过大等引发火灾。 2.由于机房内的电脑、空调、UPS等设备长时间不间断运行或设备故障引发 火灾。 3.静电产生火灾。 4.雷电等强电入侵引发火灾。 二.处置程序 1.发现火情后,迅速切断电源,利用就近灭火器进行灭火,并按照特级事故 通报机制进行通报,向领导汇报火灾具体情况。

  2.迅速组织相关人员携带消防器具赶赴现场灭火,并听从现场指挥人员指挥。

  3.如火情较为严重,应立即与大厦消防中控取得联系,并与之协商处理办法 措施,必要时需要专业消防灭火的,迅速拨打119。 4.迅速组织相关人员对重要数据设备进行转移,尽可能保证关键设备安全, 引导人员进行疏散。 三.扑救方法 1.电源或线路起火应首先切断电源,绝不能用水扑救。 2.扑救机房设备时,最好使用气体(如CO2)灭火器,干粉,泡沫灭火器会对设 备造成 腐蚀,使损失增大。 四.注意事项

  1.一旦机房发生火灾,应遵循以下原则:首先保证人员安全;其次保证关键设 备安全;再保证一般设备安全。 2.火灾发生时,第一发现人查明起火原因,如因电源引起,应首先切断电源。

  3.火灾发生后应遵循边救火,边报警的原则。 五.预防措施

  1.设备整改:机房现有的电气设备和消防设备均有存在不合理之处,需要整改, 消除隐患。现有的配电开关为墙上的半埋式家用配电开关,应更换为专业的 独立空气配电箱,修改配电柜各类闸刀和开关的布局,使其具备独立切换 的功能。 现有的'灭火器为干粉灭火器,且维护也已过期,干粉灭火器虽然 可以有效灭火,但是会对设备造成腐蚀,损坏设备,应更换为气体灭火器。

  2.每天定时对机房重要电气设备和电子设备的温度进行了监控,能够及时地发 现并消除隐患。 3.应组织相关人员进行消防安全教育,学习消防知识,学会正确使用各种灭火器,有计划的进行相关的消防演习。

机房应急预案14

  第一章:总则

  第一条:编制目的

  为了提高股份有限公司对各类消防安全事故的应急响应和处理能力,建立快速有效的应急保险、救援机制,最大限度地减轻火灾、消防安全事故造成的损失,根据本股份有限公司的实际情况制定本预案。

  第二条:编制依据

  以《中华人民共和国突发事件应对法》、《中华人民共和国消防法》为法律依据。

  第三条:适用范围

  本预案适用于股份有限公司范围内发生的消防安全事故。

  第四条:工作原则

  应急处理应遵循轻重缓急原则,股份有限公司各部门和各部门在火灾事故预防和应急处理工作中,应遵循预防为主,常备不懈的方针,贯彻集中领导、等级管理、统一指挥、运行效率的原则。

  第二章:紧急训练

  第五条:消防设备的使用原理和方法

  一、手提式干粉灭火器

  1、ABC干粉灭火器主要由装有粉末的粉桶、储存二氧化碳的钢瓶、装有进气管和出气管的器头和输送粉末的管道构成。

  2、ABC干粉灭火器主要适用于石油及其产品、可燃气体和电气设备的首次起火。

  3、使用ABC干粉灭火器时,首先拔掉保险销,握住粉管的前端,使喷嘴对准火源,另一只手握住导向盘,按下针,喷出干粉。

  4、ABC干粉灭火器应保持干燥、密封,防止干粉结块。同时,防止阳光暴露,防止二氧化碳因热膨胀而漏气。定期检查干粉是否结块,二氧化碳气量是否充足。干粉灭火器分为手提式和小车式两种。

  二、1211灭火器

  1、1211灭火器主要由筒体(钢瓶)和筒盖两部分组成。钢瓶装满1211灭火剂,筒盖装有压力把、压力棒、喷嘴、密封阀、虹吸管、保险销等。

  2、1211灭火器主要适用于油类、精密机械设备、仪表、电子设备和文物、书籍、文件等贵重物品的首次起火。

  3、使用时,先拔掉保险销,然后握住按钮开关,按钮打开密封阀,1211灭火剂在氮气压力下,用虹吸管从喷嘴喷出。松开压把开关,喷射即中止。

  4、1211灭火器应放置在不受日照、火烤的地方,但要注意防潮,防止剧烈振动和冲突。定期检查压力表,发现低于使用压力的十分之九时,请再次充气。同时,必须定期检查重量,如果重量低于显示的十分之九,必须重新注入药物。1211灭火器分为手提式和小车式两种。

  三、其他消防工具

  1、消防栓:消防栓是连接消防供水系统的阀门装置,分为室内消防栓和室外消防栓两种。

  2、龙带:常用龙带有内扣式和压簧式两种。水龙带平时要卷在通风干燥的地方,防止腐烂。龙带是连接消防泵(或消火栓)和水枪等喷射装置的输水管道。

  3、消防水枪:水枪是提高水流速度、射程、改变水流形式的消防灭火工具。根据水枪喷射的水流,分为直流水枪、开花水枪、喷雾水枪、开花直流水枪等,直流水枪是喷射密集充实水流的水枪。开花水枪是喷射密集充实水流的水枪,可以根据灭火的`需要喷射开花水,冷却容器外壁,阻止放射热,掩护灭火者接近着火点。喷水枪是在直流水枪的枪口安装双级离心喷水头,使水流在离心力的作用下,使压力水变成雾。喷雾枪喷出的雾状水流适用于救援油类火灾和油浸变压器、多油式断路器等电气设备火灾。开花直流水枪是一种可以喷射充实水流,也可以喷射伞形开花水流的水枪。

  第六条:每年指定负责人对运行、检查、安全生产管理等应急人员进行防火知识、技能训练。包括如何报警、如何使用灭火器、火场逃生、烧伤烧伤处理、外伤止血包扎等。

  第七条:本预案每两年由保安部门负责组织各部门及有关部门应急人员进行全面训练,每年进行组合训练或单项训练。训练结束后,必须总结和评价训练结果,及时修改本预案在训练中暴露的问题和不足。

  第八条:每年保安部负责对股份有限公司员工进行防火安全教育,了解火灾事故的发生原因,了解事故现场救护的方法,了解各种警报的意义和紧急救援工作的要求。不断增强股份有限公司员工的消防安全意识,减少和避免火灾事故的发生。

  第三章:紧急措施

  第九条:火灾事故的应急过程主要以火灾、医疗救治、贵重设备救治等为主要任务。

  第十条:消防安全事故发生时,可及时有效处理紧急情况,全股份有限公司所有人员在保证自身安全的情况下,按照负责人的指挥最大限度地保证员工的人身安全和股份有限公司的财产安全,按照救人第一和快速有效的处理事故原则,立即灭火、危险、危险、危险、危险

  第十一条:全股份有限公司消防设备、指定车辆、照明设备、防护设备、救护物品等,可作为紧急设备资源。

机房应急预案15

  核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机房安全保障机制。

  组织架构:

  责任领导、工程维护、网络监控、网络运维、质量管理等相关人员。

  机房电源系统说明:

  1、机房电力是两路三相四线制供电,进线线缆规格为:RVV50*4+16*1铜芯护套线。

  2、机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。

  3、机房现有两台60KVA-UPS电源,均处于正常运行状态。

  4、机房现有设备机柜已编号,均通过UPS电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。

  5、运行中的UPS电源所带负荷,在逆变运行状态下能正常工作约4小时(已经过UPS放电测试)。

  一、核心机房电源中断预案

  1、在接到停电通知的情况下:

  1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的情况。

  2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。

  3)计划停电时间开始后,马上启动应急发电操作,按照机房发电操作步骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。

  2、在没有接到任何通知,突然发生停电的情况下:

  确认停电线路,停电时刻,停电时间等要素,启动核心机房发电应急预案。

  1)值班网管工作流程:

  ⑴值班网管监控到核心机房停电,第一时间告知工维部、网络部、运维部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。

  要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法联系上,进行升级到责任领导-工维部经理经理处。

  ⑵网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成员都收到本次故障停电的信息。然后进行机房中设备的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是否受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温)

  ⑶实时监控设备及UPS工作情况,包括:电量下降情况,设备工作正常情况,每15分钟通报一次电量情况。

  2)运维部应急工作流程:

  ⑴运维应急同事接到故障通告后,第一时间往停电现场赶,到现场配合网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。

  ⑵现场配合进行机房降温散热措施实施,实时检查网络设备的工作情况。

  3)运营质量管理应急工作流程:

  ⑴调度中心值班人员接到网管监控调度信息后,第一时间将故障信息记录并发故障通告到相关应急成员,并电话通知各应急小组组长是否知悉。

  ⑵进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行检查处理。

  ⑶实时关注故障工单流程进度登记,配合应急小组进行人员调度通告。

  4)工维部应急工作流程:

  ⑴机房管理员第一时间往停电现场赶,同时进行电话沟通供电公司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业沟通好需要发电需求申请。

  ⑵工维应急小组组长接到时间后第一时间往停电现场赶,同时进行发电应急小组成员调度,安排第一时间到场工作开展,并升级通报告知主管领导,对口集团维护中心上报信息。

  ⑶工维应急小组成员接到停电时间后第一时间往停电现场赶,要求30分钟内必须到场(住机房附近的人员往现场去,较远同事可以进行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,确保正常。确保一切就绪后,确认可以进行发电操作后,按照发电操作流程进行发电恢复市电。

  ⑷网管将监控到停电的相应信息及级别同步发送到运营质量管理部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行信息告知,同时报工维主管领导知悉。

  5)应急机房发电操作流程:

  ⑴机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系统、客服调度系统。

  ⑵发电前考虑4方面系统设备用电功率情况,为保障发电机带动的正常,不能进行同步供电,要区分优先恢复的步骤实施,确认发电机的工作正常。在发电前将需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”的市电输入主开关关闭。防止同步启动时发电机的无法供电保证。

  ⑶启动发电机,检测发电输出电流通断,待发电机运行稳定后。

  第一步启动空调制冷系统的市电输入开关,运维应急小组成员重新启动空调主机(空调因为市电恢复后需要重新启动)观察空调制冷工作是否正常。

  第二步启动主UPS设备的.市电输入开关,观察发电机运行稳定情况,主UPS主机工作稳定情况,网络设备的工作正常与否。

  第三步启动客服系统的市电输入开关,包括(客服坐席电脑、UPS设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。

  第四步启动备UPS设备、市电照明的市电输入开关,观察发电机运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。

  ⑷发电机启动,市电输入正常后,网管将降温系统的抽排风设备关闭,与运维同事进行所有设备的运行进行全面的检查,确保设备已经是运行正常。

  ⑸发电机发起市电正常后,工维应急小组安排专人现场值守,及时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间要求,并实时与供电部门确认市电恢复时间。

  6)停电过程中突发事项预防:

  ⑴网管在停电时进行机房确认运行中的UPS工作组、设备组工作状态。主/备UPS工作切换是否正常,在市电中断时UPS是否已经开始进行供电保护。

  ⑵值班网管对机房中的所有设备进行全面检查,确保所有的设备已经是有主备供电,市电中断后UPS已经正常保障设备工作。同时对机房的温度进行观察,温度是否突然升高。

  ⑶停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察一次UPS的蓄电池容量、带负荷情况、机房环境温度,尽量使蓄电池容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要求短时间发起电,减少UPS的放电过度)。

  ⑷发现机房环境温度大于26℃。当以上指标不能保证时,要及时向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措施尽量延长关键设备运行时间。

《机房应急预案(经典).doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

【机房应急预案】相关文章:

机房应急预案02-10

机房火灾应急预案09-07

机房火灾的应急预案11-04

(集合)机房应急预案15篇03-21

机房火灾的应急预案5篇11-21

机房火灾的应急预案(5篇)11-06

公司机房消防应急预案09-04

机房火灾应急预案5篇12-10

it应急预案12-05

机房应急预案(经典)

  在学习、工作、生活中,有时会出现一些意料之外的事件或事故,为了减小事故造成的危害,往往需要预先编制好应急预案。那么应当如何编制应急预案呢?以下是小编收集整理的机房应急预案,欢迎大家分享。

机房应急预案(经典)

机房应急预案1

  为确保办公室机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,特制定本预案。

  一、机房日常维护

  1、建立健全机房管理制度

  (1)在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除网络故障隐患。

  (2)节假日期间信息技术人员轮流值班,负责处理有关异常情况。

  (3)机房采取来人来访登记制度,未经允许,无关人员不得进入机房区域。

  2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房入口处24小时监控录像等措施。

  3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。

  4、信息技术人员对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保办公室网络的`正常运行。

  二、机房突发事件应急处置方案

  1、电源系统应急预案

  (1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:

  (2)当机房发生市电供电突然停电或是电源异常时。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。

  (3)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。

  (4)恢复供电后,严格按照操作程序逐步恢复机房设备,以防瞬间电流过大造成设备损坏。

  2、网络和服务器络系统应急预案

  (1)发生网络故障时,首先检查机房设备情况,确定网络故障的原因,然后联系网络维护人员,及时处理和排除故障。

  (2)当确认原因为短时间无法恢复,应该及时向负责领导汇报,然后再联系维护人员,及时处理故障。

  (3)当人为或病毒破坏的故障发生时,具体按以下顺序进行:判断破坏的来源及性质,断开影响安全与稳定的信息网络设备,断开与破坏来源的物理网络连接,然后再联系维护人员,及时处理故障。

  (4)发生服务器系统故障后,应立即向相关领导汇报情况,同时安排人员将故障服务器脱离网络,保存系统状态不变,保护原始数据。

  在确认安全的情况下,重新启动故障服务系统:若重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即 联系相关维护人员,请求技术支持,做好技术处理。

  处置结束后,技术人员应将处理过程记录下来,以方便日后对此问题的处理。

  3、消防和防雷应急预案

  (1)上班工作时间发生火警,还在机房工作的人员应及时紧急撤离,并立刻拨打119报警。在确保自身安全的情况下,应尽量使用灭火器进行灭火,减少电子设备的损坏。同时采取关闭电源总闸等措施,尽量减少可能造成的损失和破坏。

  (2)非工作时间或节假日休息时间值班人员发现火情后,要立刻拨打119报警,并立刻通知相关部门和领导,做好火灾的处置工作。

  (3)火情结束之后,机房相关人员应全体赶赴现场,同时立即联系相关网络公司和设备相关厂家,及时评估事故损失情况,研讨恢复网络系统正常运行的最佳解决方案。

  (4)遇雷暴天气或接上级部门雷暴气象预警,应关闭所有服务器,切断电源,暂停内部计算机网络工作。雷暴天气结束后,及时开通服务器,恢复内部计算机网络工作。因雷击造成的损失,应及时进行核实、报损,并将详细情况向部门领导汇报。

  4、自然灾害和盗抢应急预案

  (1)发生自然灾害后,首先应该组织人员撤离现场。当确认灾害不会造成人生伤害后,在回到机房检查设备,立刻向上级领导汇报,并联系相关网络和设备厂家,积极做好灾后恢复工作,确保在最短时间内

  恢复机房正常运行。

  (2)发生盗抢事件后,要保护好现场然后报警,并向上级领导汇报情况。待现场处理完毕后,要组织相关人员估计损毁情况,并联系相关网络和设备厂家,积极做好恢复工作。

机房应急预案2

  高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

  1.主机和运维管理制度简介

  超级计算机是功能最强、运算速度最快、存储容量最大的一类计算机。目前只有少数国家掌握研发技术,系统造价非常昂贵,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。上海超级计算中心作为上海信息港主体工程之一,国家和上海市政府投资先后引进神威-I超级计算机、神威-64P集群计算机、曙光4000A超级计算机系统并投入商业化运行。

  上海超级计算中心自20xx年正式开通至今,这些高性能计算机系统已安全、稳定运行七年多时间,上机用户取得了丰硕的科研成果和社会效益。在这七年中,为保障这些高性能计算机系统安全、稳定、不间断地运行,技术支持部在中心引进第一台高性能计算机--神威-I超级计算机系统的同时,建立了机房应急预案、运行记录、设备运行参数等基础运维制度,在二期引进曙光4000A超级计算机系统过程中,不断完善原有运维制度,并针对该主机系统特点编写了大量操作方法和应急预案。

  中心自20xx年获得ISO27001(BS7799)信息安全认证以来,技术支持部根据其要求规范了文档体系建设,形成了机房管理制度、应急预案、操作方法、运行情况记录的四大类运维文档。

  正是这些运维管理制度的不断完善和有效执行,才确保了资产价值高、服务对象广、社会影响大的中心主机系统安全、稳定运行,保障重点项目、用户服务的连续性。

  2.应急预案重要性

  上海超级计算中心机房运维管理文档划分为机房管理制度、应急预案、操作方法、运行记录共四大类(如图1所示)。

  图1应急预案分类

  应急预案在应急系统中起着关键作用,它明确了在突发紧急情况发生之前、发生过程中以及刚刚结束之后,谁负责做什么、何时做,以及相应的策略和资源准备等。它是针对可能发生的重大事故,按照其影响和后果严重程度,在应急准备、响应、操作各个方面预先做出的详细安排,是开展及时、有序和有效事故应急工作的行动指南。因此,应急预案在这四类运维管理文档中处于最为重要的地位。

  3.应急预案分类

  应急预案按重要性和事件种类,可以划分为消防预案、断电预案、空调预案、其他预案共4种,预案各文档之间彼此独立又互为关联,具有非常强的可操作性。制定预案的指导原则是尽一切可能,最大限度地确保向用户提供的服务不中断。在紧急事件发生的情况下,保证核心设备连续运行,避免存储数据丢失。在事件处置完成后,能快速恢复高性能计算服务。

  3.1消防预案

  消防预案是主机房最重要的应急预案。该类预案根据《上海超级计算中心灭火和应急疏散预案》的原则并结合主机房主机设备和消防设备的运行特性而制定。主要由《主机房消防应急预案》和《主机房气体喷淋消防系统启动撤离及处置应急预案》2个文档组成。

  消防应急预案:该预案着重规范了火警事件发生后,所有主机维护人员如何根据所属区域和现场情况,判断和选择正确的处理方法,同时配合中心物业人员处置,降低事件带来的影响。

  对于设备发生烟雾,主机维护人员协同物业人员寻找烟雾点予以切断相关区域电源;当设备发生可以控制火情,协同物业人员灭火;当主机房发生火灾而无法控制,应采取施救方法等措施。

  气体喷淋预案:该预案描述主机房气体喷淋系统启动的响应和确认并具体规定了撤离机房路线、善后处置。

  这两个预案中,消防应急预案作为消防预案的主体,涉及到如何处理与消防有关情况的各个方面。气体喷淋预案是主机房发生重大火灾时应对的最终灭火手段和人员撤离引导方法。

  3.2断电预案

  断电预案的重要性仅次于消防预案。该类预案根据中心供配电系统实际情况和各种断电影响范围下对主机运行的最小保障要求而制定的。主要由《主机房断电应急预案》、《曙光4000A超级计算机系统紧急关机操作方法》、《曙光4000A超级计算机系统双路断电关机操作方法》等多个文档组成主机房断电应急预案:该预案用于断电情况下,主机维护人员如何与中心物业部门联系控制主机房供电情况,并且负责对主机系统运行受断电影响程度做出正确判断。指导维护人员按影响程度,分别选用预案中对应的操作方法。本预案在所有断电预案中起指导思想作用。紧急关机操作方法:该预案制定了主机系统在紧急情况下,最快速度关机的操作步骤。主要用于发生烟雾、明火或消防、断电预案需在数分钟内关机断电的事件。

  双路断电关机操作方法:该紧急操作预案主要用于在外界双路供电全部中断情况下的操作。

  该预案的关机原则是:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证存储节点、SAN和SCSI存储设备、工程用户的计算节点的运行,尽可能减少关闭范围,以确保能在恢复供电的情况下,主机尽快恢复正常运行状态,减少影响范围。

  3.3空调预案

  超级计算机系统在运行中消耗大量电能,在

  提供高性能的计算能力同时产生大量的热量,必须采用专用空调系统,以保持主机系统适当的温、湿度、空气洁净度等运行环境需求。因此,专用空调系统与主机系统密切相关,空调预案是主机房必备的应急预案。

  制定该预案的`原因在于,断电情况下,空调与主机系统存在互相牵制的现状。主机和空调系统均为外界双路供电,主机系统配有UPS不间断电源系统,而空调系统无UPS支持。在双路停电情况下,主机系统可获得UPS电池组支持运行若干分钟,空调系统无UPS支持只能停机。由于在无空调冷却情况下,主机系统会在短时间内积聚大量热量导致超过运行警戒温度,主机系统在有可供电余量的情况下,仍将被迫关机。因此,确保空调中断情况下的主机运行环境是该预案的制定原则。

  预案根据各台主机配备的空调系统特点制定,由《曙光机房空调系统故障应急预案》和《神威机房空调系统应急预案》2个文档组成,这里仅介绍曙光机房空调系统应急预案。

  该预案的第一步:考虑增强主机系统散热效果,采用打开主机机柜前后门,和机房周边木门,在通风道上布置有UPS支持的应急风扇,形成空气对流,带走热空气,从而增强主机系统散热效果,降低升温速度。

  该预案的第二步:在采取上述措施并持续升温到一定温度之上的情况下,考虑紧急关闭部分或全部计算节点,减少热量生成,确保主机系统的核心存储和网络系统不受影响,确保空调系统修复后,主机系统能快速恢复运行。

  3.4其他预案

  除了固定的三类预案之外,技术支持部还根据主机系统实际运行中出现的各种意外情况,随时制定具有针对性的预案。

  如《大楼顶棚坍塌应急操作方法》的制定,就

  是由于20xx年1月连续发生雨雪等灾害性天气,中心大楼顶棚大量积雪且难融化,物业预计存在情况继续恶化,有发生顶棚坍塌事故的可能,一旦发生将影响一楼主机运行。

  针对该突发的隐患,中心技术支持部制定应急操作方法,对维护巡查频度范围、漏水可能发生位置、如何处理受漏水影响的主机设备等操作步骤进行严格界定。即使在最后,中心大楼顶棚经受住灾害性天气的考验,该预案并未发挥作用,这正体现了应急预案的备而不用的特点。而且通过各种意外

  情况的迅速分析、应对和实践操练,不断锻炼主机维护队伍,使之走向成熟。

  4.在实际案例中,应急预案的作用

  在主机系统年复一年的运行中,我们希望这些设备正常稳定运行,应急预案永远不会被使用,然而在实际运行中,总免不了因突发事件执行应急预案。

  而每次突发事件是检验应急预案制定是否科学、有效的最好证明。

  4.1双路断电,UPS正常运行案例

  20xx年8月某天,因打雷导致供电一路跳闸自动换至另一路供电,曙光机房2台空调掉电。

  主机维护人员立即按应急预案操作,电话通知物业人员恢复空调运行,恢复过程中所有空调相继出现高温报警,机柜液晶屏平均温度35度,开启全部曙光机柜前后门,打开神威-曙光玻璃门并调集应急电扇,于12:45恢复正常。

  12:50再次出现双路供电中断,曙光空调因无

  UPS支撑全部断电,启动断电应急预案,开启

  5、6号木门,开启神威机房全部空调,布置电扇,将冷气导入曙光机房,热量从6号木门的外部通道排出,选择性杀除部分作业,至13:05供电恢复,曙光空调开始工作,13:20环境恢复正常。全机在此过程中,正常运行未停机,只损失了部分不重要的作业。

  4.2单路断电,UPS失效案例

  20xx年8月某天,因低压配电柜开关至UPS房间X-JM柜电缆发生相对地短路,造成UPS机组逆变器自身保护动作,关闭UPS机组,导致曙光主机系统失电。

  全机掉电后,主机维护人员迅速按应急预案

  手工关闭所有电源开关。10:30恢复供电,温湿度恢复正常后,全机加电,恢复过程中修复

  storage00

  1、00

  5、010三个盘阵的9个用户文件系统,修复15个节点加电故障,除cnode00

  9、anode029电源

  环境模块故障,于当日15:10全机系统恢复正常。

  由于处置及时,主机受影响范围很小,在恢复供电后数小时即成功开启全系统。

  5.随时保持应急预案的适用性

  主机长年累月的运行,故障和问题的发生,往往是必然的,也是客观、无法回避的。因此,要求在维护工作中,预先考虑到可能的问题和故障,制定完善的应急预案。应急预案不可能包含所有的故障和问题,但应根据维护经验,尽可能地设想各种危机情况下的处置措施。做到预想到各种可能的问题。

  而在形成应急预案后,更重要的是持续地在

  运行中加以完善、测试和演练,尽可能模拟实际情况,做到即使只有1名维护人员在场,也能在真正发生危机时,以最短时间独立处置故障。

  以目前中心的主机运维工作为例,三年内,仅断电预案就已根据实际运行情况的变化,制定并更新了5~6个版本,针对夏季突发断电也有专用预案。这样的措施,直接保障了20xx年8月突发断电事件中的主机连续运行。而20xx年8月的突发断电事件中,由于预案在之前刚根据实际情况进行过演练和修改,主机维护人员仅用半小时就完成所有应急操作动作,整机仅有个别设备故障,确保了主机设备未因突发断电而发生大范围损坏现象,恢复供电后直接完成开机。

  实践证明,完善而适用的应急预案能保障向用户提供稳定的高性能计算服务。

  6.结束语

  完备而适用的应急预案能有效降低主机系统因意外事件发生带来的运行风险,对可能发生的意外来说,是一种事前防范措施。但对整个主机系统产品而言,是一种事后防范措施。如果主机系统生产厂商能把这些防范措施纳入整个系统设计过程中,使操作方法更加简便、更趋于人性化,这将帮助主机维护人员更为妥善处理意外事件,用户得到更为稳定的高性能计算服务。我们相信未来国产的高性能计算机能做到这一点,期待着这一天早日到来。

  (为帮助了解,特在附录中节选部分双路断电关机预案内容)

  附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

  曙光4000A超级计算机系统双路断电关机操作方法

  注意:

  1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

  2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

  1.断电确认及操作:

  主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

  1.1打开机房门便于散热,..

  1.2机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

  机房的温度尽量降低。

  1.3打开所有机柜前、后门。

  1.4密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

  2.紧急关机条件确认:

  在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

  2.1自断电发生起,已达到XX分钟仍未恢复供电;

  2.2采取上述紧急通风措施,节点温度持续上升,超过XX℃;

  可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

  3.紧急关机操作步骤:

  注意事项:

  3.1..

  3.2关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

  业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

  3.3应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

  点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

  第一级操作:(首先执行)关闭主机系统外围设备..

  第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

  关闭非重要用户计算节点(ABC组)..

  第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

  关闭所有用户计算节点(D组)..

  第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

  关闭SAN存储设备和LSF数据库服务器..

  第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,完成关机操作)

  关闭SCSI磁盘阵列和所有存储节点..

  特别关注:

  1.如时间非常紧急,UPS电池低于XX分钟:

  直接执行关机脚本:..

  此脚本可分别将计算节点、接入节点、存储节点进行关闭。

  2.如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX),直接拉闸操作。

  (上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

  3.如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

机房应急预案3

  第一条:机房意外停电后,首先确定停电的范围以及受影响的设备范围。

  第二条:确认停电的范围为本公司或本机房,应立即联系工机科电话汇报。估算电力可能恢复的`时间,并通知直接上级。

  第三条:如果确认停电的时间在1个小时内,可以在UPS正常供电的时间内,等到电力恢复。如果不能确认在2个小时内恢复供电,需及时到达现场。做好各设备的电源停电准备。在UPS供电达1.5个小时后,严格按操作手册停掉存储和各应用服务器的电源,最后停核心交换机和路由期。等待电力恢复,电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障,立即汇报给机房电源维护负责人。

  第四条:机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向直接领导汇报,马上联系相关厂家,如有可能请厂家立即到现场支持。第五条:将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。

  第六条:等各厂家和相关的人员到齐后,商议设备恢复时因注意的事项,并形成相关文档。

  第七条:电力室恢复供电后,先不要急于给电源柜加电,等待10—20分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。

  第八条:供电正常后,确定设备处于下电状态后,打开电力柜的总控开。第九条:根据设备加电顺序,启动分项空开。第十条:设备加电顺序,网络交换类设备正常后再给磁盘阵列柜加电,存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电)。第十一条:设备启动正常后,开始启动数据库。第十二条:数据库启动正常后,开始启动中间件服务器。第十三条:中间件服务器正常后,启动应用程序。

  第十四条:机房设备进行全面点检,确认所有设备运行和服务正常。

机房应急预案4

  机房是我单位的重要场所,重要仪器、设备相对集中,一旦发生事故,会造成严重后果 。为此特制定本应急预案。

  一、触电

  (1) 一旦发生触电事故,应迅速安全切断电源,切忌直接接触触电者。

  (2) 即刻拨打紧急电话120并通知相关领导,同时开展现场应急救护 。

  二、火灾

  1、报警程序:

  即刻通知领导及相关部门,根据火情大小如需报警立即就近用电话或手机报告消防中心(电话119).。

  2、组织实施:

  机房管理员一旦发现火情后,应即刻切断电源,并使用灭火器扑救起火设备。

  三、空调漏水

  若空调系统出现渗漏水,应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时临时用电扇进行降温。

  四、设备发生被盗或人为损害事件

  ( 1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告中心负责人,同时保护好现场。

  ( 2)中心负责人接报后,通知保卫处,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的.影像记录和文字记录。

  ( 3)当事人应当积极配合公安部门进行调查, 并将有关情况向领导汇报。

  五、机房停电

  (1)接到长时间停电通知后,应及时发布相关信息,部署应对具体措施。

  (2)如遇临时停电,且停电时间在3小时之内,管理员要检查UPS是否正常工作,以确保机房设备的正常运行。。

  六、网络故障

  (1)发生通信线路中断、路由故障、流量异常等故障后,网络管理员应及时查清通信网络故障位置,隔离故障区域,组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

  (2) 事态或后果严重的,应及时报告领导并请求协助解决。

  七、不良信息和病毒事件

  (1)发现不良信息或网络病毒时,管理员应立即断开网线,终止不良信息或网络病毒传播,并报告。

  (2)中心负责技术人员应采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。

  (3)事态或后果严重的,应及时报告相关领导以及相关部门。

  八、服务器软件系统故障

  (1)发生服务器软件系统故障后,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;

  (2)若重启失败,应立即安排备份服务器启用,并请求技术人员支援,作好技术处理。

  九、注意事项:

  第一、机房管理员要加强日常监控,及时处理、消除及上报安全隐患。

  第二、备齐安全相关装备。

  第三、及时做好备份。

机房应急预案5

  计算机机房作为所有业务、应用系统的核心,一旦计算机机房发生突发事件,将对单位的数据等造成严重损失。为此,特制订机房突发事件应急预案。

  一、机房突发事件定义

  机房突发事件是指由特殊原因引发威胁机房安全并且不能通过日常维护手段解决的事件。比如,火灾、漏电、断电等非人为或者人为的事件,重大突发事件发生后,应立即组织现场救护或临时处置,控制事态发展,最大限度地减少损失和影响。

  二、机构和职责

  机房突发事件应急小组单位领导:

  机房突发事件应急小组部门领导:

  机房突发事件应急小组成员:

  各责任人职责:

  应急小组单位领导:负责单位层面及范围内的决策与领导。

  应急小组部门领导:负责部门层面及范围内的决策与领导并组织实施突发事件预案。

  应急小组成员:按岗位职责分工,听从指挥,服从安排全力以赴解决突发事件。

  三、突发事件报警

  应区分原因在第一时间报警。

  自然灾害(火灾),拨打火警电话:119人为事件(非法盗取、攻击等)拨打匪警电话:110人员伤亡,拨打急救电话:120其他时间(断电等),拨打值班电话:

  四、突发事件处理

  突发事件发生后,应立即启动应急预案。

  1、失火、漏水:

  视事件的紧急程度,应急小组成员要在领导的'指挥下,有组织、有顺序的备份数据、关闭服务器的电源;组织人力转移设备。如果自动设备未能正常启动,应在组长安排下首先切断机房的水、电路,组织人力采用灭火器等灭火设备人工灭火,同时要在第一时间报警。

  2、断电:

  在城电断电的情况下,机房的备用电力将发挥作用,电力供应最长可持续4小时。由于机房空调没有备用电力,如确认是供电局断电,应立即联系发电机发电;如果不是供电局断电,而是由于办公楼电力线路故障引起的断电,应立即通知电工查找原因,尽快排出故障。如果无法尽快恢复供电,在电力延续期间,应尽快结束未执行完毕的任务,如无法完成需及时备份数据,同时应关闭所有非必须服务器,尽量不让机房温度过高,保证网络设备的正常运行,以便保障集中在单位的应用系统能正常使用。

  五、恢复生产

  突发事件结束后,有关人员应首先对现场进行清理,汇总损失情况并上报各级领导。紧急召开专项会议分析损失情况,制定数据恢复计划。设备损失的要及时更换设备,保证恢复计划的顺利进行。

  恢复生产后,系统管理员应对各系统进行自查,上报书面报告,并由部门领导汇总后上报单位领导。

  机房管理员在恢复生产后要及时检查各项维持系统,如UPS、灭火器、漏水、漏电探测器等是否正常运行,应及时更换受损的元器件,补充灭火器的填充物。

机房应急预案6

  为更好的应对机房停电此类突发事件,提高处理各类停电事件的能力,建立健全可靠的应急机制,最大限度地降低各类停电事件对公司各部门的影响,特制定《杭州博日有限公司机房停电事件应急预案》(以下简称预案)。 1.2工作原则

  (1)预防为主。立足安全防护,加强预警,重点保护公司重要系统信息,数据安全。 (2)快速反应。发生突发事件时,及时获取充分而准确的信息,迅速处置,最大程度地减少突发事件影响。

  (4)坚持“统一领导、协调配合、明确责任、坚守岗位”的原则。 1.3适用范围

  所有机房临时停电,突发停电以及较长时间停电的事件。 2.组织机构及职责

  2.1组织机构(联系人名单及联系方式每半年更新一次)设备计量课主要联系人及联系方式Helpdesk:分机:XXXX。(7 X 24工作)各主要设备供应商联系人及联系方式:2.2各组织机构职责

  1)设备计量课应尽可能及时通知所有部门停电信息,且准备好应急措施。

  2).设备计量课应及时做好停电应急措施,通知各相关部门做好重要数据备份,并通知到机房设备供应商,同时做好拉闸限电的准备。为保障停电期间和恢复供电后机房所有设备正常运行,设备计量课所有相关人员在此期间必须保持随时待命状态。

  3).机房设备供应商应做好相关设备技术支持工作,若是计划内停电,应提前对机房设备做好停电应急方案,且在停电至恢复供电,所有设备恢复正常期间保持随时待命状态,重要关键设备,须有技术支持人员现场侯命;突发临时停电应尽可能做好远程技术支持工作。

  3.设备计量课应急预案

  3.1机房长时间停电应急预案

  ⑴接到长时间停电通知后,应询问停电原因及具体停电时间并及时通过邮件发布或电话通知停电公告,要求各部门尽可能在停电前停止业务、保存数据,关闭所有能关闭的用电设备。 ⑵根据停电时间长短情况,协同有关部门部署应急措施,检查应急设备是否正常,若时间条件许可模拟停电测试应急设备性能。

  (3)对机房设备用电做好统计,做好拉闸限电预案。

  (4)各相关技术支持人员部署到位,确保停电期间重要系统和设备运行正常,以及恢复供电后所有系统,设备运行正常。 (5)通知相关部门,停电期间加强对存在安全隐患的设备及区域的巡查(如电梯间,水房等),保障公司人员和财产安全。

  (6)机房管理人员详细记录事件原因及此期间采取的应急措施,备案。 3.2机房突发性临时停电应急预案

  (1)相关人员发现突发性停电时应立即报告部门领导,及时了解停电原因及停电时间,并立即检查机房设备是否运行正常,检查各系统是否运行正常,同时查询机房设备相关记录,计算UPS当前状况下可供电时间,并向相关部门领导汇报。 (2)告知各业务部门停电相关信息,判断停电时间长短做好相应应急措施,提醒各部门做好数据备份以防万一。

  (3)通知相关部门检查存在重大安全隐患的设备运行情况(譬如电梯,水房等),保障公司人员和财产安全。

  (4)通知IT部门机房管理人员及机房设施相关人员进入紧急待命状态。

  (5)恢复正常后,查明停电原因,记入机房安全管理日志。 4.培训和演习4.1培训

  IT运维部门及机房相关人员每年至少开展一次机房停电等突发事件处理的'培训,提高机房管理人员及其相关人员的应急能力。 4.2预案演习

  各应急组织机构每年至少安排一次演练,通过演练发现应急工作体系和工作机制以及各备用设备,系统存在的问题,不断完善应急预案,提高应急处理能力。

  5.附则

  5.1预案更新

  本预案结合演练和实施情况,及时进行修订和完善。 5.2责任与奖惩

  各应急机构对在应急事件处置中作出突出贡献的集体和个人,提出表扬和奖励;对玩忽职守,造成不良影响或严重后果的,按有关规定提出处理意见,并追究其责任。 5.3制定和解释

  本预案由设备计量课制定并解释。 5.4本预案实施或生效时间

机房应急预案7

  第一条 机房突发事件

  包括网络设备或服务器故障、自然灾害(水、火、电等)造成的.物理破坏、人为失误造成的安全事件等等。 针对突发事件的预防措施如下:

  建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。

  第二条 机房漏水应急预案如下:

  1、发生机房漏水时,第一目击者应立即通知机房管理人员。

  2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。

  3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。

机房应急预案8

  第一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。 针对突发事件的预防措施如下: 建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。

  第二条 机房漏水应急预案如下:

  1、发生机房漏水时,第一目击者应立即通知机房管理人员。

  2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。

  3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。

  第三条 机房火灾应急预案如下:

  1、完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品进入机房。

  2、机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源。

  3、一旦发生火灾,迅速切断机房电源,避免灾情的`扩散,并迅速和保安部联系必要时立即报火警。

  第四条 机房停电应急预案如下:

  1、接到停电通知后,应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求在停电前停止业务、保存数据。

  2、机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作15分钟以上,保证员工工作的数据及时保存。

  第五条 通信网络故障应急预案如下:

  1、发生通信线路中断、流量异常等故障后,发现状况的员工或部门领导应及时通知网络管理员。 2、网络管理员了解情况后,迅速组织检测故障区域,并作相关故障处理,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

  第六条 服务器故障应急预案如下:

  1、机房管理人员每日检查机房内各服务器状态。

  2、定期备份数据服务器数据。并将备份资料拷贝到移动设备。服务器出现严重硬件故障时启用备用服务器以保障正常运转。

机房应急预案9

  信息中心机房是就业中心开展各项工作的重要保障,也是重点消防部位。为了应对消防事故的发生,特制定以下应急预案:

  一、机房消防安全坚持“标本兼治、综合治理,防消结合、预防为主”的`基本原则,坚持严防死守,确保万无一失。

  二、加强单位职工的安全教育,全面提高应对火灾的能力和心理素质,把损失和危害减少到最低程度。

  三、加强领导,健全机构,成立机房消防安全责任小组。 组 长:

  副组长:

  责任人:当班人员、信息中心工作人员

  四、正确处置消防事件:

  1、发现火情后,迅速切断电源,利用就近灭火器灭火;如不能及时控制、扑灭火灾,立即启动应急预案,以最快的方式向上级报告,并视火情立即拨打119报警;

  2、接到火警后,组长、副组长及工作人员应在最短时间内迅速赶赴现场进行扑救;

  3、及时抢救重要设备,并引导人员疏散自救。

  4、一旦有人受伤应及时实施抢救,并及时拨打120请求救护支援;协助医护人员对受伤人员进行紧急救护等;

  5、火警解除后,及时保护现场,看护设备,防止次生事故发生,并及时向上级汇报火情和损失,配合相关人员进行事故调查。

  五、注意事项

  1、避免人身伤害,扑救要在确保人员不受伤害的前提下进行。

  2、火灾第一发现人应查明原因,如是电源引起,应立即切断电源。

  3、逃生时应尽量采取保护措施,如用湿毛巾捂住口鼻,用湿衣服包裏身体。同时启用消防应急通道,严禁拥挤、阻塞和跳楼、跳窗等事件发生。

  4、坚持预防为主,坚持安全值班巡查制度,严守机房消防安全管理制度,保持通信工具畅通,发现隐患及时上报处理。

  6、认真分析事故原因,总结经验教训,虚心接受有关部门的检查、指导、批评和教育。

机房应急预案10

  第一章 总则

  第一条 为规范我所网络中心机房设备管理,提高处理机房突发事件的能力,形成科学、有效、反应迅速的应急工作机制,确保重要计算机信息系统的实体安全、运行安全和数据安全,最大限度地减少突发事件造成的危害,根据《中华人民共和国计算机信息系统安全保护条例》、《信息化建设员工遵循守则》及《企业信息安全管理制度》等相关管理规定等,制定《网络中心机房应急预案及管理办法》(以下简称管理办法)。

  第二条 本文件适用于有计划性、有预防性地管理我所的网络中心机房以及发生和可能发生的与机房有关的突发事件。

  第三条 信管部负责编制、修订网络中心机房管理办法及所辖范围内突发机房事件应急预案。

  周期性或即时性地向局域网用户发布系统安全警示;对异常流量来源进行监控,并妥善处理各种异常情况。及时组织专业技术人员对所辖范围内机房突发事件进行应急处置;负责调查和处理机房突发事件,及时上报并按照相关规定作好善后工作。

  第二章 中心机房管理办法

  第四条 机房内的所有设备需要定期保养,应指定人员做维护、清洁工作,做到两天一收拾,一周一打扫;严禁将各种食物、饮用品带入机房,在机房内禁止吸烟。

  第五条 计算机设备维修工作由专门人员进行,管理人员应把设备的检修情况记录在相应的设备卡上,以便统一归档管理。如发现机房设备故障应及时向上级领导报告,并负责计算机及外设的日常维护与排除故障,在遇到设备保修范围内的故障时,应及时催促供应单位上门或将机器送修;

  第六条 系统管理人员必须严格遵守有关机房、设备及系统运行管理规定,不得在机房内从事与系统管理、运行维护、系统安装和调测等无关的工作;

  第七条 如其他人员需使用机房内设备应向机房负责人提交申请,经主管人员审核签字后,将书面申请提交信管部存档后方可借用机房内的设备;

  第八条 做好防火、防雨、防湿、防盗工作,注意用电安全;机房内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标准要求;

  第九条 系统管理人员应定时对机房供电系统及其他运行中的系统、设备进行巡视和检查,建立档案,做好系统日志。要对发生的故障以及排除故障情况做好详细记录;机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应机房设备正常工作半个小时,保证机房设备的数据及时保存。

  第十条 要统一管理机房内的设备,计算机及其相关设备的驱动程序、保修卡等随机文件与资料要保存完整。要明确专人负责计算机文档、信息化等资料的保管,要做到资料齐全,存放安全;

  第十一条 机房内的交换机和服务器系办公自动化的关键设备,任何人不得自行配置或更改系统参数;

  第十二条 要做好机房的安全工作,对服务器的各种帐户、密码严格保密。对网络运行理,设备维修维护、系统或设备安装等进入机房,必须由机房管理人员陪同进入,做好登记,并配合项目的实施。

  第十七条 进入机房的设备应在进入机房前拆除外包装,以保证机房环境的清洁和安全。

  第十八条 严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。

  第三章 机房用电管理规定

  第十九条 机房内提供的UPS电源只允许为主机、服务器、网络及存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。

  第二十条 严禁擅自切断供电系统,确因工作需要断电时,首先应做好相应准备工作,经部门领导批准,然后给所有部门发放断电通知,最后方可实施。

  第二十一条 机房内安装用电设备或有用电需求的项目时,必须经过专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或符合要求后工程才能实施。

  第四章 机房施工管理规定

  第二十二条 任何进入机房的施工,施工单位必须指明施工管理人员。

  第二十三条 施工人员进入机房,必须遵守机房有关管理规定,不得携带与施工无关的物品进入机房,并自觉接受保安人员或机房管理人员的管理、监督和检查。

  第二十四条 施工人员未经许可不得进入非指定工作区域,施工前须布置适当的防护设施;施工人员在现场严禁吸烟,不得在机房的任何地方坐卧,饮食,或从事与施工无关的事情。

  第二十五条 施工人员在施工过程中不得擅自动用机房设施和设备,如因施工管理不善造成机房设施、财产及其他一切经济损失,施工单位必须承担责任并负责赔偿。

  第五章 机房安全管理规定

  第二十六条 进入机房的人员必须遵守《机房出入管理规定》以及有关规章制度。

  第二十七条 机房内的设备、工具及相关资料应存放在指定地点,未经许可不得私自带出机房。

  第二十八条 机房内严禁吸烟,严禁存放易燃、易爆、易腐蚀等危险性物品,严禁动用明火;禁止在电器设备上放置纸张等其它杂物;不得存放与系统运行维护和管理无关的设备、物品和资料。

  第二十九条 机房管理人员或保安巡检员应熟悉机房环境以及安全通道的位置,应懂得防火知识,灭火常识,熟悉机房消防设施的使用方法,具有及时发现火灾隐患的能力。

  第三十条 未经批准,不得擅自对网路拓扑结构、连接方式进行修改或拆接,如需作拆接或修改,需经信管部经理同意后方可进行,并把修改情况记录在案,未经允许,机房管理人员、保安人员不得动用机房内的计算机网络设备,线路等。

  第六章 中心机房突发事件应急预案

  第三十一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的`安全事件等等。 针对突发事件的预防措施如下:

  1、建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强所有人员防火、防盗等基本技能培训。

  2、服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。

  第三十二条 机房漏水应急预案如下:

  1、发生机房漏水时,第一目击者应立即通知机房管理人员。

  2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进行降温。

  3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。

  第三十三条 机房火灾应急预案如下:

  1、完善机房环境,确保机房FM200自动灭火系统工作正常,设置为灭火系统为自动状态。

  禁止携带易燃易爆物品进入机房。

  2、机房管理人员应熟悉机房内部消防系统安全操作和规则,了解机房内FM200灭火消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。

  3、一旦发生火情,要迅速切断电源(电源已和消防系统联动),利用机房专用灭火系统灭火,使用气体灭火系统,要保证机房内所有人员全部撤离现场,方可放气灭火(紧急情况采用手动启动,见气体灭火系统操作手册);如机房气体灭火系统失效,在保证人员安全的情况下要立即使用备用手持式灭火器手动灭火,同时以最快的方式向主管领导汇报,尽快增加援助人员协力救火,并迅速拨打物业管理和119火警电话。

  4、等待消防车到来期间,应组织物业保安或工作人员在保证安全的前提下灭火,应急领导小组应在第一时间内集中所有可用灭火器,抓住时机,尽可能的把火扑灭。

  5、配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。

  第三十四条 雷击事故应急预案如下:

  1、遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算机网络工作。

  2、雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。出现故障的,事发部门应将故障情况及时报告信管部。

  3、因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告领导。

  第三十五条 设备防盗被盗或人为损害应急预案如下:

  1、机房管理人员每日查看、清点设备并锁好机房大门。

  2、机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。

  3、发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告信管部负责人,同时保护好现场。

  4、信管部接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

  5、事发单位和当事人应积极配合公安部门进行调查,并将有关情况向信管部汇报。

  第三十六条 机房停电应急预案如下:

  接到停电通知后,信管部应及时通过办公系统 、电话等发布相关信息,部署应对具体措施,要求涉及到的工作人员在停电前停止业务、保存数据。

  1、确认电力可能恢复的时间,立即通知中心机房电源维护负责人和中心机房各设备的负责人到达现场,做好各机房停电准备。

  如果确认机房停电的时间为短时间停电,立即可以恢复供电的情况(如15分钟以内,根据UPS电池使用周期和寿命,电池后备时间将会减少,应根据现场实际情况,留出机房设备正常关机时间),可以在UPS正常供电的时间内,应密切观察UPS带负载时间,等到电力恢复,期间如UPS剩余时间低于50%(应满足机房设备正常关机时间),机房负责人应立即严格按操作手册停掉机房内的所有设备(包括各应用服务器、存储、核心交换机和路由期等设备的电源,以及机房辅助设备的电源,最后关闭UPS(见UPS操作手册),等待电力恢复,电力恢复供电后转第七条执行。

  如果不能确认恢复供电时间,立即汇报给机房电源维护负责人和中心机房各设备的负责任到达现场。做好各设备的电源停电准备,严格按操作手册停掉机房内的所有设备(包括各应用服务器、存储、核心交换机和路由期等设备的电源,以及机房辅助设备的电源,最后关闭UPS(见UPS操作手册),等待电力恢复,电力恢复供电后转第4条执行。

  2、机房维护负责人将停电的电源柜总空开和分空开的状态处于断开状态,关闭顺序应为,先关闭回路小开关,再关闭总开关(UPS关闭后,应先关闭UPS输出回路开关,再关闭UPS输出总开关,接着关闭UPS输入开关)并向主管领导汇报。

  3、将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。

  4、电力室恢复供电后,先不要急于给电源柜加电,等待10-20分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。

  5、供电正常后,确定设备处于下电状态后,打开电力柜的总控开,开启UPS的市电输入开关,开启UPS(见UPS操作)。

  6、根据设备加电顺序,启动分路空开。

  7、设备加电顺序,网络设备正常后再给服务器、存储等设备加电开机。(以上各设备务必按操作手册的启动顺序上电)。

  8、设备启动正常后,开始启动数据库。

  9、数据库启动正常后,开始启动中间件服务器。

  10、中间件服务器正常后,启动应用程序。

  第三十七条 通信网络故障应急预案如下:

  1、发生通信线路中断、流量异常等故障后,员工应及时通知信管部人员。

  2、信管部在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

  3、应急处理结束后,信管部应在一日之内提交故障分析报告,以便备案。

  第三十八条 服务器故障应急预案如下:

  1、机房管理人员每日检查机房设备工作状态,确保系统运行的完善。

  2、机房管理人员定期备份数据和资料,并将备份资料刻录成光盘或拷贝到移动硬盘。

  第三十九条 发生机房突发事件后,信管部应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,信管部对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。

  第七章 附则

  第四十条 信管部会结合信息网络快速发展和经济社会发展状况,配合相关法律法规的制定、修改和完善,适时修订管理办法。

  第四十一条 本文件由信息管理部制定并负责解释。

  第四十二条 本文件经批准后发布实施。

  20xx年05月10日

  上海市xx信管部

机房应急预案11

  一制定目的

  为应对医院突发性大面积停电事故,迅速有序地组织和恢复供电,确保病人生命安全和减少财产损失,保证医院用电畅通,促进事故应急工作的制度化和规范化,依据国家相关法律法规,结合我院实际情况,制定本预案。

  二适用范围

  本预案所称“突发性大面积通电事故”(下称“大面积停电事故”)是指因严重自然灾害重要设施损坏或遭受破坏等原因造成突发性的全院大面积电力系统安全防线失效,电网发生大面积瓦解或崩溃的事故。

  三应急原则

  大面积停电事故处理工作贯彻“预防为主,常备不懈”的方针,遵循“统一领导,完善机制,明确责任,加强合作,快速发应,措施果断”的原则。

  四组织机构

  医院成立大面积停电事故应急领导小组,下设应急抢修队。

  1、医院大面积停电事故应急领导小组组长:

  总经理副组长:

  院长成员:

  人事行政部经理后勤主管电维修工职责:

  (1)做好日常安全供电工作,落实安全生产责任制,防范大面积停电事故发生。

  (2)发生大面积停电事故时,及时做好停电事故应急工作,尽快恢复供电。

  (3)根据大面积停电事故严重程度,决定启动和终止应急预案。

  (4)及时向上级报告事故情况并向社会公布。

  (5)必要时请求外力支援。

  (6)领导小组组长是履行本预案规定的第一责任人。成员单位应在领导小组的统一指挥下,各司其职,各负其责,通力合作,做好大面积停电事故时的`社会综合应急工作。

  2、应急抢修队队长:

  后勤主管成员:

  电维修工职责:

  发生事故时,组织人员实施救援行动;向指挥小组汇报事故情况,必要时向供电部门发出求援请求,事后总结应电路还是低压电路。如果高压电路出现故障,医院电工立即导入备用电源,应及时与供电部门抢修班联系,尽快恢复,保证用电;如果医院抵押电路出现故障时,应快速查明原因,按照操作规定恢复电路。

  (二)部门科室应急程序

  1、各科室接到停电通知后,应该在允许情况下吧所有的及其电源切断,待电路恢复正常后再投入使用。

  2、接到停电通知后,立即做好停电准备。如有抢救患者使用备用电源。

  3、突然停电后,立即寻找抢救患者及其运转的动力方法,维持抢救工作,并开启应急灯照明等。并应及时通知电工或总值班。

  4、危重患者手术中使用呼吸机的患者平时应在机旁备有简易呼吸器,遇突然停电,医护人员立即将呼吸机脱开,使用简易呼吸器维持呼吸。使用电动吸氮的患者,用50ml注射器接吸氮管吸氮。

  5、如双线均突然出现供电故障,院内发电机供电前,医护人员则应首先保证病人抢救;护士应沉着镇静,上呼吸机者采用手抱球法,上监护仪者采用人工测血压脉搏,电动吸氮者则采用50毫升注射器接吸氮管抽吸等,严密观察并请变化,其余工作人员则立即电话通知电工,人事行政部,并采用应急灯供照明。

  6、加强巡视病房,安抚患者,同时注意防火防盗。

  7、电梯遇到突然停电后,后勤人员要做好乘客思想工作,向外面打电话,用人工方法把所有乘客放出去。

  六保障措施

  1、电工日常应做好发电机的维护保养工作,保证发电机随时投入使用。

  2、电工平时要掌握供电知识和操作规范,注意操作安全。

  3、临床科室常规备有应急灯电筒等照明用物,定期检查,保持完好状态。

  4、后勤部门要组织进行应急停电演练,每年1-2次,通过演练,使大家熟悉掌握突发停电的应急处置程序,确保病人安全。电路还是低压电路。如果高压电路出现故障,医院电工立即导入备用电源,应及时与供电部门抢修班联系,尽快恢复,保证用电;如果医院抵押电路出现故障时,应快速查明原因,按照操作规定恢复电路。

机房应急预案12

  网络信息中心机房环境主要监控目标对象为:电力供应、火情、空调异常。监控对象表征为:UPS可监控数据(包括输入、输出、负载等)、烟雾、环境温湿度值。

  环境监控报警根据影响范围不同定为不同级别,予以不同处置,应急处置流程如下:

  一、 紧急告警

  (一) 机房烟雾告警

  1. 如消防系统已启动,立即通知相关区域同志撤离机房。

  2. 如消防系统尚未启动,立刻调出该场地视频监控,确认是否有火情。一旦确认火情,立即疏散,并确认消防系统能正确启动。

  3. 火警必须在第一时间电话通知中心主任、相关机房安全责任人、办公室主任和环境与设备工程师。

  4. 按消防相关程序处置。

  (二) UPS输入掉电告警

  1. 立刻通知环境与设备工程师和相关机房负责人,环境与设备工程师即刻响应并处理,通知机房负责人电池放电情况。

  2. 相关机房负责人待命响应,根据需要按预定程序逐级安全关闭各类系统或设备,并通知相关部门及人员。

  3. 如影响中心关键业务,由机房负责人作出判断,并立即通知业务所属责任部门。

  (三) 机房地湿告警

  立刻通知相关机房负责人和环境与设备工程师,现场查看空调底下是否有水管爆裂漏水。

  备注:漏水事故影响不可轻忽,某些情况下会引起灾难性事故,请务必关注。

  (四) UPS输出故障

  1. 立刻通知环境与设备工程师和相关机房负责人,环境与设备工程师即刻响应并处理,通知机房负责人影响范围。

  2. 相关机房负责人立即响应,如影响中心关键业务,由机房负责人作出判断,并立即通知业务所属责任部门。

  二、 重要告警

  (一) 监控数据通信中断告警

  发现监控数据通信中断告警,需要综合查看,首先排查是否网络原因,其次排查是否服务器原因。以下状况考虑环境因素:

  如果同时有大面积的网络故障和服务器故障,很可能是UPS输出故障,立即通知环境与设备工程师、运行部负责人和系统部负责人。

  如果是单纯的数据数据通信中断,一般是监控设备死机,在工作时间通知环境与设备工程师处理。

  1. 机房高温告警

  立刻通知环境与设备工程师,如判断空调已失效,则需到现场处置。

  备注:由于机柜上的温湿度仪因热通道和铁架的`热传导作用使得感应温度偏高很多,只能做参考。因此,如夜间发现高温告警,可注意观察,如有持续异常升温则通知环境与设备工程师处理。

  2. 冷冻水高温告警

  发现冷冻水高温告警或空调进水高温告警,即刻通知环境与设备工程师处理。

  3. 市电掉电告警

  工作时间,立刻通知环境与设备工程师处理。非工作时间,如发生UPS输入掉电告警,按前述流程处置。

  三、 一般告警

  其他机房环境监控告警,考虑都是设备故障或者部分功能异常,影响面有限,在工作时间通知环境与设备工程师处理。

机房应急预案13

  为建立有效防范和处理火灾事故的工作机制,防范消防安全事故的发生,力保消防安全事故发生时能够快速、高效、合理有序地处置,特制定本预案。一.机房火灾隐患分析 由于机房内电气设备多,线路复杂,大部分的火灾都是电气火灾,引发电气火灾的主要因素有:

  1.电气线路短路、过载、接地电阻过大等引发火灾。 2.由于机房内的电脑、空调、UPS等设备长时间不间断运行或设备故障引发 火灾。 3.静电产生火灾。 4.雷电等强电入侵引发火灾。 二.处置程序 1.发现火情后,迅速切断电源,利用就近灭火器进行灭火,并按照特级事故 通报机制进行通报,向领导汇报火灾具体情况。

  2.迅速组织相关人员携带消防器具赶赴现场灭火,并听从现场指挥人员指挥。

  3.如火情较为严重,应立即与大厦消防中控取得联系,并与之协商处理办法 措施,必要时需要专业消防灭火的,迅速拨打119。 4.迅速组织相关人员对重要数据设备进行转移,尽可能保证关键设备安全, 引导人员进行疏散。 三.扑救方法 1.电源或线路起火应首先切断电源,绝不能用水扑救。 2.扑救机房设备时,最好使用气体(如CO2)灭火器,干粉,泡沫灭火器会对设 备造成 腐蚀,使损失增大。 四.注意事项

  1.一旦机房发生火灾,应遵循以下原则:首先保证人员安全;其次保证关键设 备安全;再保证一般设备安全。 2.火灾发生时,第一发现人查明起火原因,如因电源引起,应首先切断电源。

  3.火灾发生后应遵循边救火,边报警的原则。 五.预防措施

  1.设备整改:机房现有的电气设备和消防设备均有存在不合理之处,需要整改, 消除隐患。现有的配电开关为墙上的半埋式家用配电开关,应更换为专业的 独立空气配电箱,修改配电柜各类闸刀和开关的布局,使其具备独立切换 的功能。 现有的'灭火器为干粉灭火器,且维护也已过期,干粉灭火器虽然 可以有效灭火,但是会对设备造成腐蚀,损坏设备,应更换为气体灭火器。

  2.每天定时对机房重要电气设备和电子设备的温度进行了监控,能够及时地发 现并消除隐患。 3.应组织相关人员进行消防安全教育,学习消防知识,学会正确使用各种灭火器,有计划的进行相关的消防演习。

机房应急预案14

  第一章:总则

  第一条:编制目的

  为了提高股份有限公司对各类消防安全事故的应急响应和处理能力,建立快速有效的应急保险、救援机制,最大限度地减轻火灾、消防安全事故造成的损失,根据本股份有限公司的实际情况制定本预案。

  第二条:编制依据

  以《中华人民共和国突发事件应对法》、《中华人民共和国消防法》为法律依据。

  第三条:适用范围

  本预案适用于股份有限公司范围内发生的消防安全事故。

  第四条:工作原则

  应急处理应遵循轻重缓急原则,股份有限公司各部门和各部门在火灾事故预防和应急处理工作中,应遵循预防为主,常备不懈的方针,贯彻集中领导、等级管理、统一指挥、运行效率的原则。

  第二章:紧急训练

  第五条:消防设备的使用原理和方法

  一、手提式干粉灭火器

  1、ABC干粉灭火器主要由装有粉末的粉桶、储存二氧化碳的钢瓶、装有进气管和出气管的器头和输送粉末的管道构成。

  2、ABC干粉灭火器主要适用于石油及其产品、可燃气体和电气设备的首次起火。

  3、使用ABC干粉灭火器时,首先拔掉保险销,握住粉管的前端,使喷嘴对准火源,另一只手握住导向盘,按下针,喷出干粉。

  4、ABC干粉灭火器应保持干燥、密封,防止干粉结块。同时,防止阳光暴露,防止二氧化碳因热膨胀而漏气。定期检查干粉是否结块,二氧化碳气量是否充足。干粉灭火器分为手提式和小车式两种。

  二、1211灭火器

  1、1211灭火器主要由筒体(钢瓶)和筒盖两部分组成。钢瓶装满1211灭火剂,筒盖装有压力把、压力棒、喷嘴、密封阀、虹吸管、保险销等。

  2、1211灭火器主要适用于油类、精密机械设备、仪表、电子设备和文物、书籍、文件等贵重物品的首次起火。

  3、使用时,先拔掉保险销,然后握住按钮开关,按钮打开密封阀,1211灭火剂在氮气压力下,用虹吸管从喷嘴喷出。松开压把开关,喷射即中止。

  4、1211灭火器应放置在不受日照、火烤的地方,但要注意防潮,防止剧烈振动和冲突。定期检查压力表,发现低于使用压力的十分之九时,请再次充气。同时,必须定期检查重量,如果重量低于显示的十分之九,必须重新注入药物。1211灭火器分为手提式和小车式两种。

  三、其他消防工具

  1、消防栓:消防栓是连接消防供水系统的阀门装置,分为室内消防栓和室外消防栓两种。

  2、龙带:常用龙带有内扣式和压簧式两种。水龙带平时要卷在通风干燥的地方,防止腐烂。龙带是连接消防泵(或消火栓)和水枪等喷射装置的输水管道。

  3、消防水枪:水枪是提高水流速度、射程、改变水流形式的消防灭火工具。根据水枪喷射的水流,分为直流水枪、开花水枪、喷雾水枪、开花直流水枪等,直流水枪是喷射密集充实水流的水枪。开花水枪是喷射密集充实水流的水枪,可以根据灭火的`需要喷射开花水,冷却容器外壁,阻止放射热,掩护灭火者接近着火点。喷水枪是在直流水枪的枪口安装双级离心喷水头,使水流在离心力的作用下,使压力水变成雾。喷雾枪喷出的雾状水流适用于救援油类火灾和油浸变压器、多油式断路器等电气设备火灾。开花直流水枪是一种可以喷射充实水流,也可以喷射伞形开花水流的水枪。

  第六条:每年指定负责人对运行、检查、安全生产管理等应急人员进行防火知识、技能训练。包括如何报警、如何使用灭火器、火场逃生、烧伤烧伤处理、外伤止血包扎等。

  第七条:本预案每两年由保安部门负责组织各部门及有关部门应急人员进行全面训练,每年进行组合训练或单项训练。训练结束后,必须总结和评价训练结果,及时修改本预案在训练中暴露的问题和不足。

  第八条:每年保安部负责对股份有限公司员工进行防火安全教育,了解火灾事故的发生原因,了解事故现场救护的方法,了解各种警报的意义和紧急救援工作的要求。不断增强股份有限公司员工的消防安全意识,减少和避免火灾事故的发生。

  第三章:紧急措施

  第九条:火灾事故的应急过程主要以火灾、医疗救治、贵重设备救治等为主要任务。

  第十条:消防安全事故发生时,可及时有效处理紧急情况,全股份有限公司所有人员在保证自身安全的情况下,按照负责人的指挥最大限度地保证员工的人身安全和股份有限公司的财产安全,按照救人第一和快速有效的处理事故原则,立即灭火、危险、危险、危险、危险

  第十一条:全股份有限公司消防设备、指定车辆、照明设备、防护设备、救护物品等,可作为紧急设备资源。

机房应急预案15

  核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机房安全保障机制。

  组织架构:

  责任领导、工程维护、网络监控、网络运维、质量管理等相关人员。

  机房电源系统说明:

  1、机房电力是两路三相四线制供电,进线线缆规格为:RVV50*4+16*1铜芯护套线。

  2、机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。

  3、机房现有两台60KVA-UPS电源,均处于正常运行状态。

  4、机房现有设备机柜已编号,均通过UPS电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。

  5、运行中的UPS电源所带负荷,在逆变运行状态下能正常工作约4小时(已经过UPS放电测试)。

  一、核心机房电源中断预案

  1、在接到停电通知的情况下:

  1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的情况。

  2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。

  3)计划停电时间开始后,马上启动应急发电操作,按照机房发电操作步骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。

  2、在没有接到任何通知,突然发生停电的情况下:

  确认停电线路,停电时刻,停电时间等要素,启动核心机房发电应急预案。

  1)值班网管工作流程:

  ⑴值班网管监控到核心机房停电,第一时间告知工维部、网络部、运维部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。

  要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法联系上,进行升级到责任领导-工维部经理经理处。

  ⑵网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成员都收到本次故障停电的信息。然后进行机房中设备的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是否受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温)

  ⑶实时监控设备及UPS工作情况,包括:电量下降情况,设备工作正常情况,每15分钟通报一次电量情况。

  2)运维部应急工作流程:

  ⑴运维应急同事接到故障通告后,第一时间往停电现场赶,到现场配合网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。

  ⑵现场配合进行机房降温散热措施实施,实时检查网络设备的工作情况。

  3)运营质量管理应急工作流程:

  ⑴调度中心值班人员接到网管监控调度信息后,第一时间将故障信息记录并发故障通告到相关应急成员,并电话通知各应急小组组长是否知悉。

  ⑵进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行检查处理。

  ⑶实时关注故障工单流程进度登记,配合应急小组进行人员调度通告。

  4)工维部应急工作流程:

  ⑴机房管理员第一时间往停电现场赶,同时进行电话沟通供电公司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业沟通好需要发电需求申请。

  ⑵工维应急小组组长接到时间后第一时间往停电现场赶,同时进行发电应急小组成员调度,安排第一时间到场工作开展,并升级通报告知主管领导,对口集团维护中心上报信息。

  ⑶工维应急小组成员接到停电时间后第一时间往停电现场赶,要求30分钟内必须到场(住机房附近的人员往现场去,较远同事可以进行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,确保正常。确保一切就绪后,确认可以进行发电操作后,按照发电操作流程进行发电恢复市电。

  ⑷网管将监控到停电的相应信息及级别同步发送到运营质量管理部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行信息告知,同时报工维主管领导知悉。

  5)应急机房发电操作流程:

  ⑴机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系统、客服调度系统。

  ⑵发电前考虑4方面系统设备用电功率情况,为保障发电机带动的正常,不能进行同步供电,要区分优先恢复的步骤实施,确认发电机的工作正常。在发电前将需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”的市电输入主开关关闭。防止同步启动时发电机的无法供电保证。

  ⑶启动发电机,检测发电输出电流通断,待发电机运行稳定后。

  第一步启动空调制冷系统的市电输入开关,运维应急小组成员重新启动空调主机(空调因为市电恢复后需要重新启动)观察空调制冷工作是否正常。

  第二步启动主UPS设备的.市电输入开关,观察发电机运行稳定情况,主UPS主机工作稳定情况,网络设备的工作正常与否。

  第三步启动客服系统的市电输入开关,包括(客服坐席电脑、UPS设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。

  第四步启动备UPS设备、市电照明的市电输入开关,观察发电机运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。

  ⑷发电机启动,市电输入正常后,网管将降温系统的抽排风设备关闭,与运维同事进行所有设备的运行进行全面的检查,确保设备已经是运行正常。

  ⑸发电机发起市电正常后,工维应急小组安排专人现场值守,及时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间要求,并实时与供电部门确认市电恢复时间。

  6)停电过程中突发事项预防:

  ⑴网管在停电时进行机房确认运行中的UPS工作组、设备组工作状态。主/备UPS工作切换是否正常,在市电中断时UPS是否已经开始进行供电保护。

  ⑵值班网管对机房中的所有设备进行全面检查,确保所有的设备已经是有主备供电,市电中断后UPS已经正常保障设备工作。同时对机房的温度进行观察,温度是否突然升高。

  ⑶停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察一次UPS的蓄电池容量、带负荷情况、机房环境温度,尽量使蓄电池容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要求短时间发起电,减少UPS的放电过度)。

  ⑷发现机房环境温度大于26℃。当以上指标不能保证时,要及时向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措施尽量延长关键设备运行时间。