雖然數(shù)據(jù)中心的設(shè)計(jì)在理論上不會發(fā)生故障,,但它確實(shí)會出現(xiàn)這種情況,,因此數(shù)據(jù)中心運(yùn)營商將面臨非常嚴(yán)峻的情況,特別是托管數(shù)據(jù)中心,。
根據(jù)最近發(fā)生的一些事情,,表明托管數(shù)據(jù)中心遭遇停電和業(yè)務(wù)中斷的后果是十分嚴(yán)重的。例如:英國電信公司是全球最大的通訊商和托管數(shù)據(jù)中心商之一,,其運(yùn)營的數(shù)據(jù)中心今年遭遇兩次宕機(jī)事件,。據(jù)報(bào)道,由于故障影響,,倫敦及其周邊地區(qū)的語音和數(shù)據(jù)流量下降了10%,,事故時間長達(dá)四小時以上。
盡管在設(shè)計(jì)和運(yùn)行數(shù)據(jù)中心時努力避免中斷或事故,,但數(shù)據(jù)中心托管設(shè)施并不能避免這些問題,,其短期和長期的意外中斷都將是代價高昂的,。如果客戶選擇放棄服務(wù),企業(yè)可能會因不符合服務(wù)等級協(xié)議(SLA)而受到經(jīng)濟(jì)處罰,,也可能會對企業(yè)的品牌造成長期的損害,,并對業(yè)務(wù)收入造成損失。
數(shù)據(jù)中心宕機(jī)
從數(shù)據(jù)中心的角度來看,,應(yīng)該做什么或不應(yīng)該做什么以防止中斷事故的發(fā)生,,是一個非常簡單道理。但是,,如果作為數(shù)據(jù)擁有者,,并且其數(shù)據(jù)中心解決方案存在失誤,那么這是一個不同的結(jié)論,。如果企業(yè)客戶已經(jīng)做出戰(zhàn)略決定,,將其數(shù)據(jù)放在外部數(shù)據(jù)中心,并進(jìn)行了風(fēng)險(xiǎn)分析,。但這樣就真的做好應(yīng)對最壞結(jié)果的準(zhǔn)備好了嗎,?問題是,如果企業(yè)客戶發(fā)現(xiàn)自己處在這種情況下該怎么辦,?
對最壞情況做好準(zhǔn)備的最好辦法是不斷地解決這個可能性,。如果失敗,組織的努力準(zhǔn)備和對流程的認(rèn)識將為其提供減輕失敗的資源和工具,。如果企業(yè)沒有考慮或者沒有這樣做,,那么建議從以下幾個方面評自己的情況。
1. 分散風(fēng)險(xiǎn)
首先,,當(dāng)企業(yè)制定數(shù)據(jù)中心戰(zhàn)略時,,應(yīng)避免將所有數(shù)據(jù)放在一處,這樣做會增加風(fēng)險(xiǎn)因素,。同樣的道理,,也避免將所有關(guān)鍵應(yīng)用程序放在同一位置??紤]將主要的數(shù)據(jù)存放在一個位置,,并將備份數(shù)據(jù)存放在另一個位置。然后逐步了解每個場景,,并確定任何級別的故障將產(chǎn)生怎么樣的影響,。每年重復(fù)一次這個過程。
2. 信任但要驗(yàn)證
企業(yè)從服務(wù)提供商獲得審核記錄,,更重要的是認(rèn)真審查,。在許多情況下,托管數(shù)據(jù)中心需要審計(jì)是否符合HIPAA,SOX和PCI等規(guī)定,。然而有時候,,這種審查可能是由不完全了解IT或數(shù)據(jù)中心如何運(yùn)營的人員來完成。因此,,企業(yè)需要安排了解數(shù)據(jù)中心如何可靠運(yùn)營的專業(yè)人士進(jìn)行審核,。這些第三方審核通常比他們自己識別的風(fēng)險(xiǎn)要容易得多,并且可以提供的信息更加豐富,。在大多數(shù)情況下,,與發(fā)生中斷事故的成本和運(yùn)營成本相比,通過審查和驗(yàn)證措施減輕風(fēng)險(xiǎn)的成本通常是最小的,。
3. 簽署書面協(xié)議
企業(yè)需要知道數(shù)據(jù)中心托管提供商將如何處理中斷事故,。在與供應(yīng)商簽訂合同時,堅(jiān)持簽署書面協(xié)議,,承認(rèn)雙方同意在什么情況將造成中斷,。這一點(diǎn)至關(guān)重要。事實(shí)上,,數(shù)據(jù)擁有者發(fā)現(xiàn)有時協(xié)議并沒有涵蓋他們的想法。此外,,還要書面上保證供應(yīng)商在中斷期間所提供的服務(wù),,并承諾在可接受的時間內(nèi)恢復(fù)。
4. 備份策略
企業(yè)一定要了解自己的業(yè)務(wù)面臨的風(fēng)險(xiǎn),,并為最壞的情況做好準(zhǔn)備,。大多數(shù)托管數(shù)據(jù)中心都有一個替代的站點(diǎn),可以處理基本的災(zāi)難恢復(fù),,以確保他們的客戶對運(yùn)營幾乎沒有影響,。大多數(shù)公司仍在追求在數(shù)據(jù)中心(托管數(shù)據(jù)中心,云計(jì)算或者內(nèi)部部署)中部署雙活數(shù)據(jù)庫,。雖然有些雙活部署接近成功,,但在嘗試使用災(zāi)難恢復(fù)備份時,其中斷卻讓人痛苦,。數(shù)據(jù)庫沒有企業(yè)期望的那樣完整,,數(shù)據(jù)丟失或應(yīng)用程序在故障轉(zhuǎn)換期間很可能受到影響。
5. 了解(并記錄)流程
在事故出現(xiàn)的時候,,所有各方都進(jìn)入危機(jī)模式,。了解(并記錄)企業(yè)的托管服務(wù)提供者如何處理自然災(zāi)害和故障組件等事件很重要。那么采取什么步驟和順序,?企業(yè)要問的一個重要問題是在發(fā)生故障時誰可以訪問,?事故發(fā)生后,其他企業(yè)也會訪問這個服務(wù)器。企業(yè)需要準(zhǔn)確了解其是否可以訪問,,訪問權(quán)限,,誰能訪問,以及在訪問時允許執(zhí)行的操作,。此外,,還要知道在修復(fù)期間將采取什么額外的安全措施來保護(hù)其數(shù)據(jù)。
這個過程的重要組成部分是通信協(xié)議,。開放溝通對于有效管理情況至關(guān)重要,,并為企業(yè)的管理者提供更新信息。企業(yè)需要知道誰是主要聯(lián)系人,,聯(lián)系誰來獲取更新,,以及更新的頻率。另外,,定期驗(yàn)證聯(lián)系人的姓名和電話號碼,。重要的是,如果呼叫列表中的電話號碼作廢或聯(lián)系人員離職,,那么這種情況將會更糟,。
6. 保存記錄文檔
文檔不僅適用于托管數(shù)據(jù)中心,而且適用于所有與數(shù)據(jù)中心業(yè)務(wù)相關(guān)的公司,。在調(diào)查中發(fā)現(xiàn),,許多客戶沒有記錄他們的日常運(yùn)營流程和程序。就算有記錄,,也沒有經(jīng)常進(jìn)行更新,。文檔對于在發(fā)生災(zāi)難時做好準(zhǔn)備至關(guān)重要,這其中包括:了解應(yīng)用程序運(yùn)行的位置,,知道中斷哪些受到影響最大,,誰需要了解更改等。
7. 了解失敗案例
在評估過程中,,大多數(shù)托管數(shù)據(jù)中心商都會告訴企業(yè),,系統(tǒng)是如何安裝的,以防止服務(wù)中斷,。他們還給為企業(yè)提供滿意的客戶的推薦和參考,。但他們通常不會告訴他們失敗的案例。
因此,,組織要了解托管服務(wù)商的失敗案例,,需要詢問他們是否在過去一年遇到事故,如果有過事故,,要了解事故的細(xì)節(jié),,如何糾正,以及采取了哪些步驟來防止再次發(fā)生事故。企業(yè)可以在這些案例中學(xué)到很多關(guān)于托管數(shù)據(jù)中心的知識,,以及他們?nèi)绾翁幚磉@種情況,。處理危機(jī)才是考驗(yàn)合作伙伴是否合格的時候。
8. 了解免責(zé)條款
如果企業(yè)對托管服務(wù)的合作伙伴失去信心,,請務(wù)必了解合約中的免責(zé)條款,,這有助于企業(yè)順利地中止合作。確保合同沒有采用模糊的語言描述,,避免被不合理的條款所限制,。
9. 了解自己的選項(xiàng)
大多數(shù)托管數(shù)據(jù)中心的合同期限為幾年的時間,在此期間,,托管數(shù)據(jù)中心市場的規(guī)模將擴(kuò)大,,新的廠商進(jìn)入市場。雖然企業(yè)可能目前不會尋求采用新的托管數(shù)據(jù)中心,,但應(yīng)該不斷評估其他提供商,,或與顧問或經(jīng)紀(jì)人一起審查自己的選擇。如果發(fā)生失敗,,企業(yè)必須知道移動到新的解決方案的選擇,。在某些情況下,如果失敗是重大的或花費(fèi)的時間太長,,那么后果可能會迫使托管數(shù)據(jù)中心停止?fàn)I業(yè),,讓組織的業(yè)務(wù)遭受損失。
10. 成為數(shù)據(jù)中心行家
在英國電信公司的失敗案例中,,其問題的原因是一個斷路器發(fā)生故障。雖然有人會認(rèn)為關(guān)鍵設(shè)施會避免單點(diǎn)失敗,,但證據(jù)表明并不是這樣,。如今,組織運(yùn)營數(shù)據(jù)業(yè)務(wù),,就必須成為數(shù)據(jù)中心的行家,。組織不但要熟知數(shù)據(jù)中心的知識,而且還要了解市場趨勢,。
通過詢問問題和閱讀報(bào)告,,可以了解數(shù)據(jù)中心解決方案的各個方面情況。最重要的是,,知道潛在的失敗點(diǎn),,了解什么情況可能導(dǎo)致中斷。人們都希望中斷或失敗永遠(yuǎn)不會出現(xiàn),。但是,,如果這樣做,企業(yè)必須為此做好準(zhǔn)備好,并指導(dǎo)其團(tuán)隊(duì),。最好的建議是在這些故障情況下制定一個計(jì)劃,,并按部就班遵循這個計(jì)劃。溝通對計(jì)劃的成功至關(guān)重要,,因?yàn)槿藗冊诎l(fā)生失敗可能會不耐煩,,但他們必須遵守執(zhí)行。通過定期檢查這些重要領(lǐng)域,,將會獲得有效地應(yīng)對中斷或失敗的知識和經(jīng)驗(yàn),。
來源:機(jī)房監(jiān)控 http://rupm.cn/ 本文采集于網(wǎng)絡(luò),如有問題有聯(lián)系刪除
專線:劉剛 13911133352
E-mail:[email protected]
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,,任何模仿本站模板,、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利,!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機(jī)房
在線體驗(yàn)