作者:Veeam產(chǎn)品戰(zhàn)略高級總監(jiān)RickVanover
災(zāi)難恢復(fù)(災(zāi)備)或災(zāi)難數(shù)據(jù)恢復(fù)是組織在面對諸如極端天氣事件、網(wǎng)絡(luò)事件或其他導(dǎo)致重大中斷的災(zāi)難事件時,關(guān)于如何恢復(fù)關(guān)鍵數(shù)據(jù)和系統(tǒng)并及時做出響應(yīng)的計劃。雖然這是一個簡單的概念,但它常常被人們忽視,因為許多組織不會定期重新審視災(zāi)備計劃,并且常常在發(fā)生重大事件后才意識到其重要性。
無論是企業(yè)還是其他組織,通常而言,他們不能持續(xù)離線或“停機”幾天,因為網(wǎng)絡(luò)(電腦)系統(tǒng)必須保持運行以確保組織正常運營。在更新災(zāi)備計劃方面,部分企業(yè)或許已經(jīng)走在前列。但隨著技術(shù)、方法和災(zāi)害本身的變化,仍需要集中精力維持這些計劃。為了做好準(zhǔn)備,組織必須定期更新災(zāi)備計劃、培訓(xùn)員工并采取主動而非被動的態(tài)度。組織不能等待著問題出現(xiàn)后再去解決,而是提前演練其計劃,并監(jiān)控和阻止任何可能導(dǎo)致數(shù)據(jù)丟失的行為。
一個成功的災(zāi)備計劃是什么樣的
成功的災(zāi)備計劃包括在發(fā)生意外事件或災(zāi)難時應(yīng)該采取的明確步驟,這些事件或災(zāi)難會破壞資源并使日常運營面臨風(fēng)險。該計劃應(yīng)包括在發(fā)生事件時采取的戰(zhàn)術(shù)步驟以及明確的角色和責(zé)任。
制定災(zāi)備計劃的第一個步驟是對整個IT基礎(chǔ)設(shè)施進行審查和分析。為了進行這種審查,災(zāi)備計劃應(yīng)該有一個記錄了從硬件和軟件到設(shè)備、應(yīng)用程序等的資產(chǎn)清單。清單中應(yīng)該包含版本歷史、系統(tǒng)位置、備份和保護方式以及任一備份的存儲位置。所有這些細(xì)節(jié)都是至關(guān)重要的,這樣當(dāng)災(zāi)難發(fā)生時,組織的領(lǐng)導(dǎo)者就可以通過清單,準(zhǔn)確了解系統(tǒng)在事件發(fā)生前是什么樣子。
數(shù)據(jù)的備份及存儲對災(zāi)備計劃至關(guān)重要,它可以在制定恢復(fù)草案時為組織節(jié)省時間和金錢。如果一切都已備份并可用,那么讓系統(tǒng)恢復(fù)到之前的狀態(tài)就會更容易。考慮到這一點,一個關(guān)鍵的數(shù)據(jù)保護做法可以為組織節(jié)省時間、金錢并減輕壓力,它就是Veeam的“3-2-1-1-0”備份原則。該原則表明了,組織應(yīng)該在至少2種不同類型的存儲介質(zhì)上保存至少3份數(shù)據(jù)副本,并在異地保存1份備份。異地備份在面對像龍卷風(fēng)、颶風(fēng)或其他極端天氣事件的情況下是尤為重要的。此外,其中1個存儲介質(zhì)應(yīng)該是離線的。最后,所有的可恢復(fù)性方案要確保0錯誤。
此備份原則確保了數(shù)據(jù)被妥善備份,并且備份的位置有足夠多的變化,進而確保一場災(zāi)難不會破壞所有的數(shù)據(jù),并在發(fā)生任何災(zāi)難情況時都可以為組織提供完整的備份。
測試和演練災(zāi)備計劃
隨著組織推進IT現(xiàn)代化并推出新技術(shù),他們也必須定期更新災(zāi)備計劃以適應(yīng)新變化,否則在發(fā)生災(zāi)難時部分IT基礎(chǔ)設(shè)施可能會丟失。更新計劃不僅包括將新項目添加到技術(shù)或工作負(fù)載列表中,還包括在需要時添加其他流程以創(chuàng)建整體的恢復(fù)計劃,確保組織了解所運用的技術(shù)并就災(zāi)備計劃進行相應(yīng)的員工培訓(xùn)。
未來,為了盡可能多地消除人為錯誤,自動化將在運行、監(jiān)控和提供災(zāi)備計劃方面發(fā)揮關(guān)鍵作用。
為了確保災(zāi)備計劃是全面的,并且員工在面對意外事件時知道自己的責(zé)任,組織應(yīng)該演練他們的計劃。組織應(yīng)定期對災(zāi)備計劃進行測試,并以現(xiàn)實世界中的常見情況作為測試主題,比如極端天氣事件、人為錯誤導(dǎo)致的數(shù)據(jù)意外刪除或系統(tǒng)鎖定、以及網(wǎng)絡(luò)攻擊等。在這些場景下進行測試,對于確保災(zāi)備計劃能夠有效抵御各種類型的災(zāi)難是至關(guān)重要的。
測試還可以為組織提供有關(guān)優(yōu)先級順序的重要信息。如果發(fā)生影響多個數(shù)據(jù)領(lǐng)域的事件,組織領(lǐng)導(dǎo)者需要知道恢復(fù)的優(yōu)先級,并且災(zāi)備計劃是否可以滿足多個恢復(fù)操作的需求。如果不對災(zāi)備計劃進行測試,可能會導(dǎo)致管理不善、混亂,并最終導(dǎo)致組織在災(zāi)難發(fā)生時反應(yīng)遲鈍和恢復(fù)緩慢。
最后,災(zāi)備計劃應(yīng)該包括技術(shù)性較低的步驟,比如緊急溝通計劃,里面詳細(xì)說明組織將就內(nèi)部和外部情況分享什么內(nèi)容,以及如何分享。此外,計劃中應(yīng)明確每個員工的角色和職責(zé)所在。當(dāng)災(zāi)難發(fā)生時,組織中的每個人都應(yīng)該協(xié)同工作來實施災(zāi)備計劃,使系統(tǒng)盡快恢復(fù)全面運轉(zhuǎn)。
雖然這看起來工作量很大,但要知道,為災(zāi)難做準(zhǔn)備的成本通常低于處理一場災(zāi)難和嘗試恢復(fù)丟失數(shù)據(jù)的成本。
災(zāi)備計劃的未來
在過去的一年里,許多組織不得不迅速做出支持遠(yuǎn)程工作環(huán)境的相關(guān)決策。在可預(yù)見的未來,靈活的遠(yuǎn)程工作環(huán)境是可能的,因此組織應(yīng)確保花時間更新他們的災(zāi)備計劃,以適應(yīng)各種變化,并確保考慮到了所有設(shè)備。
在災(zāi)備計劃方面,組織需要在必要時做出一些相應(yīng)的調(diào)整,這包括當(dāng)變化發(fā)生時對員工進行培訓(xùn),讓他們演練計劃,并向他們及時更新需求變化的情況。在災(zāi)備計劃方面,組織的每個成員都有著自己的角色,并對計劃的成功發(fā)揮著作用。積極主動的為今天的災(zāi)難做好準(zhǔn)備,組織就可以胸有成竹地面對未來可能出現(xiàn)的災(zāi)難。(本文由Veeam產(chǎn)品戰(zhàn)略高級總監(jiān)RickVanover撰寫)