隨著信息化進程的加快,電子商務(wù)和電子政務(wù)逐漸成為社會經(jīng)濟的重要組成部分。將業(yè)務(wù)建立在IT系統(tǒng)上的企事業(yè)單位開始重視信息的安全性,這同時也是單位決策者最為關(guān)心的問題。影響信息安全的因素是多方面的,因此需要采用不同的技術(shù)手段來解決。所謂容災(zāi),就是為了防范由于自然災(zāi)害、社會動亂和人為破壞造成的企事業(yè)單位信息系統(tǒng)數(shù)據(jù)損失的一項系統(tǒng)工程。
正確認識容災(zāi)
業(yè)務(wù)連續(xù)性(BC)與數(shù)據(jù)安全性是密切相關(guān)的,數(shù)據(jù)安全性是實現(xiàn)BC的基礎(chǔ)。統(tǒng)計結(jié)果表明,在過去5年內(nèi),全球93%的公司有過丟失重要數(shù)據(jù)而造成業(yè)務(wù)損失的經(jīng)歷,72% 的業(yè)務(wù)沒有可靠的BC計劃,只有18%的最終用戶的數(shù)據(jù)得到了可靠保護。許多企事業(yè)單位雖然已經(jīng)認識到信息安全的重要性,但沒有實施保證信息安全的行動,這其中的原因是多方面的,最主要的一個就是在如何建立容災(zāi)系統(tǒng)的問題上存在種種疑惑。我國企事業(yè)單位在實施容災(zāi)工程方面尚處于初級階段,對容災(zāi)技術(shù)的了解主要來自國外廠商的一些介紹。某些已經(jīng)建成并投入使用的容災(zāi)系統(tǒng),只能實現(xiàn)單一業(yè)務(wù)的數(shù)據(jù)容災(zāi),而且存在總體投入成本高、投資回報率低、容災(zāi)數(shù)據(jù)的可恢復(fù)性難以驗證、需要購買廠商的技術(shù)支持、管理成本居高不下等問題。以上種種因素使得部分準(zhǔn)備建立容災(zāi)系統(tǒng)的用戶裹足不前。
我們應(yīng)該如何認識容災(zāi)呢?容災(zāi)是一項系統(tǒng)工程。用戶在建立容災(zāi)系統(tǒng)之前,首先要進行全面的系統(tǒng)分析,其中包括業(yè)務(wù)系統(tǒng)風(fēng)險分析、容災(zāi)系統(tǒng)對業(yè)務(wù)系統(tǒng)的影響分析和投資效益分析。風(fēng)險分析是檢查那些可能造成數(shù)據(jù)損失或者系統(tǒng)癱瘓的外在和內(nèi)在因素。既然是容災(zāi),必須充分考慮業(yè)務(wù)系統(tǒng)所在地的自然環(huán)境,針對可能發(fā)生的災(zāi)難,準(zhǔn)備相應(yīng)的容災(zāi)對策。容災(zāi)系統(tǒng)肯定對業(yè)務(wù)系統(tǒng)的性能有一定影響,因此,對于那些高負荷運行的業(yè)務(wù)系統(tǒng)必須認真計算。建立容災(zāi)系統(tǒng),除了需要購買必要的設(shè)備外,還要考慮系統(tǒng)維護管理成本和使用通信線路的費用。
設(shè)計容災(zāi)系統(tǒng),必須提出設(shè)計指標(biāo)。既然建立容災(zāi)系統(tǒng)是為了數(shù)據(jù)或者業(yè)務(wù)的快速恢復(fù),容災(zāi)系統(tǒng)的設(shè)計指標(biāo)就與業(yè)務(wù)系統(tǒng)的數(shù)據(jù)可恢復(fù)性密切相關(guān)。RTO(Recovery Time Objective)代表容災(zāi)系統(tǒng)在災(zāi)難發(fā)生后數(shù)據(jù)或者系統(tǒng)恢復(fù)所用的時間。RPO(Recovery Point Objective)代表災(zāi)難發(fā)生時已經(jīng)備份的數(shù)據(jù)與生產(chǎn)中心數(shù)據(jù)的時間差。此外,設(shè)計容災(zāi)系統(tǒng)還需要考慮選擇容災(zāi)備份中心地點。數(shù)據(jù)庫容災(zāi)要保證備份數(shù)據(jù)庫的一致性,最好能夠?qū)浞輸?shù)據(jù)庫進行對生產(chǎn)系統(tǒng)無干擾的實時檢驗。通常情況下,容災(zāi)系統(tǒng)投資較大,使用概率較低,因此,需要對總體投入成本(TCO)和投資回報率(ROI)進行認真的分析和計算。
目前,市場上有多種成熟的容災(zāi)技術(shù)可以選擇,這些容災(zāi)技術(shù)最主要的技術(shù)差異在于數(shù)據(jù)復(fù)制的發(fā)起平臺和接受平臺。數(shù)據(jù)備份后的異地保存方式依靠備份介質(zhì)的移動和保存。存儲子系統(tǒng)邏輯卷之間的數(shù)據(jù)復(fù)制依靠存儲子系統(tǒng)的數(shù)據(jù)復(fù)制軟件。應(yīng)用系統(tǒng)邏輯卷之間的數(shù)據(jù)復(fù)制依靠主機卷管理軟件的遠程數(shù)據(jù)復(fù)制功能。虛擬存儲系統(tǒng)之間的數(shù)據(jù)復(fù)制依靠虛擬存儲管理平臺的邏輯卷復(fù)制軟件。數(shù)據(jù)庫服務(wù)器之間的數(shù)據(jù)庫復(fù)制依靠數(shù)據(jù)庫ODS功能的擴展。
企事業(yè)單位中的決策者在實施容災(zāi)系統(tǒng)工程時,必須制定詳細的容災(zāi)計劃。通過制定容災(zāi)計劃,可以幫助用戶根據(jù)自己的業(yè)務(wù)模式來確定容災(zāi)系統(tǒng)的設(shè)計要求,根據(jù)系統(tǒng)分析決定容災(zāi)系統(tǒng)設(shè)計參數(shù),根據(jù)業(yè)務(wù)系統(tǒng)的區(qū)域網(wǎng)絡(luò)環(huán)境選擇合適的容災(zāi)技術(shù)。容災(zāi)計劃還應(yīng)該包括制定災(zāi)難發(fā)生后的應(yīng)急程序,建立啟動容災(zāi)系統(tǒng)的管理機構(gòu)和各方面的行動小組,以及一些非技術(shù)的因素(如損失評估與保險商、設(shè)備重建與供應(yīng)商、社會公共關(guān)系與系統(tǒng)用戶等)。
總而言之,容災(zāi)是一項系統(tǒng)工程,必須通過制定詳細的容災(zāi)計劃來實施。在后續(xù)文章中,將就如何建設(shè)容災(zāi)系統(tǒng)的其它問題進行深入探討。
容災(zāi)工程的系統(tǒng)分析
容災(zāi)工程的系統(tǒng)分析包括:業(yè)務(wù)系統(tǒng)的風(fēng)險分析(Risk Analysis),容災(zāi)系統(tǒng)對業(yè)務(wù)系統(tǒng)的影響分析(Business Impact Analysis)和容災(zāi)系統(tǒng)的投入和產(chǎn)出分析(Cost-Benefit Analysis)#p#副標(biāo)題#e#
業(yè)務(wù)系統(tǒng)的風(fēng)險分析
建立容災(zāi)工程的最終目的是保證在災(zāi)難造成對業(yè)務(wù)數(shù)據(jù)破壞后,業(yè)務(wù)數(shù)據(jù)的可恢復(fù)性,所以,首先要分析本地區(qū)影響業(yè)務(wù)數(shù)據(jù)安全性的災(zāi)難有哪些種類。災(zāi)難可以分為自然災(zāi)難,社會災(zāi)難和人為災(zāi)難。
自然災(zāi)難包括火災(zāi)、水災(zāi)、地震等突發(fā)自然災(zāi)害造成的業(yè)務(wù)系統(tǒng)的災(zāi)難,而不同地區(qū)的自然災(zāi)害的發(fā)生有一定的統(tǒng)計概率,而且自然災(zāi)害的影響范圍是有一定區(qū)域的,對自然災(zāi)害的風(fēng)險分析相對比較容易。在實施容災(zāi)工程時,特別要注意容災(zāi)備份中心的選擇,建立在自然災(zāi)害較少的地方,在美國,一些州通過立法,規(guī)定容災(zāi)備份中心可選擇的地區(qū)。
社會災(zāi)難包括區(qū)域性電力系統(tǒng)故障,恐怖分子制造的爆炸、戰(zhàn)爭引起定點破壞等災(zāi)難,國內(nèi)外社會不安定因素的存在,必須引起足夠的憂患意識。美國“9?11”事件就是一個很好的例子,一些沒有采取任何容災(zāi)措施的企業(yè)由于核心業(yè)務(wù)數(shù)據(jù)的破壞而最終破產(chǎn),而一些采用了容災(zāi)措施的企業(yè)得以生存,有的建立了備用業(yè)務(wù)系統(tǒng)的企業(yè)的業(yè)務(wù)能夠很快恢復(fù)。
人為災(zāi)難包括IT系統(tǒng)管理人員的誤操作、來自網(wǎng)絡(luò)的惡意攻擊、計算機病毒發(fā)作造成的數(shù)據(jù)災(zāi)難。近幾年,人為災(zāi)難更為突出,特別是計算機病毒造成的數(shù)據(jù)損失觸目驚心。最近,迅速泛濫的“沖擊波”(Worm Blaster)病毒,致使全球上百萬臺計算機中毒,部分網(wǎng)絡(luò)服務(wù)器癱瘓,迄今已給全球商業(yè)界造成了幾十億美元的直接損失,盡管有關(guān)公司發(fā)布了軟件補丁,但余波未靜,“沖擊波”變種仍然伺機而動。研究結(jié)果表明,下一代電腦病毒傳播的速度將更快。一種名為Flash的病毒將在極短時間內(nèi)感染所有的網(wǎng)絡(luò),而另一種名為Warhol的病毒將在15分鐘之內(nèi)傳遍全球。采用后發(fā)制人策略的防計算機病毒系統(tǒng)難以保證數(shù)據(jù)的安全,有必要建立數(shù)據(jù)的備份機制。
容災(zāi)系統(tǒng)對業(yè)務(wù)系統(tǒng)的影響分析
數(shù)據(jù)復(fù)制操作的發(fā)起來自業(yè)務(wù)系統(tǒng),不論來自系統(tǒng)的計算層、網(wǎng)絡(luò)層,還是存儲層,肯定會影響到業(yè)務(wù)系統(tǒng)的性能,對于那些要求高性能的業(yè)務(wù)系統(tǒng)或者已經(jīng)是高負荷運行的業(yè)務(wù)系統(tǒng),必須分析建立容災(zāi)系統(tǒng)對業(yè)務(wù)系統(tǒng)性能的影響。不同容災(zāi)技術(shù)對業(yè)務(wù)系統(tǒng)的影響不同, 比如,一個采用同步數(shù)據(jù)復(fù)制技術(shù)的容災(zāi)解決方案,如果容災(zāi)備份中心與業(yè)務(wù)中心距離超過100公里以上,需要考慮數(shù)據(jù)傳輸?shù)臅r延對業(yè)務(wù)系統(tǒng)IO性能造成的影響,距離越遠,業(yè)務(wù)系統(tǒng)IO性能下降的速度越快。
容災(zāi)系統(tǒng)備份系統(tǒng)運行平穩(wěn)后,需要對備份數(shù)據(jù)(數(shù)據(jù)庫)的可用性進行檢查,一些容災(zāi)解決方案采用的是主/備工作方式,正常情況下,備份中心的數(shù)據(jù)是不能夠打開使用的,只有在業(yè)務(wù)系統(tǒng)工作中斷,或者切斷容災(zāi)進程的情況下,才能夠?qū)浞輸?shù)據(jù)(數(shù)據(jù)庫)的可用性進行檢查,這樣做,勢必對業(yè)務(wù)系統(tǒng)正常運行產(chǎn)生影響。
容災(zāi)系統(tǒng)包括傳輸數(shù)據(jù)的網(wǎng)絡(luò),由于網(wǎng)絡(luò)傳輸擁堵或者中斷等原因,數(shù)據(jù)復(fù)制同樣會造成業(yè)務(wù)系統(tǒng)性能的下降甚至業(yè)務(wù)運行的中斷,當(dāng)?shù)却齻鬏數(shù)臄?shù)據(jù)溢出數(shù)據(jù)復(fù)制發(fā)起端的緩沖區(qū)時,有可能造成數(shù)據(jù)的丟失,或者數(shù)據(jù)傳輸次序的混亂,破壞備份數(shù)據(jù)庫的一致性,使得數(shù)據(jù)庫不可恢復(fù)。#p#副標(biāo)題#e#
容災(zāi)系統(tǒng)的投入和產(chǎn)出分析(CBA)
眾所周知,TCO和ROI是衡量容災(zāi)系統(tǒng)投入和回報的主要指標(biāo),CBA強調(diào)的是投資產(chǎn)出的分析,從業(yè)務(wù)系統(tǒng)發(fā)展的角度考慮容災(zāi)系統(tǒng)投資的合理性。
首先,要考慮準(zhǔn)備建設(shè)的容災(zāi)系統(tǒng)與正在運行的業(yè)務(wù)系統(tǒng)的延續(xù)性,保護前期投資,為了建立新容災(zāi)系統(tǒng)而對原有業(yè)務(wù)系統(tǒng)進行大規(guī)模改造的情況,應(yīng)該盡量避免。其次,要考慮業(yè)務(wù)系統(tǒng)擴展對容災(zāi)系統(tǒng)的影響,特別是存儲容量增加的影響和通信線路負荷的影響,由于單業(yè)務(wù)容災(zāi)系統(tǒng)使用概率很低,CBA的結(jié)果傾向于選擇專業(yè)的數(shù)據(jù)容災(zāi)中心服務(wù)方式。
容災(zāi)系統(tǒng)的設(shè)計指標(biāo)
要建設(shè)容災(zāi)工程必須提出容災(zāi)系統(tǒng)設(shè)計指標(biāo),作為衡量和選擇容災(zāi)解決方案的參數(shù)。目前,國際上通用的容災(zāi)系統(tǒng)的評審標(biāo)準(zhǔn)為Share78:
備份/恢復(fù)的范圍
災(zāi)難恢復(fù)計劃的狀態(tài)
業(yè)務(wù)中心與容災(zāi)中心之間的距離
業(yè)務(wù)中心與容災(zāi)中心之間如何相互連接
數(shù)據(jù)是怎樣在兩個中心之間傳送的
允許有多少數(shù)據(jù)被丟失
怎樣保證更新的數(shù)據(jù)在容災(zāi)中心被更新
容災(zāi)中心可以開始容災(zāi)進程的能力
Share78只是建立容災(zāi)系統(tǒng)的一種評審標(biāo)準(zhǔn),在設(shè)計容災(zāi)系統(tǒng)時,還需要提供更加具體的設(shè)計指標(biāo)。建立容災(zāi)系統(tǒng)的最終目的,是為了在災(zāi)難發(fā)生后能夠以最快的速度恢復(fù)數(shù)據(jù)服務(wù),所以,容災(zāi)中心的設(shè)計指標(biāo)主要與容災(zāi)系統(tǒng)的數(shù)據(jù)恢復(fù)能力有關(guān)。最常見的設(shè)計指標(biāo)有:RTO 和RPO。
各種容災(zāi)解決方案的RTO有較大差別,基于光通道技術(shù)的同步數(shù)據(jù)復(fù)制,配合異地備用的業(yè)務(wù)系統(tǒng)和跨業(yè)務(wù)中心與備份中心的高可用管理,這種容災(zāi)解決方案具有最小的RTO。容災(zāi)系統(tǒng)為獲得最小的RTO,同樣需要投入大量資金。
RPO反映恢復(fù)數(shù)據(jù)完整性的指標(biāo),在同步數(shù)據(jù)復(fù)制方式下,RPO等于數(shù)據(jù)傳輸時延的時間,在異步數(shù)據(jù)復(fù)制方式下,RPO基本為異步傳輸數(shù)據(jù)排隊的時間。實際應(yīng)用中,考慮到數(shù)據(jù)傳輸因素,業(yè)務(wù)數(shù)據(jù)庫與容災(zāi)備份數(shù)據(jù)庫的一致性(SCN)是不相同的,RPO表示業(yè)務(wù)數(shù)據(jù)庫與容災(zāi)備份數(shù)據(jù)庫的SCN的時間差。發(fā)生災(zāi)難后,啟動容災(zāi)系統(tǒng)完成數(shù)據(jù)恢復(fù),RPO就是新恢復(fù)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)損失量。
不同的容災(zāi)解決方案的RTO和RPO是不相同的,下面列舉幾種容災(zāi)解決方案的RTO和RPO的對比:
設(shè)計容災(zāi)系統(tǒng)不能只看RTO和RPO,對于不同的業(yè)務(wù)系統(tǒng)和用戶特殊的要求,其他一些指標(biāo)有可能成為選擇容災(zāi)解決方案的主要因素。譬如,某些地區(qū)為了防范一些特定自然災(zāi)害的風(fēng)險,要求容災(zāi)備份中心與業(yè)務(wù)中