自從有計算機網絡以來,管理員一直在試圖保證這些網絡的運行。故障硬件、編寫糟糕的軟件、不可靠的連接和上帝的隨機行動之間似乎一直在進行著斗爭。隨著云計算的出現,我們首次接近實現一個能夠把重點較少地放在保持應用程序的運行方面,而把重點更多地放在效率和有效性方面的計算環境。
在云計算時代,運行時間保證和服務級協議已經開始成為大多數云計算提供商的標準的要求。谷歌、亞馬遜河微軟都開始執行某種類型的服務級協議。他們這樣做是為了向云計算用戶提供利用云計算系統取代目前的計算系統的信心。大多數這些云計算平臺的一致目標都要提供99.999%的可用性,也就是所謂的5個9的神話。這相當于每年的關機時間為大約5分15秒。5個9的問題是它是一個沒有意義的目標。人們可以隨意操縱這個目標來滿足你需要它表達的含義。
在發生物理故障的時候,如FlexiScale公司最近發生的故障,硬件關機的時間很短,但是,從備份狀態恢復正常可能需要更長的時間。一個微小的云計算故障可能導致軟件故障的連鎖反應,可能引起依賴云計算的人們的軟件程序中斷幾個小時,甚至幾天。這就意味著你的云計算也許能夠達到99.999%,但是,云計算托管的你的應用程序卻不能達到99.999%。
最近,云計算領域有許多人似乎正在開始討論令人恐懼的五個九(99.999%)概念的替代方法并且正在考察更加主動的而不是被動地防御災害的配置/部署云計算基礎設施的方法。人們日益達成的共識是基于云計算的災難恢復也許是云計算的“殺手應用”。要實現這個目標,我們需要開始創建假設應付故障的參考架構和模型。人們不必擔心下一個災難將在什么時候發生。災難肯定將會發生的,當災難發生的時候,一切都會照常工作。
Zeronines公司創始人Alan Gin最近在一次談話中介紹了一個有趣的理論。他說,大多數災難恢復計劃的問題是這種災難恢復是被動的,是災難已經對你的公司造成損害之后的恢復。這是一種不好的策略。當前的災難恢復架構使用“容錯”的同義詞,是以交叉變換模型為基礎的。也就是說,一個系統的主要組件出現故障,破壞了運行,然后,容錯機制讓備用組件恢復運行。目前交叉變換的問題是它把沒有計劃的關機時間看作是不可避免的、可以接受的,并且因此要求那個業務停止。
這使人們想起了主要計算機存儲設備廠商EMC公司的一位官員說過的一句話。他說,當前的容錯基礎設施是等待發生的故障。
要在當前一直在線和一直可用的世界里保持競爭力,我們需要重新考慮災難恢復的基本的思路。使用云計算的主要好處是你能夠在他們使用新出現的全球云計算工具之前做出這些類型的容錯的假設。故障不是能否發生的問題,而是什么時候發生的問題。當你考慮到應用程序組件將會發生故障的因素的時候,你就能夠制作一種能夠把“故障當作服務”的應用程序。這種應用程序總是可用,但是,沒有一個9。