從最初很小的市場規(guī)模到今天被市場廣泛接受,重復(fù)數(shù)據(jù)刪除技術(shù)的成長由不斷增長的供應(yīng)商所印證,這些供應(yīng)商已經(jīng)有標(biāo)準(zhǔn)的重復(fù)數(shù)據(jù)刪除產(chǎn)品,或在其備份產(chǎn)品中整合了這部分功能。本篇回顧了重復(fù)數(shù)據(jù)刪除技術(shù)的各項(xiàng)優(yōu)勢,并進(jìn)一步分析了這些優(yōu)勢在具體應(yīng)用環(huán)境中如何發(fā)揮其作用。
文件、數(shù)據(jù)塊和長度可變的數(shù)據(jù)段的重復(fù)數(shù)據(jù)刪除技術(shù)
基于所采用的不同技術(shù),數(shù)據(jù)是否重復(fù)可以有不同的檢測方式。舉例來講,文件級的重復(fù)數(shù)據(jù)刪除(亦稱為實(shí)例存儲,SIS)可以識別完全一樣的文件,將其僅保存一次,并將后續(xù)完全一致的拷貝替代為指向該文件的一個(gè)指針。基于文件級別的重復(fù)數(shù)據(jù)刪除技術(shù)有Novell公司的GroupWise和Microsoft公司的Exchange郵件系統(tǒng)(雖然在Exchange 2010中并不支持SIS)。EMC公司同樣在其存儲陣列上提供文件級別的重復(fù)數(shù)據(jù)刪除,包括Clariion、Celerra和其最新的VNX系列。
文件級別的重復(fù)數(shù)據(jù)刪除技術(shù)的劣勢在于精細(xì)度不夠,并且不能提供次文件級別的重復(fù)數(shù)據(jù)刪除功能。這意味著一個(gè)文件中即便有很小的一處改動(dòng)也會被認(rèn)為是一個(gè)全新的文件而另外儲存。文件級別的重復(fù)數(shù)據(jù)刪除一般用于郵件環(huán)境,這其中同樣的附件會被同時(shí)發(fā)送給諸多參與者,或者是非結(jié)構(gòu)化的數(shù)據(jù)存儲環(huán)境中,這種環(huán)境下變化率很低。不過,文件級別的重復(fù)數(shù)據(jù)刪除并不適用于結(jié)構(gòu)化數(shù)據(jù)環(huán)境中,這種環(huán)境下諸如數(shù)據(jù)庫等會持續(xù)變化。
為了解決文件級別的重復(fù)數(shù)據(jù)刪除技術(shù)缺乏精細(xì)度的特點(diǎn),各廠商將數(shù)據(jù)分割成更小的“數(shù)據(jù)塊”,以固定或變化的長度。只存儲唯一性的數(shù)據(jù)段并將識別出重復(fù)的其它數(shù)據(jù)段的用指針方式代替,這樣就能夠?qū)崿F(xiàn)更高的數(shù)據(jù)刪除率。CommVault系統(tǒng)公司、FalconStor軟件公司和NetApp公司都是采用塊級別重復(fù)數(shù)據(jù)刪除技術(shù)的廠商;而相對的,EMC的Data Domain、Avamar和Sepaton公司的產(chǎn)品都是基于長度變化的數(shù)據(jù)段的。這和數(shù)據(jù)塊級別重復(fù)數(shù)據(jù)刪除技術(shù)的不同之處在于,數(shù)據(jù)塊的方式下,一個(gè)數(shù)據(jù)塊的變化會引起整個(gè)數(shù)據(jù)集中所有數(shù)據(jù)塊都被作為新的數(shù)據(jù)塊存儲,因?yàn)檎麄€(gè)數(shù)據(jù)集變了。在長度變化的數(shù)據(jù)段的重復(fù)數(shù)據(jù)刪除技術(shù)下這種情況會好些,不過這種技術(shù)更為復(fù)雜并消耗很多資源。次文件重復(fù)數(shù)據(jù)刪除技術(shù)(塊級別或長度變化方式)在備份環(huán)境中經(jīng)常使用,這種環(huán)境下多個(gè)文件備份版本通常僅包含很小的改動(dòng)。
帶內(nèi) VS.帶外重復(fù)數(shù)據(jù)刪除技術(shù)
重復(fù)數(shù)據(jù)刪除技術(shù)可分為在線(或稱帶內(nèi))方式,即數(shù)據(jù)在寫入存儲介質(zhì)時(shí)分析是否有重復(fù),以及相應(yīng)的,后處理(或稱帶外)方式則在數(shù)據(jù)寫入磁盤后再進(jìn)行重復(fù)數(shù)據(jù)刪除操作。帶外的重復(fù)數(shù)據(jù)刪除技術(shù)的優(yōu)勢在于其不會影響寫入性能,不過這樣就要求有足夠的磁盤空間來存儲所有數(shù)據(jù),直到業(yè)務(wù)非高峰時(shí)刻時(shí)進(jìn)行的重復(fù)數(shù)據(jù)刪除操作。另一方面,帶內(nèi)的重復(fù)數(shù)據(jù)刪除技術(shù)可以在第一時(shí)間減少空間占用,不過其更耗資源,這有可能會影響寫入的性能。采用何種技術(shù)是對于實(shí)時(shí)數(shù)據(jù)減少和性能之間的權(quán)衡,不過隨著技術(shù)的進(jìn)步,性能減少的影響將更容易被接受。帶內(nèi)的重復(fù)數(shù)據(jù)刪除產(chǎn)品包括FalconStor的產(chǎn)品,以及EMC的Data Domain和Sepaton,IBM公司的ProtecTier(之前的Diligent產(chǎn)品);而NetApp則提供帶外的重復(fù)數(shù)據(jù)刪除技術(shù)。
源端 VS.目標(biāo)端重復(fù)數(shù)據(jù)刪除
基于所采用的技術(shù),重復(fù)數(shù)據(jù)刪除可以在源端(數(shù)據(jù)發(fā)出端)或者目標(biāo)端(數(shù)據(jù)接受端)進(jìn)行。區(qū)別在于所針對的備份環(huán)境,備份環(huán)境通常基于客戶端/服務(wù)器模式(或稱為發(fā)送端/接收端模式)。源端重復(fù)數(shù)據(jù)刪除在備份客戶端上安裝軟件,客戶端和備份服務(wù)器都必須支持重復(fù)數(shù)據(jù)刪除。這意味著在現(xiàn)有的備份環(huán)境中可能需要進(jìn)行修改。而另一方面,目標(biāo)重復(fù)數(shù)據(jù)刪除通常不需要更改環(huán)境,支持重復(fù)數(shù)據(jù)刪除的目標(biāo)設(shè)備會被備份服務(wù)器認(rèn)為另一臺磁盤陣列或虛擬磁帶庫。源端重復(fù)數(shù)據(jù)刪除適用于降低所要通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù),比如從遠(yuǎn)程辦公環(huán)境中備份至中心節(jié)點(diǎn)。決定時(shí)權(quán)衡點(diǎn)在于源端的重復(fù)數(shù)據(jù)刪除會影響客戶端的性能,并從而波及到整個(gè)備份環(huán)境,并且重復(fù)數(shù)據(jù)刪除僅限于客戶端級別的數(shù)據(jù),而不會考慮多個(gè)備份客戶端可能有相同的數(shù)據(jù)。
設(shè)備方式 VS.軟件方式
另一項(xiàng)考慮因素是選擇設(shè)備方式還是軟件方式的重復(fù)數(shù)據(jù)刪除。設(shè)備方式的重復(fù)數(shù)據(jù)刪除通常可以和現(xiàn)有環(huán)境無縫整合,無需太多變動(dòng)。舉例來說可以配置一臺備份服務(wù)器將數(shù)據(jù)寫入支持重復(fù)數(shù)據(jù)刪除的磁盤陣列(比如EMC的Data Domain)。另一方面,重復(fù)數(shù)據(jù)刪除軟件通常需要改變你的現(xiàn)有環(huán)境,尤其是從基礎(chǔ)備份軟件遷移到支持重復(fù)數(shù)據(jù)刪除的備份軟件時(shí)。
競爭友商可能會宣稱設(shè)備方式的重復(fù)數(shù)據(jù)刪除會讓硬件廠商鎖定用戶,使得用戶必須使用某種存儲或設(shè)備。不過基于軟件的重復(fù)數(shù)據(jù)刪除同樣有廠商鎖定的風(fēng)險(xiǎn),重復(fù)數(shù)據(jù)刪除功能也會被限定在某種特定軟件平臺上。
諸如IBM和NetApp等供應(yīng)商提供網(wǎng)關(guān)設(shè)備,可以提供重復(fù)數(shù)據(jù)刪除數(shù)據(jù)存儲在第三方存儲上。不過從各種角度看,不論硬件還是軟件方式的重復(fù)數(shù)據(jù)刪除都是私有化的技術(shù)。
重復(fù)數(shù)據(jù)刪除可以為用戶帶來諸多利益,不過如何選擇合適的重復(fù)數(shù)據(jù)刪除方式需要仔細(xì)地考量你的備份環(huán)境。
原文地址:http://www.searchstorage.com.cn/showcontent_52111.htm