隨著網(wǎng)絡(luò)系統(tǒng)在整個企業(yè)業(yè)務(wù)流程中的地位明顯提高,很多企事業(yè)單位都重新定義了網(wǎng)絡(luò)管理的職責,MIS(Manager Information System,信息系統(tǒng)管理)部門孕育而生。信息系統(tǒng)管理中的"管"已經(jīng)拓展到多個方面,其中最主要的包括:網(wǎng)絡(luò)設(shè)備管理(NDM)、網(wǎng)絡(luò)系統(tǒng)管理(NSM)、應(yīng)用性能管理(APM)、桌面管理(DMI)、員工行為管理(EAM)、安全管理(SM)和數(shù)據(jù)庫管理(DBM)七大方面。
在網(wǎng)絡(luò)管理中,如果上述七個方面中的任何一個環(huán)節(jié)出現(xiàn)了問題,某個網(wǎng)絡(luò)設(shè)備或者應(yīng)用系統(tǒng)的物理或邏輯故障都可能造成整個業(yè)務(wù)流程受到阻礙,不能順利執(zhí)行。監(jiān)控管理到每個環(huán)節(jié)、甚至到每個設(shè)備的某個運行進程都是十分有必要的。但在網(wǎng)絡(luò)中如何發(fā)現(xiàn)故障,并且第一時間通知你出現(xiàn)了故障呢?這就需要預警機制。
"一只蝴蝶在紐約中央公園的小黃花上舞動了一下翅膀,很短時間過后東京就掀起一場大風暴,電閃雷鳴!"拓撲學中將這種看似無關(guān)聯(lián)的事情稱作--"蝴蝶效應(yīng)",其理論基礎(chǔ)來源于"混沌理論"。在"混沌理論"中,人們主要關(guān)心"對初始條件的敏感性",這與網(wǎng)絡(luò)管理中關(guān)注故障點的做法非常接近。我們可以將網(wǎng)絡(luò)中的故障誘發(fā)點看成是那只舞動翅膀的蝴蝶,捕捉到網(wǎng)絡(luò)中的蝴蝶,記錄下每次翅膀舞動的節(jié)奏,這就是網(wǎng)絡(luò)監(jiān)控的核心所在。
請人幫忙還是自己動手
有經(jīng)驗的網(wǎng)管員都清楚,運維一個網(wǎng)絡(luò)要比組建一個網(wǎng)絡(luò)更加困難。一個重大的網(wǎng)絡(luò)故障發(fā)生之前,都會產(chǎn)生前兆。分析故障的前兆,這對于負責實施和支持企業(yè)網(wǎng)絡(luò)的任何管理人員來講,都將是你的終極挑戰(zhàn)!
如果我們制定了嚴密的管理方法,故障就不會出現(xiàn)了嗎?如果你有這樣的想法就大錯特錯了。不出現(xiàn)故障的網(wǎng)絡(luò)是不存在的,有人鼓吹說自己優(yōu)化了網(wǎng)絡(luò),因此就說網(wǎng)絡(luò)是安全穩(wěn)定的,堅如磐石的,多長時間沒出現(xiàn)過故障!這是忽悠你的大話,這句話本身就是矛盾的,網(wǎng)絡(luò)之所以需要優(yōu)化,就是某些系統(tǒng)和設(shè)備沒有運行在一個穩(wěn)定的狀態(tài),可能出現(xiàn)故障,優(yōu)化是針對可能出現(xiàn)的故障的優(yōu)化,是因為害怕出現(xiàn)問題而做的優(yōu)化。
一些中小企業(yè)為了避免故障的發(fā)生,都會請專家來幫助分析,幫助調(diào)理優(yōu)化網(wǎng)絡(luò),在付費的同時還欠下了一筆"人情債"。智能化的網(wǎng)管軟件可以幫你省去這筆人情債,這是因為:智能網(wǎng)管能夠自動獲得網(wǎng)絡(luò)中各種設(shè)備的技術(shù)參數(shù),進而智能分析、診斷,預警。將整個網(wǎng)絡(luò)中存在的隱患查找排出,遇到故障后第一時間知曉,加速恢復,支撐企業(yè)信息系統(tǒng)的RPO(恢復點目標)和RTO(恢復時間目標)。
迅速確定蝴蝶的位置
Broadview與眾多一線運維工程師保持著密切的合作關(guān)系,這種密切的合作不是一種泛泛而談的合作。深入網(wǎng)絡(luò)管理一線,傾聽網(wǎng)絡(luò)管理人員的心聲,從實踐中改善我們的產(chǎn)品,這才是我們的合作初衷。我們之間交流的形式是多種多樣的,很多工程師的BLOG紀錄了他們的心聲,其中一篇"網(wǎng)志"說明了預警機制的重要性:
成為MIS部小頭目有一段時間了,壓力太大,而且消費指數(shù)明顯上升。上午的幾個同事早上到40多公里外的機房進行新服務(wù)器的上架和調(diào)試工作。上架和調(diào)試的過程非常順利,中午之前,所有人員都回到了公司總部。但大家的午飯卻沒有吃成,這是因為另外一套應(yīng)用系統(tǒng)出現(xiàn)了故障。在老板發(fā)火之前,我們已經(jīng)嘗試了各種遠程維護的嘗試,唉!沒有辦法,只好返回了異地的機房。
故障解決的很快,因為服務(wù)器無法訪問的原因是由于物理層故障導致的,即:網(wǎng)線脫落!經(jīng)過事后分析,我得出了這樣的結(jié)果:由于機房建設(shè)較早,而且部分信息插座存在老化現(xiàn)象,網(wǎng)線脫落很有可能是上午調(diào)試新服務(wù)器的時候不小心碰落的。再次返回總部的路上,大家由于找不到埋怨的對象(是誰碰落的網(wǎng)線無法得知),我成為了出氣筒:"如果碰落網(wǎng)線的同時,就會得到報警提示,我們就不用一天跑兩趟了!午飯還沒吃,你請吧!" 其實,請頓午飯沒有什么,不過我們公司缺少了這樣的故障及時報警機制到真的是個大問題。下一次的午飯不知道還是不是我請呀?
網(wǎng)絡(luò)管理軟件的首要功能就是報警機制。在上述案例中,如果在故障剛剛產(chǎn)生時,工程師就接了值班人員的電話,或者直接由網(wǎng)絡(luò)管理軟件發(fā)送出短信通知工程師,這種異地徒勞奔波就可以減少很多。
捕捉蝴蝶的工具選擇
網(wǎng)絡(luò)規(guī)模的急劇膨脹以及網(wǎng)絡(luò)結(jié)構(gòu)的復雜程度不斷增加,產(chǎn)生了許多傳統(tǒng)網(wǎng)絡(luò)管理中不曾遇到的問題。網(wǎng)絡(luò)設(shè)備、服務(wù)器、客戶端三者之間的不均衡發(fā)展,在設(shè)備智能化管理的發(fā)展道路上呈現(xiàn)出了不同的指標曲線。諸多因素的共存,使得我們在實現(xiàn)對大量網(wǎng)絡(luò)設(shè)備的監(jiān)控道路上辛苦地走著。在今天的網(wǎng)絡(luò)管理中,客戶端、服務(wù)器和網(wǎng)絡(luò)設(shè)備的維護成本比例越來越大,完全可以與企業(yè)IT硬件的前期投入相提并論。
在傳統(tǒng)的網(wǎng)絡(luò)管理工作中,如果要捉住一只"蝴蝶",我們只能使用"竹竿+網(wǎng)罩"的方式,這是一項非常消耗體力的工作。當系統(tǒng)發(fā)生故障后,網(wǎng)絡(luò)管理員往往根據(jù)經(jīng)驗一步一步地檢查故障,如ping一下路由器、檢查一下系統(tǒng)CPU使用率、內(nèi)存使用率等。網(wǎng)絡(luò)管理隨意性強、沒有規(guī)范,很容易漏掉一些關(guān)鍵點。這種查找故障的方法效率很低,我們常常一邊思考、一邊檢查,耗時長,而網(wǎng)絡(luò)癱瘓時間越長,企業(yè)的損失就越大。
Broadview NCC 網(wǎng)絡(luò)監(jiān)控中心的目標就是為了達到快速有效的捕捉蝴蝶,化繁就簡。如果一款網(wǎng)絡(luò)管理工具的使用比去解決實際網(wǎng)絡(luò)問題還要復雜耗時,那么也就失去了它使用的意義,因為管理工具就是要能夠快速投入使用,幫助網(wǎng)絡(luò)管理員解決實際問題。比如說,網(wǎng)絡(luò)中某臺設(shè)備發(fā)生了故障,向外不停地廣播,嚴重影響了網(wǎng)絡(luò)速度,這時候就需要能快速定位故障所在處,方便后期處理,而不是動用復雜的分析軟件或?qū)S玫脑O(shè)備來處理。
分析蝴蝶的行為
現(xiàn)實生活中,我們要拍攝一只蝴蝶的翅膀舞動可以利用高速攝影機,而網(wǎng)絡(luò)中的蝴蝶是無形的,那么我們的高速攝影機在哪里呢?這就是SNMP(Simple Network Management Protocol)簡單網(wǎng)絡(luò)管理協(xié)議。它被廣泛接受并成為現(xiàn)今網(wǎng)管軟件基礎(chǔ)架構(gòu)的鼻祖,經(jīng)過三次的版本演化,很多管理員甚至將SNMP視為發(fā)現(xiàn)和解決一切故障的法寶,但隨著網(wǎng)絡(luò)和系統(tǒng)管理任務(wù)的增多,手工管理SNMP日志幾乎成了網(wǎng)絡(luò)管理中的累贅。
我們都清楚蝴蝶每次翅膀的煽動是不一樣的,但總是有規(guī)律可循的。這就和網(wǎng)絡(luò)管理中新生成的事件一樣,如果可以自動識別當前事件與前面事件的關(guān)系就可以找到規(guī)律。Broadview NCC使用SNMP,但不局限于日志的收集,而是將日志分析放在首位。記錄下網(wǎng)絡(luò)管理中的每次觸發(fā)事件,自動將觸發(fā)情況立即記錄到相關(guān)角色、設(shè)備、線路、流程、資源的歷史記錄中,同時將此信息記錄到事件報告中。每次觸發(fā)事件系統(tǒng)都自動生成事件報告,可以由集中維護人員根據(jù)需求對各類事件的類型的制定和分類。例如:根據(jù)事件的來源、類型、報警級別等,實現(xiàn)對事件控制臺智能化管理,自動區(qū)分和抑制重復事件,減少系統(tǒng)負載。
![]() |
圖:SNMP記錄網(wǎng)絡(luò)管理中每次觸發(fā)事件 |
結(jié)束語:目前,企業(yè)級的網(wǎng)絡(luò)基礎(chǔ)建設(shè)在許多地區(qū)已經(jīng)基本完成,對網(wǎng)絡(luò)管理的要求日益迫切,而且對網(wǎng)絡(luò)管理的功能定義實際已經(jīng)超出了狹義的網(wǎng)絡(luò)管理,而轉(zhuǎn)為廣義的網(wǎng)絡(luò)管理即網(wǎng)絡(luò)架構(gòu)管理。從上圖中我們可以看到,網(wǎng)絡(luò)管理的四個發(fā)展階段,但我相信絕大多數(shù)人仍然站在第一個階段,或者開始站在第二個階段的起跑線上。"應(yīng)對型"的網(wǎng)絡(luò)管理模式已經(jīng)不再適合我們了,捕蝶人的角色勢必也將改變。