每一個管理員都希望擁有一個不出故障的網絡,但這肯定是一種奢望,IT技術以及網絡設備的發展即使已經超越了你的想象,但在IT運維管理中還是無法甩掉故障管理的包袱。當然,很多“成功”的運維大師都會以解決各種奇異問題為榮,但如果支撐業務系統的對象數量超越了你的記憶容量,那些憑借經驗修復網絡的高手就很可能敗下陣來。
蹊蹺的2分鐘
有一些很蹊蹺的網絡故障時常會發生在我們身邊,在對各種可能因素進行逐一排除后,仍然不能找到故障原因。而當手中拿著數十個故障診斷工具,原始命令熟記于心的時候,在這些特殊網絡故障面前,如果只給你2分鐘怎么辦?
某公司網絡與上級公司網絡,每隔兩個小時就會斷開兩分鐘,之后又會自動恢復正常。同時,由于這套網絡系統涉及到廣域網絡,跨越的節點非常多,且數十套業務流量也跑在里面,理論上講,可能的故障點非常多,很長一段時間,用戶都束手無策。進而,公司請來了“高手”,但留給運維大師捕捉故障的時間段很短,2小時等待,再加上2分鐘的破案時限,面對這個十分奇怪的現象,即使這位高手擁有十多年的運維經驗,最后也只能卑躬臣服。
北塔BTIM揭曉答案
求醫無果,最后,這家企業決定尋求專業運維廠商的支持。在采用北塔軟件的北塔BTIM后,通過北塔BTIM的物理拓撲圖發現某臺路由器異常,再通過BTIM抓獲嫌犯,察看該設備的歷史記錄,發現該路由器的2M端口每隔兩個小時就會自動DOWN掉,然后再重新啟動,重啟的時間剛好就是兩分鐘左右。在定位了故障設備后,對其進行針對性的分析,發現是由光端機和該路由器之間的時鐘不同步引起的,由此成功地解決了該問題。
從這個既復雜、又簡單的網絡故障中我們可以看到,隨著企業對網絡的依賴程度越來越高,運維管理團隊確實需要一些高端人才的加入,但如果在日常的IT運維管理中,過多的依靠IT運維工程師的工作經驗,最終會導致網絡故障處理效率不高,并造成IT運維服務質量停滯不前的局面。
故障管理的本質是什么?
在我們崇尚的ITIL參考讀物中,“故障管理”的目標就是將 IT 基礎設施錯誤引起的事故和問題對業務的負面影響減到最小,并防止與這些錯誤相關的事故再度發生。為了實現這個目標,“故障管理”力求第一時間找到引發事故的根源,并著手改善或糾正該情況。
作為國內領先的IT運維管理專家,北塔軟件認為:IT運維管理部門的真正價值并不是出現故障之后的處理,而是在故障發生前能夠準確判斷,排除隱患,并避免故障的發生。所以,一個最能幫助企業有效對抗故障難題的方法,是建立主動性的發現機制和流程,可利用北塔BTIM等運維管理軟件,首先實施全網范圍的基礎設施監控,并對每次故障進行“記錄、跟蹤、監督和分析”。之后,便可限時完成受理、派工、處理、反饋和回訪,將服務過程按流程自動化、規范化和標準化運作起來。
在IT運維管理中,我們決不能低估人的價值,但完全依賴個人經驗,就很難讓IT運維服務水平再上一個臺階。反之,利用IT運維管理軟件,將有價值的維修方法、故障排除的方案和經驗知識,統一納入知識庫,日積月累后,便建成了IT運維部門“百科全書”。這種良性的循環,既能發揮核心人員的故障排查經驗,又能幫助監控或值班工程師快速找到解決辦法,提高服務的及時率,從而構建一個超越現在的運維團隊。