我認為,重要的是:提高你的故障檢修技巧是長久之計,而不是得到后就可以忘記的結果。
故障檢修技巧雖然主要是通過積累經驗來提高,但實際上,也可以通過閱讀(文章、博客和論壇等)、培訓和其他的方式獲得。
如果你缺乏使用Linux服務器的經驗,這并不意味著在解決問題時你就就一定缺少經驗,即使你具有豐富的技藝也可能只在特定的故障檢修情形中看到其他人會忽視的方面。Nike有一句廣告詞,我很贊賞,這就是:Just do it! 就是說,不要讓你的經驗阻礙你獲取更多的經驗!
故障檢修的步驟
這里列出的步驟,是用于解決所有問題的“基礎”,是指導解決問題的基礎。
故障檢修的步驟有:識別問題、診斷故障、找出解決方案并實施、確認故障是否解決、記錄解決方案。
識別問題:就是鑒別問題是屬于硬件問題還是故障問題。
診斷故障:區(qū)分故障的癥狀和起因。確認系統(tǒng)故障是否由于底層的、基本的因素所致;確定這樣的癥狀,是否有利于解決其起因。
找出解決方案并實施:毫無疑問,這個步驟通常是反復的,一次又一次的過程。
確認故障是否解決:上個步驟的解決方案一般需要在不同條件下測試多次。
記錄解決方案:有時候,我經常成功的實踐了一個很好的解決方案,但是忘記了這是在以后遇到同樣的問題時更好解決問題的一個關鍵。這種情況下,就不得不重新學習這個方案,很明顯,花費幾分鐘的時間記錄在排除故障過程中的每一個解決方案很快就能使你獲得巨大的意外收獲。
總結
微軟公司提出過一個故障檢修方法論:謂之D.E.T.E.C.T。這是由一組微軟微軟技術支持工程師創(chuàng)立的方法,為我們提供了一個策略。實際上,這些步驟是放之四海皆準的,無論是交換機故障,還是Windows服務器故障,抑或是Linux服務器故障,都適用。
D.E.T.E.C.T是:
D Discover 發(fā)現(xiàn)問題
在用戶層次上與用戶交談,試著了解他們使用的軟件(如果可能的話,包括發(fā)布的版本)以及他們的硬件是否在硬件兼容性列表內。問題表現(xiàn)出的癥狀是什么。
E Explore 探索界限
是否能夠鑒別自從上一次報告系統(tǒng)正常以來都發(fā)生了那些變化?能否鑒別問題發(fā)生時運行的是什么軟件嗎?
T Track 跟蹤可能的方法
你可以從處理這些故障中學習并通過跟蹤所采取的步驟,避免陳舊的、效率低下的嘗試——錯誤的方法。
E Execute 實施方法
撇開管理問題,以便在第一個方案的嘗試失敗時不會受到其它部門的干擾。若方案A失敗就應考慮方案B。不要忘記在執(zhí)行解決問題的任務之前備份重要的系統(tǒng)和應用程序。
C Check 檢驗成功
T 總結
不管是什么樣的故障排除方法,本質上所有的方法都是遵從一個基本的模式:
發(fā)送者——→接受者
輸入——處理——輸出模式
按照微軟D.E.T.E.C.T方法論,進行故障查找明顯的是成功解決系統(tǒng)問題的第一步。
故障檢修的定義
方法論
相信很多網管員都會嘆息過:如果能夠恢復這一切就好了。
在很大程度中,故障檢修是一種方法論。木工有一句話可以引用在這里:兩次測量,一次切斷。網管員在任何情況下都應三思而后行。
遵從故障排除的黃金規(guī)則可以減少你的痛苦:“一次只改變一個變量。”一次改變一個變量,然后進行成功或失敗的測試,這樣就能有效的證明我們排除故障工作工作的結果。這就是方法論的精髓。
我再次強調:在排除故障時,一次一個變量并進行測試。相信我!