筆者公司局域網(wǎng)采用的是星型拓?fù)浣Y(jié)構(gòu)千兆以太網(wǎng)技術(shù),中心機(jī)房配備一臺華為6506三層路由交換機(jī),各樓層采用華為3026或者背板堆疊的2026接入核心交換機(jī),各部門計(jì)算機(jī)通過直接接入或用級連方式通過接入層交換機(jī)接進(jìn)網(wǎng)絡(luò)。中心的服務(wù)器有多臺,提供FTP、文件服務(wù)、Web等多項(xiàng)服務(wù)。全網(wǎng)分為5個VLAN,根據(jù)業(yè)務(wù)不同為不同網(wǎng)段定義了IP地址。
隨著接進(jìn)網(wǎng)絡(luò)PC的不斷增多及信息流量的增加,在網(wǎng)絡(luò)維護(hù)中遇到過各類問題及故障,現(xiàn)在分析其中影響較大的一個故障,談?wù)勗诠芾砼c維護(hù)上的一點(diǎn)經(jīng)驗(yàn)和體會。
◆故障現(xiàn)象
某日有多個用戶反映網(wǎng)絡(luò)連接情況時通時斷,有時同一樓層的計(jì)算機(jī)都無法互相Ping通,故障用戶分布在多個樓層,故障點(diǎn)不集中。對個別端口做互換測試,故障仍然存在。在故障計(jì)算機(jī)上進(jìn)行測試,發(fā)現(xiàn)可以Ping通網(wǎng)絡(luò)中的部分服務(wù)器或計(jì)算機(jī),Ping核心交換機(jī)的IP地址常出現(xiàn)不通、丟包、時延大的現(xiàn)象。利用華為的網(wǎng)絡(luò)軟件對可管理的交換機(jī)做檢查,沒有明顯的報(bào)錯。
◆故障排查
首先懷疑為核心交換機(jī)物理故障,觀察交換機(jī)的指示燈狀態(tài)以及各端口的狀態(tài),顯示正常。對核心交換機(jī)清除緩存、關(guān)閉重啟,并檢查交換機(jī)的配置情況,沒有改變。
經(jīng)過以上的檢查和測試,分析故障應(yīng)該不在硬件部分,利用Sniffer抓包分析軟件將網(wǎng)絡(luò)中的數(shù)據(jù)包抓下來分析,發(fā)現(xiàn)有大量數(shù)據(jù)包來自同一個MAC地址,目的地址是根本不存在的IP,懷疑是類似于“沖擊波殺手”一類會造成網(wǎng)絡(luò)堵塞的蠕蟲病毒。根據(jù)網(wǎng)絡(luò)正常時建立的IP地址及MAC地址對應(yīng)表查出該機(jī)屬于某層的一臺PC,初步確認(rèn)故障點(diǎn)后將MAC地址對應(yīng)的計(jì)算機(jī)從網(wǎng)絡(luò)中斷開并升級殺毒軟件,然后重新接入網(wǎng)絡(luò),此時故障仍然存在。
為了確定具體故障點(diǎn),要求該單位提供其接入拓?fù)鋱D分析,發(fā)現(xiàn)該單位將分屬于兩個不同VLAN的連線分別連接兩個不同的Hub,當(dāng)天為了使用方便,將兩個Hub用級聯(lián)的方式連接到了一起,將其連線斷開后,故障徹底排除。
◆故障原因
此次故障原因分析主要是由于網(wǎng)絡(luò)中有環(huán)路存在,造成每一幀都在網(wǎng)絡(luò)中重復(fù)廣播,引起了廣播風(fēng)暴。要消除這種網(wǎng)絡(luò)循環(huán)連接帶來的網(wǎng)絡(luò)廣播風(fēng)暴可以使用STP協(xié)議(生成樹協(xié)議),以網(wǎng)絡(luò)中一臺交換機(jī)為節(jié)點(diǎn)生成一棵轉(zhuǎn)發(fā)樹,而樹是沒有環(huán)路的,這樣所有的數(shù)據(jù)都只在這棵樹所指示的路徑上傳輸,就不會產(chǎn)生廣播風(fēng)暴,但由于SPT算法的開銷非常大,所以交換機(jī)上都未啟用該協(xié)議。
為避免在接入層出現(xiàn)同樣的故障,從而影響整個局域網(wǎng)絡(luò)用戶的使用,所以在接入層啟用樹生成協(xié)議是必要的,或者在診斷故障時可以打開SPT協(xié)議協(xié)助確定故障點(diǎn)。
◆經(jīng)驗(yàn)總結(jié)
在故障發(fā)生時,應(yīng)首先了解故障前網(wǎng)絡(luò)的改動,建立完善的網(wǎng)絡(luò)文檔資料。包括網(wǎng)絡(luò)布線圖、IP及MAC對應(yīng)表等,否則在確定MAC地址端口時會消耗大量的時間。現(xiàn)在有很多局域網(wǎng)工具軟件都可以通過掃描獲取網(wǎng)絡(luò)中的計(jì)算機(jī)的這些信息,如LanExplorer等。