开关重启故障的深入分析与处理
最近,大楼的网络管理员发现位于四楼的一台交换机的所有端口灯都不亮,交换机的电源指示灯也不亮,因此该层交换机连接的所有客户端系统都无法正常上网。网络管理员仔细检查后发现,交换机的电源输入模块可能存在问题,导致输入电源无法正常向交换机供电。对于这样的硬件故障,只有在短时间内更换新的交换机,才能解决客户端系统无法正常上网的问题;本以为网管马上从仓库里找了一个同型号的备用交换机,赶到故障现场,接上物理线缆,接通电源启动,以为这么简单的设备更换操作,网络故障马上就能解决;但是在更换交换机的过程中,网管发现交换机每次启动稳定没多久,就会莫名其妙的重启。发生了什么事?这个同款的备用开关也有问题吗?由于这台备用交换机已经存放在大厦网管中心的仓库里一年多了,之前已经测试过,这台备用交换机的工作状态正常,所以我会留在手上以备不时之需;现在终于发挥作用了。这种备用设备到关键时候怎么掉链子?于是,网管决定对备用交换机进行全方位的检查和测试,看看是真的有病还是装病。
追踪失败的原因
因为备用交换机连接的是大楼的电子政务内网平台,经常无故重启;为了追查故障原因,网络管理员特意将其与电子政务内网断开,通过控制台控制端口与笔记本电脑连接。连接好物理线缆后,网络管理员点击笔记本电脑中的开始/程序/附件/通信/超级终端菜单选项,打开超级终端程序界面,在该界面中创建一个与备用交换机直接通信的超级终端连接,在备用交换机刚刚开始稳定的瞬间进入超级终端控制窗口;当备用交换机再次重启时,网络管理员在超级终端的控制窗口中看到,交换机的后台系统显示在启动过程中遇到了总线型故障,这可能是备用交换机无法长时间稳定工作的原因。
起初网管怀疑备用交换机的系统镜像文件有问题,导致交换机后台系统无法正常启动运行;现在,网络管理员通过在超级终端控制窗口中监控交换机的启动过程,发现交换机的系统镜像文件已经成功加载并开始运行,说明交换机无故重启失败与系统镜像文件无关,不需要从网上下载更新最新版本的系统镜像文件。
由于备用交换机启动过程中存在总线故障,问题大多出在交换机的总线上;考虑到总线一般位于交换机主板,网管下意识的认为交换机主板可能有问题。多年的维护习惯促使网管决定打开备用交换机的外壳,看看对应的主板是否有明显的问题。
我一想,网管马上找来螺丝刀,把交换机背面的螺丝全部拧开,把交换机的外壳拆下来,把交换机的主板拿出来。借助放大镜,我仔细观察了主板上的每一个电子元件,发现没有明显的烧焦痕迹,只是每一个电子元件的表面都布满了较多的灰尘。这是灰尘在暗中“捣乱”吗?为了消除灰尘因素,网络管理员决定先清理覆盖在主板元件表面的灰尘;说到做到,网络管理员立刻开始用软刷清理电脑主板的灰尘,仔细清理主板的所有“角落”。确认灰尘清理干净后,网管按照正确的操作方法,小心翼翼地将交换机主板恢复到原来的位置,同时安装交换机外壳,拧紧固定螺丝;然后,连接物理线缆,同时打开交换机的输入电源,通过超级终端监控窗口观察。网管看到这次交换机启动顺序一切正常,可以进入交换机后台配置界面,让网管感到很惊讶。
在这次启动过程中,网络管理员没有发现系统提示存在总线类型错误。去除覆盖在开关元件表面的灰尘后,开关的工作状态真的正常吗?网络经理还是有点不安。他再次切断备用开关的电源,过了一段时间后,他重新接通它的连接电源,重启开关系统。在启动过程中,他通过超级终端程序窗口监控交换机的正常顺序,同时没有发现总线类型错误的提示。看来问题确实是由覆盖在开关电子元件上的灰尘引起的。
总结和反思错误
经过仔细分析,网络管理员认为保存在大楼机房仓库的备用交换机之所以不断重启,是因为有不显眼的灰尘。经检查,发现该楼机房仓库卫生环境很差。自从大楼建成以来,仓库几乎没有打扫过。里面的地板、墙壁等角落到处都是灰尘,人在仓库的地板上行走可以留下清晰的脚印。在这种多尘的环境下,由于备用开关包装得很好,灰尘就“溜”进了开关机箱,覆盖了电子元器件的表面。另外,大楼机房仓库平时通风效果不好,待机开关长期放在里面,导致电子元器件表面灰尘越来越多。而且灰尘吸收了空气中的水蒸气后,电子元件表面变得非常潮湿。所以当天网管打开开关电源后,很容易出现类似总线错误的故障。严重时会直接烧坏开关的电子元件。所以,虽然空气中的灰尘不明显,但对交换机等网络设备影响很大。
为了保证局域网的稳定运行,我们建议网络管理员除了管理和维护网络之外,还要做好网络设备的定期清理工作,保证网络设备能够始终工作在干净整洁的环境中。此外,他们应该对一直存放的备用网络设备进行定期通电测试,以避免上述故障再次发生。