交换机日常维护秘籍,还得是老网工的经验之谈最牛逼

2025-04-25ASPCMS社区 - fjmyhfvclm

️号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

上午好,我的网工朋友。

对于新手网工来说,交换机就是“每个机柜里最亮的仔”,但真到了维护的时候,发现压根没人教你怎么搞——只能自己瞎摸索。

但在老网工眼里,这事有章法,有套路,更有细节。

今天这篇文章,我们不谈花里胡哨的理论,只说几个你日常维护中必须掌握的操作,从环境要求到命令配置,从软硬件检查到预防性维护,一步步把思路捋清楚。

️ps.关于日常运维,其实目前大趋势仍然是用AI去赋能网工工作。

具体要怎么做,我周四请到张总来咱们俱乐部聊一聊,感兴趣的朋友可以顺手预约一波。

️今日文章阅读福利:️《华为交换机开局配置一本通 》

️私信发送暗号“一本通”,即可获取这份优质PDF资源。

️01 交换机环境要求!别小看这些细节

交换机这种设备,虽说没服务器“高贵”,但对运行环境要求也不低,尤其是放在机房里,温湿度、电源质量、灰尘控制,这些都得管起来。

️温湿度控制

  • ️推荐温度:20℃~25℃;
  • ️湿度建议:40%~70%,不要太干,也不要太湿。
  • ️如果太热:交换机核心芯片发热大,可能烧板子;
  • ️如果太干:静电上身,轻则端口烧掉,重则整板失效。

???? ️老网工tips

用温湿度计挂在机柜里,定期记录;空调出风口别对着设备吹,避免冷热交替;机房放除湿器或者加湿器,根据季节调整。

02 电源/线缆这些“小事”,才最容易出事

有个网工调试新上的汇聚交换机,连不上网,结果一查——电源插头松了点,电压不足导致设备不断重启。

️电源方面

  • 使用稳压电源或UPS;
  • 电源线不要缠绕在一起,要整齐、标签清晰;
  • 定期检查是否有“热插拔”风险,比如接触不良、电源老化。

️网线/光纤

  • 线缆不能死弯,不然影响传输;
  • 光纤记得插紧,有经验的都知道光纤没插到底的“绝望”;
  • 尽量统一线缆管理标准,比如不同业务用不同颜色线缆。
️03 每日/每周/每月维护清单怎么搞?

别以为巡检只是“登上设备敲几个命令”,真正的巡检,要有节奏、有重点。

️每日巡检

  • 查看端口状态、CPU/内存使用率
  • 是否有告警(log、trap、LED灯)
  • 网络连通性(Ping、Traceroute)

️每周巡检

  • 核查配置文件(比对是否被修改)
  • VLAN、ACL、链路聚合状态确认
  • 检查SNMP、Syslog是否正常工作

️每月巡检

  • 清理无用配置
  • 检查风扇运行声(异响往往预示问题)
  • 检查固件版本,是否存在已知BUG
️04 软硬件维护这块,不懂就容易吃亏

设备出问题,多数不是某个配置改错了,而是一些「你没注意的小事」导致的。老网工看一眼就知道是硬件故障还是系统抽风,新手要具备的,是基础维护逻辑和判断思路。

️硬件维护建议

  • 定期清灰。尤其机房在装修或灰尘大的地方,灰尘堵风扇,发热问题容易出。
  • 检查风扇、电源指示灯、端口灯状态是否异常,很多小故障就是从一盏灯发现的。
  • 观察设备是否有鼓包、变形、焦味等异常现象。

️软件维护建议

  • 保存配置文件,定期备份。尤其是大项目上线前或更改重要配置后。
  • 查看CPU和内存使用率:资源持续100%基本说明设备快顶不住了。
  • 日志监控不能缺,Log信息里藏着很多你可能忽略的报错信息。
️05 Console登录:最底层的生命线

设备挂了不能远程连怎么办?Console口就是你的「最后一根救命稻草」。

️Console登录方式

  1. 用Console线连接交换机和电脑(一般是USB转串口或RS232接口)。
  2. 打开终端工具(如SecureCRT、Putty),设置波特率为9600,数据位8位,无校验位,停止位1位,无流控。
  3. 按回车进入命令行界面。

Console口不受网络影响,只要设备有电基本都能连上,适合做设备初始化、故障恢复。

️06 Telnet登录:轻便但不安全

Telnet配置简单,早期用得多,但缺点也很明显——明文传输,容易被抓包。

️开启Telnet方法(以华为设备为例):

sys

user-interface vty 0 4

authentication-mode password

set password cipher YourPassword

user privilege level 15

protocol inbound telnet

  • 配置完后,通过 telnet 设备IP 登录。

Telnet适合小型环境或内网调试,不建议在生产环境中广泛使用。

️07 SSH登录:远程运维首选方案

SSH是Telnet的加密版,也是现在主流推荐方式。配置略复杂,但安全性高,支持账号权限控制。

️启用SSH基本流程(以华为为例):

sys

stelnet server enable

local-user admin password irreversible-cipher YourPassword

local-user admin privilege level 15

local-user admin service-type ssh

aaa

authentication-scheme default

authorization-scheme default

domain default enable default-domain

user-interface vty 0 4

authentication-mode aaa

配置好后,使用SecureCRT或Xshell等终端工具登录,协议选择SSH2,输入IP、用户名、密码即可。

️08 老网工最顺手的巡检命令清单(华为为主)

掌握命令,是搞定一切维护工作的前提。下面这几条,建议熟练掌握,用来定位、排查、巡检,一条条敲,问题跑不了。

️✅ 查看接口状态

display interface brief

用途:快速查看所有端口状态(up/down)、速率、双工模式等。

️✅ 查看某个端口详细信息

display interface GigabitEthernet 0/0/1

用途:查看端口实时流量、错误统计、物理状态等。

️✅ 查看MAC地址表

display mac-address

用途:查看哪些设备连接在哪个端口,是排查环路、定位终端的利器。

️✅ 查看VLAN信息

display vlan

用途:确认哪些VLAN已创建,哪些端口在哪个VLAN里,尤其用于排查VLAN隔离问题。

️✅ 查看设备运行时间、资源占用

display version

display cpu-usage

display memory-usage

用途:判断设备是否长期运行未重启,资源是否跑满。

️✅ 查看日志

display logbuffer

用途:排查历史报错信息,尤其设备异常重启、电源问题、端口flap等情况。

️09 交换机对机房环境的要求,你真知道?

很多设备明明没配置问题,却总出毛病?问题可能不在配置,而在️环境

机房环境几个关键点:
  • ️温度控制:建议保持在18~27°C之间,超过35°C容易导致设备过热掉线。
  • ️湿度控制:40%~60%为宜,过干容易产生静电,过湿易腐蚀电路。
  • ️防尘防潮:定期清洁,避免灰尘堆积影响散热;机房地板需架空,线缆走弱电槽。
  • ️电源保障:使用UPS,避免市电波动导致设备重启;关键设备考虑双电源冗余。

不要等设备挂了再想起环境问题,维护先维护机房。

️10 预防性维护,网工都需要“防范于未然”

新手往往在“设备出事之后”才开始排查;而老网工,更重视“设备出事之前”的预警机制。

️预防性维护包含什么?

  1. 定期巡检计划 比如每周一次基础命令巡检,每月一次全面设备体检,每季度一次软件升级检查。
  2. 配置备份和对比 定期保存配置文件,并用脚本工具比对前后版本,快速识别人为误操作。
  3. 日志分析机制 日志不只是出事才看,而是每天关注是否有端口flap、电源波动、协议重协商等潜在异常。
  4. 设备健康监控 使用IMC、SolarWinds等网管系统设定告警阈值,比如CPU超80%、接口错误率飙升、掉线时间超过5分钟等。
  5. 软硬件生命周期管理 设备老化也会出问题,比如风扇寿命耗尽、内存老化频繁宕机,这些通过年限统计可预测。
11 这几个“坑”,新手别再重蹈覆辙

️坑1:端口关闭、限速配置被遗忘

️现象:用户反馈某些电脑上不了网,但交换机上看端口是UP的。

️分析:其实很多时候是端口被人为配置了 shutdown 或限速配置,比如配置了 traffic-policy 或者限速到了2M。

️建议:

  • 遇到网络慢或不通,先 display this 看端口有没有特殊限制;
  • 统一整理配置标准,避免个别设备配置风格混乱。

️坑2:日志级别太低,看不到关键报警

️现象:设备重启、掉线、环路,都没第一时间发出警告。

️分析:大多时候是 info-center 级别配置不对,关键告警日志没入库,也没有发送到syslog服务器。

️建议:

  • 配置正确的日志级别,例如 info-center source default channel 4 log level informational;
  • 确保 syslog 服务器和邮件/短信告警正常工作。

️坑3:私拉网线、交换机级联太深

**现象:突然某一层网络不通,排查发现在某办公室有个“小八口交换机”藏在桌子底下。

️分析:这些“小交换机”没管理、没标准接线,环路、防广播风暴机制一概没有,出了问题难定位。

️建议:

  • 禁止私拉网线和私接交换机;
  • 启用 storm-control、loopback-detection、bpdu-guard 等防环机制;
  • 对接入层端口开启 port-security,限制设备接入数。
️12 交换机日常维护建议清单

给新手准备的超实用建议清单,建议直接抄进你的维护SOP里。

️每天

  • 巡检核心交换机的 CPU、内存、接口状态;
  • 查看日志缓冲区有无新报错;
  • 检查设备是否异常重启、端口是否 flap。

️每周

  • 核查VLAN、接口限速、防环配置;
  • 对比备份配置,发现配置漂移;
  • 网管平台生成健康报告。

️每月

  • 设备固件/补丁检查是否为最新稳定版;
  • 验证SNMP、SSH、Telnet访问策略及密码策略;
  • 确认机房环境温度、湿度达标。

️每季度

  • 全面配置备份,做好异地灾备同步;
  • 检查设备标签、端口编号、机柜配线整理状态;
  • 跑一次广播风暴模拟测试,验证防护机制是否生效。

日常维护,其实就是一个网工“做细活”的过程

维护交换机说难不难,说简单也不简单。很多故障、事故,不是技术不够,而是习惯不好、细节忽略。

一个老网工能站得稳,不是因为会敲命令敲得快,而是因为他做事️有流程、有章法、有预判意识

你越早建立起自己的维护体系,越早能在事故发生前搞定它。

️原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

全部评论