告别人工巡检:我用 Python 搭了一套网络运维"四件套",全公开。
做网络运维的朋友都懂:几十、几百台交换机摆在那儿,配置备份靠手动 SSH、终端找不到了得一台台查 MAC 表、拓扑图画一次半月就过期、端口跑满还得登设备敲命令。这套"四件套",把我从重复劳动里彻底解放了出来。
一、网络设备配置备份:10 台设备并发,3 分钟搞定
痛点:以前备份配置,一台台 SSH 登录、敲 dis cu、复制粘贴存文件,几十台设备搞下来半天就没了。更要命的是,什么时候改了配置根本对不上号。
方案:基于 ThreadPoolExecutor 的并发备份引擎,一次拉起10台设备并行拉取配置,配合分页符自动检测机制,彻底解决华为/H3C 设备 ---- More ---- 卡死的问题。
核心并发逻辑:
class ConcurrentBackupManager: def backup_devices(self, devices, backup_func, progress_callback=None): results = [] with ThreadPoolExecutor(max_workers=10) as executor: # 一台设备一个 Future,先完成先回调 future_to_device = { executor.submit(backup_func, dev): dev for dev in devices } for future in as_completed(future_to_device): device = future_to_device[future] result = future.result(timeout=300) # 单台最长5分钟 results.append(result) if progress_callback: progress_callback(len(results), len(devices), device['name'], result.status) return results
技术亮点:使用"分页符即时检测",通过 expect_pattern 联合匹配提示符与 ---- More ----,遇到分页立即发空格翻页,不用傻等超时。传统做法等 30 秒超时再处理,我这边秒翻页。
配置拉下来后,用 difflib.unified_diff 做版本对比,还会自动识别 ACL、路由、接口、密码等关键变更并告警。谁动了核心交换机的配置,一目了然。
二、交换机端口看板:端口状态、终端信息一目了然
痛点:用户报"网断了",以前得登交换机敲 dis interface brief、dis mac-address、dis arp 三条命令,再人肉关联"这个 MAC 在哪个端口、对应哪个 IP"。
方案:定时自动 SSH 登录所有交换机,一次采集接口状态 + ARP + MAC + Switchport 四类数据,关联出每个端口下连的终端设备,形成实时端口面板。
关联算法的核心思路—"双表 JOIN":
def _correlate_port_terminal(ports, arp_data, mac_data): # 第一步:ARP 表建立 MAC → IP 反查表 mac_to_ip = {arp['mac']: arp['ip'] for arp in arp_data} # 第二步:MAC 表给出"端口↔MAC",关联上 IP port_terminals = {} for mac_entry in mac_data: mac = mac_entry['mac'].upper() interface = mac_entry['interface'] if interface and mac: ip = mac_to_ip.get(mac, '') port_terminals.setdefault(interface, []).append({ 'mac': mac, 'ip': ip }) return port_terminals
为什么用双表? 因为交换机 MAC 表只知道"哪个 MAC 在哪个端口",不知道 IP;ARP 表只知道"哪个 IP 对应哪个 MAC",不知道端口。二者以 MAC 为键关联,才能得到完整的"端口↔IP↔MAC"三元组。单靠任何一张表都不够。
再联动 DHCP 服务器补全主机名和设备类型,面板上直接显示"端口 GE0/0/1 → 192.168.1.100 → 00:11:22:AA:BB:CC → 张三的电脑"。
三、DHCP 联动终端定位:输个 IP 就知道接在哪台交换机
痛点:安全部门找过来"192.168.1.100 这个 IP 有违规行为,定位到人"。以前得查 DHCP 租约表拿 MAC,再一台台交换机敲 dis mac-address 找端口,半小时才定位到。
方案:通过 WinRM 远程查询 Windows DHCP 服务器获取 IP-MAC-主机名映射,结合交换机 MAC 表,实现"输入 IP 即可定位到接入哪台交换机的哪个端口"。
DHCP 租约获取(PowerShell 远程执行):
def get_leases_from_windows_dhcp(server_ip, username, password): session = winrm.Session( f'http://{server_ip}:5985/wsman', auth=(username, password), transport='ntlm') # 遍历所有作用域,导出 IP|MAC|HostName ps_script = ''' $scopes = Get-DhcpServerv4Scope foreach ($scope in $scopes) { Get-DhcpServerv4Lease -ScopeId $scope.ScopeId | ForEach-Object { "$($_.IPAddress)|$($_.ClientId)|$($_.HostName)" } }''' result = session.run_ps(ps_script) # ...解析为结构化数据
实时定位算法采用"两级查找",ARP 表把 IP 翻译成 MAC,再由 MAC 表定位到物理端口:
def _search_ip_in_device(db, device, ip_address): # Step 1: ARP 表按 IP 反查 MAC arp_output = run_netmiko_commands(commands=["display arp"], ...) mac = extract_mac_from_arp(arp_output, ip_address) # Step 2: MAC 表查这个 MAC 在哪个端口 mac_output = run_netmiko_commands(commands=["display mac-address"], ...) interface = extract_port_from_mac_table(mac_output, mac) return {'ip': ip_address, 'mac': mac, 'device': device.name, 'port': interface}
最实用的功能:终端"搬家"自动感知。发现同一 MAC 出现在新端口时,旧位置自动标记离线,并写入 move 类型历史记录。谁把电脑从 3 楼搬到 5 楼,迁移轨迹一键可查。
四、网络拓扑自动发现:LLDP + CDP + OSPF 三协议互补
痛点:网络拓扑图画一次,半个月就过期。哪台交换机连哪台、光口还是电口、OSPF 邻居是不是挂了,全靠人工维护。
方案:通过 LLDP/CDP 自动发现二层互联关系,通过 OSPF 邻居状态采集构建三层拓扑,双协议互补 + 兜底命令,保障发现成功率。
def discover_topology(db, device, timeout=30): all_neighbors = [] # 1. LLDP 发现(跨厂商标准) lldp_output = run_netmiko_commands(commands=get_lldp_cmds(device.platform)) all_neighbors.extend(parse_lldp(device.platform, lldp_output)) # 2. CDP 发现(Cisco/锐捷私有,兼容性好) cdp_output = run_netmiko_commands(commands=get_cdp_cmds(device.platform)) all_neighbors.extend(parse_cdp(cdp_output)) # 3. 兜底:show lldp neighbors detail if not all_neighbors: fallback = run_netmiko_commands(commands=["show lldp neighbors detail"]) all_neighbors.extend(parse_cisco_lldp(fallback)) return save_topology(db, device, all_neighbors)
解决一个关键痛点:拓扑发现的设备名(如 CORE-SW-01.example.com)和纳管设备名(CORE-SW-01)格式不一致,导致关联失败。我用 4 级模糊匹配解决:IP 精确 → 名称精确 → 去域名后缀 → LIKE 模糊。
OSPF 邻居采集还会自动记录状态翻转历史(Full → Down → Full),邻居掉线立即告警,状态变化次数可追溯。
写在最后
这套"四件套"跑起来后,最直观的感受是:网络运维从"被动救火"变成了"主动可视"。
- • 配置备份:50 台设备从半天缩到 3 分钟,变更自动留痕
- • 端口看板:端口状态、终端信息实时呈现,不用再敲命令
- • 终端定位:输个 IP 秒级定位,终端搬家自动记录
- • 拓扑发现:拓扑图自动刷新,OSPF 邻居掉了立即告警
技术栈:Python + FastAPI + Vue3 + netmiko + APScheduler + WinRM,全部开源技术,没有商业依赖。
这套系统是基于我实际运维的真实场景打磨出来的,代码在持续迭代中。如果你也在做网络运维,或者对 AIOps 感兴趣,关注我,后续会分享更多运维自动化的实战经验。
本文代码已做脱敏处理,仅展示核心算法思路。完整实现涉及多厂商适配、异常处理、性能优化等工程细节,如有交流需求欢迎留言。