Linux 网络故障定位:tcpdump 抓包分析、netstat/ss 工具运维精讲
面向初中级运维工程师 / 系统管理员 / DevOps 工程师。本文按"现象 → 命令 → 关键指标 → 根因 → 修复 → 验证 → 复盘"的路径,写清楚当一个服务出问题、网络出问题、连接出问题的时候,怎么用 tcpdump / netstat / ss 这一套工具链,从抓现象到定位原因到动手修复。
一、为什么把 netstat、ss、tcpdump 放一起讲
这三件套是 Linux 网络排查的"铁三角",分工很明确:
netstat:看当前系统所有 socket 的状态、连接数、监听端口、对端地址。属于"全量视图",但在高连接数下偏慢。ss:netstat 的替代品,从内核 proc/net/tcp 等直接读,速度快十几倍到几十倍,输出更结构化。tcpdump:在数据链路层抓包,看真实"飞过去"的字节,是网络问题唯一不撒谎的证据。
它们各自解决不同问题,但常常组合用:先用 ss 看到异常,再用 tcpdump 抓现场,最后用 netstat / ss 对比修复前后的状态。
二、阅读这一篇你能解决什么
- 服务突然"连不上",怎么判断是服务端没起、防火墙挡了、还是客户端没到。
- 连接数暴增 / TIME_WAIT 暴增 / CLOSE_WAIT 暴增,分别怎么定位。
- 怀疑 SYN Flood、DNS 污染、TLS 握手失败,如何抓包取证。
- 一台机器响应慢,定位到网卡软中断、TCP 重传、conntrack 满等常见瓶颈。
- 看懂
tcpdump 抓出来的内容,能写出实用的 BPF 过滤表达式。
三、本文约定
- 操作系统以 CentOS 7 / RHEL 7 / AlmaLinux 8 / Ubuntu 20.04/22.04 为主。
- 部分命令需要 root,建议在排查环境里
sudo -i。 - 抓包命令会带
-i any 表示抓所有网卡,避免漏流量;生产环境请确认业务合规。 - 抓包文件统一保存到
/tmp/cap/ 或 /var/tmp/cap/,文件名带时间戳、网卡、过滤条件,便于归档。
四、TCP 状态机速查
排查网络问题离不开 TCP 状态。下面这张表是后面所有案例的共同语言。
| |
|---|
| |
| |
| 服务端已收到 SYN 并回 SYN+ACK,等待客户端 ACK |
| |
| |
| |
| 被动关闭方已收到对端 FIN,等待应用 close |
| |
| 主动关闭方收到对端 ACK 后等待 2MSL,保证最后一个 ACK 重传 |
| |
| |
需要记住的几个数:
- 主动关闭方会进入 TIME_WAIT,时长 2MSL(Linux 默认 60s)。
- 被动关闭方会进入 CLOSE_WAIT,时长由应用决定(不 close 永远不会退出)。
- 服务端 SYN_RECV 数量超过 backlog 会丢弃连接并启用 syncookies。
五、netstat 实战
5.1 netstat 安装与版本
# RHEL 系列yum install -y net-tools# Debian/Ubuntuapt-get install -y net-tools# 查看版本netstat -V 2>&1 | head -1
5.2 常用选项
5.3 经典组合
# 看所有 TCP 连接(不去反解,最快)netstat -ant# 加进程信息(需要 root)netstat -antp# 只看监听netstat -lntp# 按状态统计netstat -ant | awk '{print $NF}' | sort | uniq -c | sort -rn# 看某端口是谁在监听netstat -lntp | grep ':80 '# 看连接到 80 端口的客户端netstat -ant | grep ':80 '# 看路由表netstat -rn# 看网卡收发包netstat -i
5.4 输出解读
Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program nametcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN 1234/nginxtcp 0 0 10.0.0.5:80 10.0.1.100:54321 ESTABLISHED 1234/nginx
Recv-Q:接收队列堆积字节数。LISTEN 状态下不为 0 表示 accept 队列满。
5.5 netstat 的局限
- 高并发连接(10 万+ ESTABLISHED)下
netstat -ant 会非常慢,因为它要遍历所有 socket 并尝试解析。 - 不能展示拥塞窗口、重传、排序等 TCP 内部指标。
这些场景都更适合 ss。
六、ss 实战
6.1 安装
yum install -y iproute # RHELapt-get install -y iproute2 # Debian/Ubuntu
6.2 常用选项
| |
|---|
| |
| |
| |
| |
| |
| |
| |
| |
| |
| 内部 TCP 信息(rtt、cwnd、retrans) |
| |
| |
| |
| |
| |
6.3 经典组合
# 全量统计摘要(常用作健康巡检)ss -s# TCP 摘要ss -tan state established | wc -l# 按状态分组计数ss -tan | awk 'NR>1 {print $1}' | sort | uniq -c | sort -rn# 看监听 + 进程ss -lntp# 看连接到 22 端口的客户端(注意冒号)ss -tan '( dport = :22 or sport = :22 )'# 看所有 80 端口的连接ss -tan '( sport = :80 or dport = :80 )'# 看某 IP 的所有连接ss -tan dst 10.0.1.100# 看某网段的连接ss -tan dst 10.0.0.0/16# 看 socket 内存占用ss -tan -m | head# 看 TIME_WAIT 数量(排查连接池问题常用)ss -tan state time-wait | wc -l# 看 CLOSE_WAITss -tan state close-wait | head# 看 SYN_RECV(疑似 SYN Flood)ss -tan state syn-recv | head
6.4 内部 TCP 信息(核心)
# 看每个 ESTABLISHED 连接的 RTT、cwnd、retransss -tin
输出示例:
ESTAB 0 0 10.0.0.5:22 10.0.0.100:54321 users:(("sshd",pid=1234,fd=4)) cubic wscale:7,7 rto:204 rtt:0.5/0.75 ato:40 mss:1448 cwnd:10 send 2.5Mbps rcv_rtt:0.5 rcv_space:29200
字段解释:
cubic:拥塞控制算法(Cubic / Reno / BBR / H-TCP)。retrans:已重传次数(不同 ss 版本位置不同,可能在 retrans:0)。
6.5 ss 计时器
ss -to
显示每个 socket 的定时器,例如:
ESTAB 0 0 10.0.0.5:22 10.0.0.100:54321 timer:(keepalive,28sec,0)
常见计时器:
keepalive:TCP keepalive 定时器。
6.6 关闭连接(紧急止血)
# 关闭某端口的所有连接(慎用!会让在线用户掉线)ss -K 'dport = :80'# 关闭某 IP 的所有连接ss -K 'dst 10.0.1.100'# 关闭某状态的连接ss -K 'state time-wait'
风险提示:
-K 会强制关闭连接,等同于应用层 close 但不等应用资源释放。- 关闭前用
ss -p 看进程归属,避免误杀其它业务。
七、tcpdump 实战
7.1 安装
yum install -y tcpdumpapt-get install -y tcpdump
7.2 基本用法
# 抓所有网卡所有包(生产慎用!数据量爆炸)tcpdump -i any# 抓指定网卡tcpdump -i eth0# 抓指定数量后退出tcpdump -i eth0 -c 100# 抓包并保存为 pcaptcpdump -i eth0 -w /tmp/cap/cap.pcap# 抓包并打印到屏幕tcpdump -i eth0 -nn -vv# 限制每包大小tcpdump -i eth0 -s 0 # -s 0 表示抓完整包,默认 68 字节会丢 payload
7.3 BPF 过滤表达式
tcpdump 用 BPF 语法过滤,运维高频表达式如下。
# 按主机tcpdump -i any host 10.0.1.100# 按源 / 目的tcpdump -i any src 10.0.1.100tcpdump -i any dst 10.0.1.100# 按网段tcpdump -i any net 10.0.0.0/16# 按端口tcpdump -i any port 80tcpdump -i any src port 80tcpdump -i any dst port 80# 按协议tcpdump -i any tcptcpdump -i any udptcpdump -i any icmp# 多条件组合tcpdump -i any 'tcp and port 80 and host 10.0.1.100'# 按 TCP 标志位tcpdump -i any 'tcp[tcpflags] & tcp-syn != 0'# 所有 SYNtcpdump -i any 'tcp[tcpflags] & tcp-syn != 0 and tcp[tcpflags] & tcp-ack == 0'# 仅 SYNtcpdump -i any 'tcp[tcpflags] & tcp-rst != 0'# 所有 RSTtcpdump -i any 'tcp[tcpflags] & tcp-fin != 0'# FIN# 按包大小tcpdump -i any 'greater 1000'# 大于 1000 字节tcpdump -i any 'less 64'# 小于 64 字节# 抓特定负载内容(危险,可能误匹配)tcpdump -i any -A 'tcp port 80 and (((ip[2:2] - ((ip[0]&0xf)<<2)) - ((tcp[12]&0xf0)>>2)) != 0)'
7.4 常用高级过滤
# 抓 HTTP 请求行tcpdump -i any -A -s 0 'tcp port 80 and (((ip[2:2] - ((ip[0]&0xf)<<2)) - ((tcp[12]&0xf0)>>2)) != 0)' 2>/dev/null | grep -E '^(GET|POST|HTTP)'# 抓 HTTP 响应码tcpdump -i any -A -s 0 'tcp port 80 and (((ip[2:2] - ((ip[0]&0xf)<<2)) - ((tcp[12]&0xf0)>>2)) != 0)' 2>/dev/null | grep -E '^HTTP/1\.[01]'# 抓 MySQL 客户端请求tcpdump -i any -A 'tcp port 3306' 2>/dev/null | grep -E 'Query|SELECT'# 抓 Redis 客户端命令tcpdump -i any -A 'tcp port 6379' 2>/dev/null | grep -E '^\*'
风险提示:
-A 是 ASCII 输出,包多的时候打爆屏幕;建议先写 pcap 再用 Wireshark 看。- 在高 QPS(>10k)服务器上抓包可能丢包;可以加
-B 4096 调大缓冲区,或者 -i eth0 单独抓一块网卡。
7.5 抓包实战
7.5.1 抓 DNS 解析
tcpdump -i any -nn -s 0 -w /tmp/cap/dns.pcap port 53
抓完后用 tcpdump -nn -r /tmp/cap/dns.pcap 看,或者 Wireshark 分析。
7.5.2 抓 HTTPS 握手(不解密)
tcpdump -i any -nn -s 0 -w /tmp/cap/tls.pcap 'tcp port 443'
要解密 HTTPS 需要服务端 SSLKEYLOGFILE(openssl / nginx 都支持),把 keylog 导入 Wireshark 才能看到明文。
7.5.3 抓 SYN Flood
tcpdump -i any -nn -s 0 'tcp[tcpflags] & tcp-syn != 0 and tcp[tcpflags] & tcp-ack == 0' -c 1000 -w /tmp/cap/syn.pcap
抓到 1000 个 SYN 后退出,分析 SYN 是不是都来自同一 IP 段。
7.5.4 抓 TCP 重传
# tcpdump 不能直接报"重传",但能看到同一 SEQ 的多次包tcpdump -i any -nn -vv -tttt 'tcp port 80' 2>&1 | grep -E 'retrans|duplicate' | head
更好的办法是用 Wireshark 打开 pcap,里面会自动标 "TCP Retransmission"。
7.6 tcpdump 输出格式
10:23:45.123456 IP 10.0.1.100.54321 > 10.0.0.5.80: Flags [S], seq 123456, win 64240, options [mss 1460], length 0
字段解释:
10.0.1.100.54321 > 10.0.0.5.80:源端 > 目的端。
常用 flags:
八、/proc 视角的内核态连接
在系统连接特别多、ss/netstat 都慢的时候,可以直接读内核的 proc 文件。
8.1 关键文件
| |
|---|
| |
| |
| |
| |
| |
| |
| |
| /proc/sys/net/ipv4/tcp_syncookies | |
| /proc/sys/net/ipv4/tcp_max_syn_backlog | |
| /proc/sys/net/core/somaxconn | |
8.2 直接读 /proc/net/tcp
cat /proc/net/tcp
输出:
sl local_address rem_address st tx_queue rx_queue tr tm->when retrnsmt uid timeout inode 0: 0100007F:0050 00000000:0000 0A 00000000:00000000 0:0 00000000 0 0 12345 1 ffff8800b6f0c000 1: 0500000A:0050 6401000A:C8C5 01 00000000:00000000 0:0 00000000 1000 0 23456 1 ffff8800b6f0c100
字段解读:
local_address:本地 IP:端口(hex,IP 是网络字节序小端)。tx_queue / rx_queue:发送 / 接收队列。
转换示例:把 hex IP 转回点分十进制:
# 0100007F = 127.0.0.1 (倒序读字节: 7F 00 00 01)# 0050 = 80
一个小脚本:
cat /proc/net/tcp | awk 'NR>1 { split($2, l, ":") split($3, r, ":") printf "%s:%d -> %s:%d st=%s\n", l[1], strtonum("0x" l[2]), r[1], strtonum("0x" r[2]), $4}'
strtonum 是 gawk 的扩展,把十六进制字符串转成数字。
九、常用辅助工具
9.1 lsof
# 看进程打开了哪些 socketlsof -i# 看某端口lsof -i :80# 看某进程lsof -p 1234 | grep -i socket# 看某用户lsof -i -u mysql
9.2 iftop / nethogs / iptraf-ng
# 按连接看实时流量iftop -i eth0# 按进程看实时流量nethogs eth0# 文本模式图形化统计iptraf-ng
9.3 sar -n 系列
# 网卡收发统计sar -n DEV 1# 网卡错误sar -n EDEV 1# TCP 统计sar -n TCP 1# 套接字统计sar -n SOCK 1
%ifutil 接近 100% 表示网卡打满。
9.4 nstat / ip -s
# 看 TCP 重传统计(内核计数器)nstat -az | grep -E 'TcpRetrans|TcpOutRsts|TcpActiveOpens'# 看网卡统计ip -s link show eth0
TcpRetransSegs 持续增长 = 网络丢包或对端 RTO。
9.5 conntrack
# 当前连接跟踪表大小cat /proc/sys/net/netfilter/nf_conntrack_maxsysctl net.netfilter.nf_conntrack_count# 看当前 conntrackconntrack -L# 看某 conn 详细信息conntrack -L -d 10.0.1.100
如果 nf_conntrack_count 接近 nf_conntrack_max,就会丢包,表现为 curl / ssh 超时。
9.6 strace 跟 connect / send / recv
# 跟进程的系统调用strace -f -p 1234 -e trace=network,write,read# 看进程 connect 到哪里失败strace -f -p 1234 -e trace=connect 2>&1 | grep -E 'sin_addr|EINPROGRESS|ETIMEDOUT|ECONNREFUSED'
9.7 ethtool
# 网卡驱动 / 速率ethtool eth0# 网卡详细统计(不同驱动字段不同)ethtool -S eth0 | grep -E 'err|drop|carrier|crc'# 看网卡队列与中断ethtool -l eth0ethtool -x eth0
十、案例 1:TIME_WAIT 暴增,连接池打满
10.1 现象
某服务(Java + Tomcat)告警"无法获取连接",监控显示 ESTABLISHED 接近 6 万,TIME_WAIT 接近 4 万,业务开始 5xx。
10.2 初步判断
主动关闭方在 TIME_WAIT,意味着客户端或服务端某一方主动断开连接且频繁。常见原因:
10.3 命令检查
# 1) 看 TIME_WAIT 数量ss -tan state time-wait | wc -l# 2) 看哪些对端最多ss -tan state time-wait | awk 'NR>1 {print $5}' | cut -d: -f1 | sort | uniq -c | sort -rn | head# 3) 看本地端口分布ss -tan state time-wait | awk 'NR>1 {print $4}' | cut -d: -f2 | sort | uniq -c | sort -rn | head# 4) 看哪些进程ss -tanp state time-wait | head# 5) 内核全局统计nstat -az | grep -E 'TcpActiveOpens|TcpPassiveOpens|TcpTW'
10.4 关键指标
TcpTW:累计进入 TIME_WAIT 的次数,突增即异常。ss -tan state time-wait | wc -l:当前 TIME_WAIT 的瞬时数量。- local port 集中 → 多半是同一类服务(如反向代理 → 上游)。
- foreign addr 集中 → 多半是对端 IP 集中(如调用一个 API 网关)。
10.5 根因定位
观察到 local port 集中在 8080 附近,foreign addr 集中在 LB 入口 IP。判定为:上游 LB 在 keep-alive 超时后主动断开,导致下游侧产生大量 TIME_WAIT。
证据:
nstat -az | grep TcpTW 增长曲线与 LB 主动断开节奏吻合。
10.6 修复方案
短期:
# 开启 TIME_WAIT 复用(Linux 默认就是允许的,但可以确认)sysctl -w net.ipv4.tcp_tw_reuse=1# 适当缩短 TIME_WAIT 持续时间(默认 60s)sysctl -w net.ipv4.tcp_fin_timeout=15
注意:tcp_tw_recycle 在 NAT 环境下会"误杀"正常连接,已经在 Linux 4.12 后移除,禁止开启。
长期:
- 服务端调高
keepalive_timeout(Nginx)。 - 评估是否真的需要 keep-alive,部分 API 改成长轮询或 SSE。
10.7 验证
# 5 分钟后ss -tan state time-wait | wc -l # 应大幅下降ss -s # 摘要里 TIME_WAIT 应回落到合理水位# 业务验证curl -sSI https://api.example.com/health
10.8 复盘
- 监于内核 sysctl 在重启后会丢失,必须写进 /etc/sysctl.d/。
- TIME_WAIT 不是 bug,是 TCP 设计的可靠性保证;重点不是"消除"而是"控制在水位之下"。
- 排查时把 TIME_WAIT 数量与 ESTABLISHED 数量做比值,超过 0.5 就要警觉。
十一、案例 2:SYN_RECV 堆积,疑似 SYN Flood
11.1 现象
反向代理服务器 SYN_RECV 数量从 0 涨到 8000+,新连接无法建立,老连接延迟升高。
11.2 初步判断
SYN_RECV 数量持续增长且明显高于正常,说明服务端发出 SYN+ACK 但没收到客户端 ACK。可能的原因:
- 客户端 RST / 掉线 / 防火墙把 ACK 丢了。
11.3 命令检查
# 1) SYN_RECV 数量ss -tan state syn-recv | wc -l# 2) 看 SYN_RECV 来源分布ss -tan state syn-recv | awk 'NR>1 {print $5}' | cut -d: -f1 | sort | uniq -c | sort -rn | head# 3) 抓包确认tcpdump -i eth0 -nn -c 1000 'tcp[tcpflags] & tcp-syn != 0 and tcp[tcpflags] & tcp-ack == 0' -w /tmp/cap/syn.pcap# 4) 看 syncookies 是否生效cat /proc/sys/net/ipv4/tcp_syncookies# 5) 看半连接队列上限cat /proc/sys/net/ipv4/tcp_max_syn_backlogcat /proc/sys/net/core/somaxconn
11.4 关键指标
- SYN_RECV 数量 > backlog 阈值就触发 syncookies。
- syncookies = 1 表示内核开始使用 syncookies 应答(折损服务端资源但能抵御攻击)。
- backlog 越小越容易丢;调高
somaxconn 与 tcp_max_syn_backlog 可缓解。
11.5 根因定位
抓包显示 SYN 来自 200 多个肉鸡 IP,每个 IP 平均 30+ SYN/秒,分布随机。判定为 SYN Flood。
11.6 修复方案
应急:
# 开启 syncookiessysctl -w net.ipv4.tcp_syncookies=1# 调大半连接队列sysctl -w net.ipv4/tcp_max_syn_backlog=4096sysctl -w net.core.somaxconn=4096# 临时用 iptables 限速单个源 IP 的 SYNiptables -I INPUT -p tcp --syn -m limit --limit 10/s --limit-burst 20 -j ACCEPTiptables -A INPUT -p tcp --syn -j DROP
长期:
- Nginx 调高
listen 的 backlog。
11.7 验证
# 5 分钟后ss -tan state syn-recv | wc -l # 应回归正常nstat -az | grep -E 'TcpExtTCPBacklogDrop|TcpSyncookiesSent'
11.8 复盘
- SYN_RECV 暴增不一定是 SYN Flood,要结合来源 IP 分布与业务影响判断。
- syncookies 是兜底机制,开启会降低部分性能,但比被攻击拖垮要好。
- iptables 限速能救急,但容易被 ACK Flood / UDP Flood 绕过;长期方案必须是 WAF。
十二、案例 3:CLOSE_WAIT 持续增长
12.1 现象
服务端进程 CLOSE_WAIT 数量持续增长,几小时后突破 5 万,新连接无法建立。
12.2 初步判断
CLOSE_WAIT 是被动关闭方收到对端 FIN 后等待应用 close 的状态。如果长时间不退出,说明应用层没调用 close。常见原因:
- 第三方库:HTTP 客户端 / 数据库连接池没正确释放。
- JVM GC 停顿:连接对象被 GC 但还没 close。
12.3 命令检查
# 1) CLOSE_WAIT 数量ss -tan state close-wait | wc -l# 2) 看本地端口分布(哪个服务)ss -tan state close-wait | awk 'NR>1 {print $4}' | cut -d: -f2 | sort | uniq -c | sort -rn | head# 3) 看进程归属ss -tanp state close-wait | head# 4) 看 inode 数量ls /proc/$PID/fd | wc -l# 5) Java 应用:jstack 看线程栈jstack $PID | grep -A 30 BLOCKED
12.4 关键指标
- 单进程 fd 数量(
ls /proc/$PID/fd | wc -l)。 - 数据库连接池活跃数(如果用 Druid / HikariCP,看监控)。
12.5 根因定位
本例为 Java 应用,jstack 显示大量线程卡在 HttpClient.readResponse,确认是 HTTP 客户端在异常路径上没释放连接。
12.6 修复方案
# 临时缓解:重启服务(要先拉出流量)systemctl restart myservice# 代码层:确保 finally 里 close,或用 try-with-resources
代码示例(正确写法):
try (CloseableHttpResponse resp = httpClient.execute(request)) {// 处理}
12.7 验证
ss -tan state close-wait | wc -l # 重启后归零ss -s # 摘要中 close-wait 为 0
12.8 复盘
- CLOSE_WAIT 增多的根因不在网络层而在应用层。
- 监控加
state close-wait 计数告警,提前发现。 - 服务启动时设置
ulimit -n 上限,避免 fd 撑爆整机。
十三、案例 4:跨机延迟高,定位网卡软中断不均
13.1 现象
同机房两台机器 ping 平均 1ms,业务调用 P99 200ms+,明显异常。
13.2 命令检查
# 1) 看网卡统计sar -n DEV 1 5# 重点看 %ifutil、rx/s tx/s# 2) 看丢包netstat -iip -s link show eth0 | grep -E 'drop|err|fifo'# 3) 看软中断分布cat /proc/interrupts | grep eth0mpstat -P ALL 1# 4) 看 RPS/RFS 是否开启cat /proc/sys/net/core/rps_sock_flow_entriesls /sys/class/net/eth0/queues/# 5) tcpdump 看重传tcpdump -i eth0 -nn -c 1000 'tcp port 80' -w /tmp/cap/cap.pcap
13.3 关键指标
- tcpdump 显示大量 TCP retransmission。
13.4 根因定位
单队列网卡在多核机器上,所有流量集中到一个核处理,导致软中断瓶颈。开启 RPS(Receive Packet Steering)后问题缓解。
13.5 修复方案
# 临时开启 RPSecho ffff > /sys/class/net/eth0/queues/rx-0/rps_cpus# 持久化(写进 /etc/rc.local 或 udev 规则)
或者使用多队列网卡 + 调优:
# 网卡多队列调优ethtool -L eth0 combined 8
13.6 验证
sar -n DEV 1# %ifutil 下降mpstat -P ALL 1# 软中断分布到多核
十四、案例 5:HTTPS 握手失败
14.1 现象
调用方报告 HTTPS 调用间歇失败,错误 SSL handshake failed 或 connection reset。
14.2 命令检查
# 1) 抓 TLS 握手tcpdump -i eth0 -nn -s 0 -w /tmp/cap/tls.pcap 'tcp port 443'# 2) 用 openssl 主动测握手openssl s_client -connect api.example.com:443 -servername api.example.com -msg -debug 2>&1 | head -50# 3) 服务端证书信息openssl x509 -in /etc/nginx/ssl/server.crt -text -noout# 4) 看 curl 详细握手curl -v --tlsv1.2 https://api.example.com 2>&1 | grep -E 'TLS|SSL|cipher'
14.3 关键指标
- 是否 ClientHello / ServerHello 完整出现。
- 是否出现 Alert(21 ~ 70 是不同级别)。
- RST 出现的位置:握手过程中 RST 多半是证书或协议不匹配。
14.4 根因定位
本例抓包看到 ServerHello 后立刻 RST,openssl s_client 显示:
SSL alert number 42
42 是 bad_certificate,服务端认为客户端证书不合法。检查客户端证书链补全情况,发现 CA bundle 缺失中间证书。
14.5 修复方案
- 服务端启用 SSL Stapling(
ssl_stapling on;)。
14.6 验证
openssl s_client -connect api.example.com:443 -CAfile /etc/pki/tls/certs/ca-bundle.crt# Verify return code: 0 (ok)
十五、内核参数调优速查
网络排查常常涉及到 sysctl 调参,下面列出运维高频参数与风险。
15.1 常见参数
| | | |
|---|
| | | |
| net.ipv4.tcp_max_syn_backlog | | | |
| net.ipv4.tcp_synack_retries | | | |
| | | |
| | | |
| | | |
| net.ipv4.tcp_keepalive_time | | | |
| net.ipv4.tcp_keepalive_intvl | | | |
| net.ipv4.tcp_keepalive_probes | | | |
| net.ipv4.ip_local_port_range | | | |
| net.ipv4.tcp_max_tw_buckets | | | |
| net.ipv4.tcp_slow_start_after_idle | | | |
| | | |
| | | |
| net.core.rmem_max / wmem_max | | | |
| net.ipv4.tcp_rmem / tcp_wmem | | | |
15.2 修改流程
# 1. 备份cp -a /etc/sysctl.d/99-sysctl.conf /tmp/sysctl.conf.bak# 2. 编辑cat >> /etc/sysctl.d/99-network-tuning.conf <<'EOF'net.core.somaxconn = 4096net.ipv4.tcp_max_syn_backlog = 4096net.ipv4.tcp_synack_retries = 2net.ipv4.tcp_tw_reuse = 1net.ipv4.tcp_fin_timeout = 15EOF# 3. 应用sysctl -p /etc/sysctl.d/99-network-tuning.conf# 4. 验证sysctl net.core.somaxconn
风险提示:
15.3 持久化与回滚
# 持久化echo "net.ipv4.tcp_tw_reuse = 1" >> /etc/sysctl.d/99-network-tuning.confsysctl -p# 回滚mv /etc/sysctl.d/99-network-tuning.conf /etc/sysctl.d/99-network-tuning.conf.disabledsysctl -p
十六、抓包分析实战
16.1 TCP 三次握手典型包序列
10:00:00.000 IP 10.0.0.100.54321 > 10.0.0.5.80: Flags [S], seq 100, length 010:00:00.001 IP 10.0.0.5.80 > 10.0.0.100.54321: Flags [S.], seq 200, ack 101, length 010:00:00.001 IP 10.0.0.100.54321 > 10.0.0.5.80: Flags [.], ack 201, length 0
含义:SYN → SYN+ACK → ACK,连接建立。
16.2 TCP 四次挥手典型包序列
10:00:05.000 IP client > server: Flags [F.], seq 1000, length 010:00:05.001 IP server > client: Flags [.], ack 1001, length 010:00:10.000 IP server > client: Flags [F.], seq 2000, length 010:00:10.001 IP client > server: Flags [.], ack 2001, length 0
16.3 TCP 重传
10:00:00.000 IP server > client: Flags [.], seq 1000, ack 500, length 100010:00:00.500 IP server > client: Flags [.], seq 1000, ack 500, length 1000 # 重传10:00:01.500 IP server > client: Flags [.], seq 1000, ack 500, length 1000 # 重传
看到同样的 SEQ + LEN 多次出现,就是 TCP retransmission。
16.4 客户端收到 RST
10:00:00.000 IP client > server: Flags [S], seq 10010:00:00.001 IP server > client: Flags [S.], seq 200, ack 10110:00:00.002 IP server > client: Flags [R], seq 201, length 0
服务端 RST,连接失败。常见原因:SYN Cookie 校验失败、应用层拒绝、内核安全策略。
十七、容器化场景下的网络排查
17.1 Pod 内抓包
容器默认不自带 tcpdump,需要:
# 方法 1:手动安装(不推荐,改动镜像)kubectl exec -it mypod -- apt-get update && apt-get install -y tcpdump# 方法 2:用 nsenter(宿主机工具)PID=$(kubectl get pod mypod -o jsonpath='{.status.containerStatuses[0].containerID}' | sed 's/.*\///')nsenter -n -t $PID tcpdump -i any -nn 'port 80'
17.2 CNI 网络问题
Cilium / Calico / Flannel 三类 CNI 各有特点:
- Calico:基于 BGP 或 VXLAN,问题常在路由层面。
- Cilium:eBPF 数据面,问题常在 bpf map 状态。
- Flannel:简单 VXLAN,性能一般但稳定。
排查思路:
# 看 Pod IP 与 Node IP 关系kubectl get pod -o wide# 看 CNI 日志(以 Calico 为例)kubectl logs -n kube-system -l k8s-app=calico-node# 看 iptables 规则(kube-proxy 生成)iptables-save | head -50
17.3 Service / Ingress 问题
# Service 是否有 endpointskubectl get endpoints myservice# 端点是否存在kubectl describe svc myservice# Ingress 状态kubectl describe ingress myingress
常见问题:
Endpoints: <none>:selector 不匹配、Pod 没 Ready。503:Ingress Controller 转发失败,多半是上游不通。
十八、生产抓包注意事项
- 磁盘空间:抓 10GB 流量到磁盘,需要预留 20-30GB 临时空间。
- 抓包速率:1Gbps 网卡满速时,
tcpdump 可能丢包(默认 kernel ring buffer 有限)。可以用 tcpdump -B 4096 -i eth0 ... 调大。 - 业务影响:抓包本身对 CPU 占用有 5-15%,生产环境避免在业务高峰抓包。
- 合规性:抓包涉及用户数据,特别是 HTTP 明文 / API 调用,遵守数据合规。
- 数据安全:抓到的 pcap 文件含敏感数据,加密保存,定期清理。
- 变更流程:抓包前要写变更单,时间窗口避开业务高峰。
- 事后归档:抓包 + 分析结果要进知识库,便于团队复用。
十九、iptables / nftables 与连接追踪
19.1 看 conntrack
conntrack -L | headconntrack -S | head
19.2 看 nf_conntrack 满载
sysctl net.netfilter.nf_conntrack_countsysctl net.netfilter.nf_conntrack_max
count 接近 max 就会丢包。
19.3 临时调大
sysctl -w net.netfilter.nf_conntrack_max=524288sysctl -w net.netfilter.nf_conntrack_tcp_timeout_established=3600
19.4 iptables 关键规则
# 看 SYN 限速iptables -L -n -v | grep -E 'SYN|conn'# 看每条规则的命中数iptables -L -n -v
pkts 和 bytes 持续增长说明规则有效;为 0 多半规则没匹配。
二十、监控与告警建议
20.1 必备指标
| 指标 | 含义 | 告警阈值 | | --- | --- | | node_netstat_Tcp_CurrEstab | 当前 ESTABLISHED 数 | 视业务 | | node_netstat_Tcp_ActiveOpens | 累计主动打开 | 突增告警 | | node_netstat_Tcp_PassiveOpens | 累计被动打开 | 突增告警 | | node_netstat_Tcp_RetransSegs | 累计重传段 | 增长速率告警 | | node_netstat_Tcp_CurrEstab | 当前 ESTABLISHED | 接近 ulimit 告警 | | node_netstat_Tcp_InErrs | 错误入包 | 增长告警 | | node_netstat_Tcp_OutRsts | RST 出包 | 突增告警 | | node_conntrack_count | conntrack 表项数 | 接近 max 告警 | | node_sockstat_TCP_alloc | 已分配 TCP socket | 突增告警 |
20.2 Prometheus 抓取脚本
scrape_configs:- job_name: 'node'static_configs:- targets: ['10.0.0.5:9100']
node_exporter 自带 netstat 指标。
20.3 自定义告警规则示例
groups:- name: networkrules:- alert: HighTcpRetransexpr: rate(node_netstat_Tcp_RetransSegs[5m]) > 100for: 5mlabels:severity: warningannotations:summary: "TCP 重传统计过高"description: "{{ $labels.instance }} 重传速率 {{ $value }}/s"
二十一、常见问答
Q1:netstat 和 ss 该选谁?
优先 ss。netstat 在 10 万连接以上基本不可用。ss 直接读内核 hash 表,速度快,输出格式更适合脚本化。
Q2:tcpdump 抓不到包的可能原因?
- 抓包位置错:流量没经过该网卡。例如两个 Pod 在同一节点上通信,物理网卡看不到。
Q3:怎么看 TCP 内部参数(RTT、cwnd)?
ss -tin
或者用 tcpprobe / perf 内核追踪。
Q4:抓 HTTPS 内容怎么做?
需要服务端 SSLKEYLOGFILE + Wireshark 解密。或者直接用 openssl / curl 主动测握手,绕开生产抓包。
Q5:TIME_WAIT 真的有害吗?
TIME_WAIT 是 TCP 协议设计的可靠性保证,避免最后一个 ACK 丢失后服务端无法正常关闭。短连接多 → TIME_WAIT 多。优化方向是减少短连接(长连接 + 连接池),不是消除 TIME_WAIT。
Q6:CLOSE_WAIT 太多怎么快速止血?
# 找到进程,重启它(要拉出流量!)kill -TERM $PID
但根本修复在代码层(finally / try-with-resources)。
Q7:RST 多是什么原因?
- 内核安全策略(SYN Cookie / iptables reject)。
Q8:conntrack 满载怎么应急?
sysctl -w net.netfilter.nf_conntrack_max=1048576
但要先查清为什么满——可能是扫描器攻击、DNS 解析缓存失效、UDP 流量过大。
二十二、命令速查
# 连接总览ss -s# 按状态计数ss -tan | awk 'NR>1 {print $1}' | sort | uniq -c# 看某个状态的全部连接ss -tan state time-waitss -tan state close-waitss -tan state syn-recv# 看某 IP / 网段ss -tan dst 10.0.1.100ss -tan dst 10.0.0.0/16# 关闭连接(紧急止血)ss -K 'dport = :80'ss -K 'dst 10.0.1.100'# 内部 TCP 信息ss -tin# 抓包tcpdump -i eth0 -nn -s 0 -w /tmp/cap/cap.pcap port 80tcpdump -i any 'tcp and port 80 and host 10.0.1.100'# BPF 过滤tcpdump 'tcp[tcpflags] & tcp-syn != 0'# 所有 SYNtcpdump 'greater 1000'# 大于 1000 字节tcpdump 'less 64'# 小于 64 字节# 网卡 / 软中断sar -n DEV 1mpstat -P ALL 1cat /proc/interrupts | grep eth0# conntracksysctl net.netfilter.nf_conntrack_countsysctl net.netfilter.nf_conntrack_maxconntrack -L | head# 内核参数sysctl -a | grep net.ipv4.tcpsysctl -p /etc/sysctl.d/99-network-tuning.conf# 内核 TCP 统计nstat -az | grep -E 'TcpRetrans|TcpActiveOpens|TcpPassiveOpens|TcpOutRsts'
二十三、总结与最佳实践
- 先 ss 后 tcpdump:ss 是"宏观体检",tcpdump 是"活检取样"。能用 ss 看出来的不要抓包。
- 抓包先小后大:先用
-c 1000 抓 1000 包看下,再决定要不要全量。 - 状态机常记常新:把 TCP 状态机背熟,看到 CLOSE_WAIT 立刻知道是应用层问题。
- 抓包要带 BPF:永远用 BPF 缩小范围,否则数据无法落盘。
- sysctl 修改要灰度:先在测试集群,再生产灰度,并保留回滚命令。
- 生产抓包要变更:写变更单、避开高峰、备份数据、归档分析结果。
- 多指标交叉验证:ESTABLISHED 上升 + TIME_WAIT 下降 + nstat 上
TcpTW 增长,三者一起看才有结论。 - 拥抱 BBR:对高带宽长肥网络,BBR 比 CUBIC 显著提升吞吐。
- conntrack 必须监控:很多"莫名超时"都是 conntrack 满载引起的。
- 维护团队知识库:把每次排查的 ss / tcpdump 输出、入参、判断逻辑归档,下次复用。
- 把日常巡检脚本化:写一个 healthcheck.sh,每天跑一次,把异常指标记到日志。
- 不迷信单一指标:ESTABLISHED 多未必坏、TIME_WAIT 多未必坏,结合业务 P99、错误率综合判断。
排查网络问题的最高境界不是工具用得多花,是"用最少的命令拿到最直接的证据"。这一篇里给出的所有命令组合,都是为了这一个目标。
文末福利
网络监控是保障网络系统和数据安全的重要手段,能够帮助运维人员及时发现并应对各种问题,及时发现并解决,从而确保网络的顺畅运行。
谢谢一路支持,给大家分享6款开源免费的网络监控工具,并准备了对应的资料文档,建议运维工程师收藏(文末一键领取)。
100%免费领取
一、zabbix
二、Prometheus
内容较多,6款常用网络监控工具(zabbix、Prometheus、Cacti、Grafana、OpenNMS、Nagios)不再一一介绍, 需要的朋友扫码备注【监控合集】,即可100%免费领取。
以上所有资料获取请扫码
100%免费领取
(后台不再回复,扫码一键领取)