
关注「Raymond运维」公众号,并设为「星标」,也可以扫描底部二维码加入群聊,第一时间获取最新内容,不再错过精彩内容。
适用场景:高并发 Web 服务、数据库服务器、容器化平台、批处理任务节点。规模要求:单机 4C8G 起,生产集群 16C32G 典型配置。前置条件:root 或 sudo 权限;内核 3.10+(RHEL 7)或 4.15+(Ubuntu 18.04);已安装 sysstat/procps-ng/net-tools/perf。网络要求:无特殊端口需求,需要访问系统软件仓库。测试环境:测试于 2025-10,RHEL 8.9/Ubuntu 22.04 LTS,内核 4.18/5.15。
问题:THP 导致内存碎片整理引发延迟尖刺(P99 可达数百毫秒)。
检查当前状态:
# 查看 THP 状态cat /sys/kernel/mm/transparent_hugepage/enabled# 输出:[always] madvise never (方括号表示当前启用)cat /sys/kernel/mm/transparent_hugepage/defrag永久禁用:
# 方法 1:通过内核参数(RHEL/Ubuntu 通用)echo'transparent_hugepage=never' | sudotee -a /etc/default/grubsudo grub2-mkconfig -o /boot/grub2/grub.cfg # RHEL/CentOSsudo update-grub # Ubuntu/Debian# 方法 2:通过 systemd 服务立即生效cat <<EOF | sudo tee /etc/systemd/system/disable-thp.service[Unit]Description=Disable Transparent Huge Pages (THP)DefaultDependencies=noAfter=sysinit.target local-fs.targetBefore=mongod.service mysql.service[Service]Type=oneshotExecStart=/bin/sh -c 'echo never > /sys/kernel/mm/transparent_hugepage/enabled'ExecStart=/bin/sh -c 'echo never > /sys/kernel/mm/transparent_hugepage/defrag'[Install]WantedBy=basic.targetEOFsudo systemctl daemon-reloadsudo systemctl enable --now disable-thp.service验证:
cat /sys/kernel/mm/transparent_hugepage/enabled# 预期输出:always madvise [never]场景:低延迟服务选 performance,批处理/节能场景选 powersave。
检查当前策略:
# 查看所有 CPU 的调速器cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor# 或使用工具cpupower frequency-info设置为 performance 模式:
# 方法 1:临时设置(重启失效)echo performance | sudotee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor# 方法 2:使用 cpupower(RHEL/CentOS)sudo yum install -y kernel-tools # RHELsudo apt install -y linux-tools-common linux-tools-$(uname -r) # Ubuntusudo cpupower frequency-set -g performance# 方法 3:持久化配置(systemd)cat <<EOF | sudo tee /etc/systemd/system/cpufreq-performance.service[Unit]Description=Set CPU governor to performanceAfter=multi-user.target[Service]Type=oneshotExecStart=/usr/bin/cpupower frequency-set -g performanceRemainAfterExit=yes[Install]WantedBy=multi-user.targetEOFsudo systemctl daemon-reloadsudo systemctl enable --now cpufreq-performance.service验证:
cpupower frequency-info | grep "current policy"# 预期输出包含:governor "performance"参数解释:
performance:CPU 始终运行在最高频率,延迟最低,功耗最高。powersave:CPU 运行在最低频率,功耗最低,适合非关键服务。ondemand:动态调整频率,平衡性能与功耗(内核 5.9+ 已废弃,改用 schedutil)。场景:将 Nginx/Redis/MySQL 等进程绑定到独立核心,避免调度抖动。
查看进程 CPU 使用:
# 查看进程运行在哪些核心ps -eo pid,comm,psr | grep nginx# psr 列显示当前 CPU 编号绑定进程到指定 CPU:
# 绑定运行中的进程(PID=1234)到 CPU 2-5sudo taskset -cp 2-5 1234# 启动时绑定(以 Nginx 为例)sudo taskset -c 2-5 nginx -g 'daemon off;'# 绑定所有 Nginx worker 进程(通过 cgroup)echo"1-3" | sudotee /sys/fs/cgroup/cpuset/nginx/cpuset.cpusecho $(pgrep nginx) | sudotee /sys/fs/cgroup/cpuset/nginx/tasks验证:
taskset -cp $(pgrep nginx | head -1)# 输出:pid 1234's current affinity list: 2-5内核隔离 CPU(启动时预留核心给关键进程):
# 隔离 CPU 4-7(不参与通用调度)sudo grubby --update-kernel=ALL --args="isolcpus=4-7 nohz_full=4-7 rcu_nocbs=4-7"sudo reboot问题:默认 swappiness=60 导致频繁 swap,影响数据库性能。
检查当前值:
cat /proc/sys/vm/swappiness# 默认 60调整为 10(推荐生产值):
# 临时设置sudo sysctl -w vm.swappiness=10# 永久生效echo"vm.swappiness = 10" | sudotee -a /etc/sysctl.confsudo sysctl -p验证:
sysctl vm.swappiness# 输出:vm.swappiness = 10# 查看 swap 使用情况free -hvmstat 1 5 | awk '{print $7,$8}'# si/so 列(swap in/out)参数说明:
vm.swappiness=0:仅在 OOM 风险时使用 swap(适合 Redis/Memcached)。vm.swappiness=10:推荐生产值,平衡内存压力与性能。vm.swappiness=60:系统默认值,主动使用 swap 释放物理内存。场景:数据库(Oracle/PostgreSQL)、Redis、DPDK 应用大内存场景。
计算所需页数(假设 Redis 使用 32GB 内存,页大小 2MB):
# 计算页数:32GB / 2MB = 16384 页echo $((32 * 1024 / 2))配置 Huge Pages:
# 设置 16384 个 2MB 页(共 32GB)echo 16384 | sudotee /proc/sys/vm/nr_hugepages# 永久生效echo"vm.nr_hugepages = 16384" | sudotee -a /etc/sysctl.confsudo sysctl -p验证:
cat /proc/meminfo | grep -i huge# 输出示例:# HugePages_Total: 16384# HugePages_Free: 16384# HugePages_Rsvd: 0# Hugepagesize: 2048 kB应用配置(以 Redis 为例):
# Redis 配置文件(/etc/redis/redis.conf)# 无需特殊配置,Redis 6.0+ 自动使用 Huge Pages(需内核支持)# 验证 Redis 是否使用 Huge Pagescat /proc/$(pgrep redis-server)/smaps | grep -A 10 AnonHugePages回滚:
echo 0 | sudotee /proc/sys/vm/nr_hugepagessudo sed -i '/vm.nr_hugepages/d' /etc/sysctl.conf问题:默认 dirty_ratio=20% 导致大量脏页积压,刷盘时 IO 阻塞。
检查当前值:
sysctl vm.dirty_ratio vm.dirty_background_ratio vm.dirty_expire_centisecs# 默认值:# vm.dirty_ratio = 20# vm.dirty_background_ratio = 10# vm.dirty_expire_centisecs = 3000(30秒)优化配置(推荐生产值):
sudo sysctl -w vm.dirty_ratio=10sudo sysctl -w vm.dirty_background_ratio=5sudo sysctl -w vm.dirty_expire_centisecs=500sudo sysctl -w vm.dirty_writeback_centisecs=100# 永久生效cat <<EOF | sudo tee -a /etc/sysctl.confvm.dirty_ratio = 10vm.dirty_background_ratio = 5vm.dirty_expire_centisecs = 500vm.dirty_writeback_centisecs = 100EOFsudo sysctl -p验证:
# 监控脏页数量watch -n 1 "cat /proc/meminfo | grep -i dirty"# Dirty: 正在内存中的脏页# Writeback: 正在写回磁盘的页# 压力测试ddif=/dev/zero of=/tmp/testfile bs=1M count=10240 conv=fdatasync# 观察 Dirty/Writeback 变化参数说明:
vm.dirty_ratio:脏页占系统内存百分比,达到后所有写操作阻塞刷盘(降低避免 IO 峰值)。vm.dirty_background_ratio:后台刷盘触发阈值(降低实现持续温和刷盘)。vm.dirty_expire_centisecs:脏页最大存活时间(50 秒→5 秒,加快刷盘)。vm.dirty_writeback_centisecs:后台刷盘线程唤醒间隔(3 秒→1 秒,更频繁刷盘)。问题:默认 1024 限制导致高并发场景 “too many open files” 错误。
检查当前限制:
# 查看当前 shell 限制ulimit -n# 查看系统最大值cat /proc/sys/fs/file-max# 查看当前使用量cat /proc/sys/fs/file-nr# 输出:已分配 已使用 最大值临时调整(当前 shell 生效):
ulimit -n 1048576永久调整(所有用户):
# 1. 系统全局限制echo"fs.file-max = 2097152" | sudotee -a /etc/sysctl.confsudo sysctl -p# 2. 用户级别限制(/etc/security/limits.conf)cat <<EOF | sudo tee -a /etc/security/limits.conf* soft nofile 1048576* hard nofile 1048576root soft nofile 1048576root hard nofile 1048576EOF# 3. systemd 服务限制(以 Nginx 为例)sudomkdir -p /etc/systemd/system/nginx.service.dcat <<EOF | sudo tee /etc/systemd/system/nginx.service.d/limits.conf[Service]LimitNOFILE=1048576EOFsudo systemctl daemon-reloadsudo systemctl restart nginx验证:
# 重新登录后检查ulimit -n# 预期输出:1048576# 检查服务进程限制cat /proc/$(pgrep nginx | head -1)/limits | grep "open files"# 预期:Max open files 1048576场景:SSD/NVMe 使用 none/noop,HDD 使用 deadline/cfq。
检查当前调度器:
# 查看所有磁盘调度器for disk in /sys/block/sd*/queue/scheduler; doecho"$disk: $(cat $disk)"done# 输出示例:/sys/block/sda/queue/scheduler: [mq-deadline] none设置调度器:
# 临时设置(以 /dev/sda 为例,SSD 场景)echo none | sudotee /sys/block/sda/queue/scheduler# NVMe 设备(通常已默认 none)echo none | sudotee /sys/block/nvme0n1/queue/scheduler# HDD 场景设置 deadlineecho mq-deadline | sudotee /sys/block/sdb/queue/scheduler永久生效(通过 udev 规则):
# SSD/NVMe 设置 nonecat <<EOF | sudo tee /etc/udev/rules.d/60-scheduler.rules# SSD 设置 none 调度器ACTION=="add|change", KERNEL=="sd[a-z]", ATTR{queue/rotational}=="0", ATTR{queue/scheduler}="none"# NVMe 设置 noneACTION=="add|change", KERNEL=="nvme[0-9]n[0-9]", ATTR{queue/scheduler}="none"# HDD 设置 mq-deadlineACTION=="add|change", KERNEL=="sd[a-z]", ATTR{queue/rotational}=="1", ATTR{queue/scheduler}="mq-deadline"EOFsudo udevadm control --reload-rulessudo udevadm trigger验证:
cat /sys/block/sda/queue/scheduler# SSD 预期输出:[none] mq-deadlinecat /sys/block/sdb/queue/scheduler# HDD 预期输出:none [mq-deadline]参数说明:
none:无调度器(内核 5.0+ 推荐 SSD 使用,零开销)。noop/none:简单 FIFO 队列,适合 SSD/NVMe 随机访问场景。mq-deadline:多队列截止时间调度器,HDD 顺序读写优化,防止饿死。bfq:完全公平队列调度器,低延迟场景(桌面系统/虚拟机推荐)。场景:减少不必要的元数据更新,提升 IO 性能。
检查当前挂载参数:
mount | grep "^/dev"# 示例输出:/dev/sda1 on / type ext4 (rw,relatime,data=ordered)推荐挂载参数(/etc/fstab):
# 备份原配置sudocp /etc/fstab /etc/fstab.bak.$(date +%F)# 编辑 /etc/fstab(以 ext4 为例)sudo vi /etc/fstab# 修改为:/dev/sda1 /data ext4 defaults,noatime,nodiratime,discard,errors=remount-ro 0 2# XFS 文件系统推荐参数/dev/sdb1 /mnt/data xfs defaults,noatime,nodiratime,logbufs=8,logbsize=256k,inode64 0 2重新挂载验证:
# 测试挂载语法sudo mount -o remount,noatime,nodiratime /data# 验证参数mount | grep /data# 预期输出包含:noatime,nodiratime# 性能对比测试# 未优化前sync; echo 3 | sudotee /proc/sys/vm/drop_cachestimeddif=/dev/zero of=/data/testfile bs=1M count=1024 oflag=direct# 优化后(重新挂载 noatime)sudo mount -o remount,noatime /datasync; echo 3 | sudotee /proc/sys/vm/drop_cachestimeddif=/dev/zero of=/data/testfile bs=1M count=1024 oflag=direct# 预期提升 5-10% 写入性能参数说明:
noatime:不更新文件访问时间戳,减少写操作(推荐所有生产环境启用)。nodiratime:不更新目录访问时间戳。discard:SSD Trim 支持,定期释放未使用块(SSD 必选)。logbufs=8:XFS 日志缓冲区数量(默认 4→8,提升并发写性能)。inode64:XFS 启用 64 位 inode 寻址(大于 1TB 分区推荐)。问题:高并发网络场景丢包(ifconfig 显示 RX-DRP)。
检查当前值与丢包:
# 查看网卡丢包统计ifconfig eth0 | grep -i drop# 或使用 ip 命令ip -s link show eth0# 查看接收队列参数sysctl net.core.netdev_max_backlog# 默认 1000优化配置:
# 临时调整sudo sysctl -w net.core.netdev_max_backlog=50000sudo sysctl -w net.core.netdev_budget=600sudo sysctl -w net.core.netdev_budget_usecs=8000# 永久生效cat <<EOF | sudo tee -a /etc/sysctl.confnet.core.netdev_max_backlog = 50000net.core.netdev_budget = 600net.core.netdev_budget_usecs = 8000EOFsudo sysctl -p验证:
# 查看软中断队列丢包cat /proc/net/softnet_stat# 第二列非零表示丢包,第三列表示时间压缩次数# 压力测试(使用 iperf3)# 服务端iperf3 -s# 客户端iperf3 -c <server_ip> -P 10 -t 60# 测试期间监控丢包watch -n 1 "cat /proc/net/softnet_stat"参数说明:
net.core.netdev_max_backlog:网卡接收队列最大长度(默认 1000→50000,高并发场景)。net.core.netdev_budget:每次软中断处理的最大包数(默认 300→600)。net.core.netdev_budget_usecs:软中断处理最大时间(微秒,默认 2000→8000)。场景:高带宽延迟场景(跨地域、卫星链路)优化吞吐。
检查当前值:
sysctl net.ipv4.tcp_rmem net.ipv4.tcp_wmem net.ipv4.tcp_window_scaling# 默认值示例:# net.ipv4.tcp_rmem = 4096 87380 6291456# net.ipv4.tcp_wmem = 4096 16384 4194304优化配置(10Gbps 网卡推荐):
cat <<EOF | sudo tee -a /etc/sysctl.conf# TCP 接收缓冲区:最小 最默认 最大(字节)net.ipv4.tcp_rmem = 4096 87380 134217728# TCP 发送缓冲区net.ipv4.tcp_wmem = 4096 65536 134217728# 启用窗口扩展(支持 >64KB 窗口)net.ipv4.tcp_window_scaling = 1# 接收窗口自动调整net.ipv4.tcp_moderate_rcvbuf = 1# 核心缓冲区限制net.core.rmem_max = 134217728net.core.wmem_max = 134217728net.core.rmem_default = 87380net.core.wmem_default = 65536EOFsudo sysctl -p验证(iperf3 带宽测试):
# 优化前测试iperf3 -c <server_ip> -t 30 -i 5# 记录带宽基线# 优化后测试sudo sysctl -piperf3 -c <server_ip> -t 30 -i 5 -w 128M# 预期带宽提升 20-50%(高延迟场景)# 查看实际连接使用的窗口大小ss -itm | grep -A 5 ESTAB# 关注 cwnd/ssthresh/rtt 字段问题:高并发短连接场景 SYN 队列溢出(netstat -s | grep -i listen)。
检查当前值与溢出:
sysctl net.core.somaxconn net.ipv4.tcp_max_syn_backlog# 默认:somaxconn=4096, tcp_max_syn_backlog=1024# 查看 SYN 队列溢出统计netstat -s | grep -i listen# 关注 "SYNs to LISTEN sockets dropped" 行优化配置:
cat <<EOF | sudo tee -a /etc/sysctl.conf# listen() 全连接队列最大长度net.core.somaxconn = 65535# SYN 半连接队列最大长度net.ipv4.tcp_max_syn_backlog = 65535# 启用 SYN Cookies(防 SYN Flood)net.ipv4.tcp_syncookies = 1# 放弃连接前重试次数(默认 5→3,加速释放无效连接)net.ipv4.tcp_syn_retries = 3net.ipv4.tcp_synack_retries = 3EOFsudo sysctl -p应用层配置(以 Nginx 为例):
# /etc/nginx/nginx.confevents {worker_connections65535;useepoll;}http {# listen 指令 backlog 参数server {listen80 backlog=65535; }}验证:
# 重启 Nginxsudo systemctl restart nginx# 压力测试(wrk)wrk -t12 -c10000 -d60s --latency http://localhost/# 测试期间监控溢出watch -n 1 "netstat -s | grep -i 'listen.*drop'"场景:减少 HTTP 短连接握手延迟(节省 1-RTT)。
检查当前状态:
sysctl net.ipv4.tcp_fastopen# 0=禁用, 1=客户端启用, 2=服务端启用, 3=双向启用启用 TFO:
# 启用服务端和客户端echo"net.ipv4.tcp_fastopen = 3" | sudotee -a /etc/sysctl.confsudo sysctl -p# 查看 TFO 队列长度(内核 4.11+)sysctl net.ipv4.tcp_fastopen_blackhole_timeout_sec应用层配置(Nginx):
# /etc/nginx/nginx.confserver {listen80 fastopen=256; # TFO 队列长度}验证:
# 使用 tcpdump 抓包验证sudo tcpdump -i eth0 'tcp[tcpflags] & tcp-syn != 0' -nn -c 20# 查看 TFO 统计netstat -s | grep -i fastopen# 输出示例:# TCPFastOpenActive: 123(客户端主动 TFO 次数)# TCPFastOpenPassive: 456(服务端被动 TFO 次数)问题:高并发场景大量 TIME_WAIT 占用端口(ss -ant | grep TIME_WAIT | wc -l)。
检查当前连接状态:
ss -ant | awk '{print $1}' | sort | uniq -c# 统计各状态连接数netstat -n | awk '/^tcp/ {print $6}' | sort | uniq -c优化配置:
cat <<EOF | sudo tee -a /etc/sysctl.conf# 启用 TIME_WAIT 快速回收(客户端场景)net.ipv4.tcp_tw_reuse = 1# 启用时间戳(tw_reuse 前提)net.ipv4.tcp_timestamps = 1# FIN_WAIT2 超时时间(秒,默认 60→30)net.ipv4.tcp_fin_timeout = 30# 本地端口范围(增加可用端口)net.ipv4.ip_local_port_range = 10000 65535# 孤儿连接最大数量net.ipv4.tcp_max_orphans = 262144EOFsudo sysctl -p验证:
# 压力测试前后对比# 测试前统计ss -ant | grep TIME_WAIT | wc -l# 运行压力测试ab -n 100000 -c 1000 http://localhost/# 测试后统计(预期 TIME_WAIT 数量减少 50% 以上)ss -ant | grep TIME_WAIT | wc -l# 监控端口耗尽风险cat /proc/sys/net/ipv4/tcp_tw_buckets# 默认 262144,达到此值会强制回收 TIME_WAIT注意事项:
tcp_tw_recycle 已在内核 4.12+ 移除(NAT 环境存在问题)。tcp_tw_reuse 仅对客户端有效,服务端无效。tcp_timestamps=1 作为前提。场景:10Gbps+ 网卡将中断分散到多核,避免单核瓶颈。
查看网卡中断分布:
# 查看网卡队列中断号cat /proc/interrupts | grep eth0# 示例输出:# 89: eth0-TxRx-0# 90: eth0-TxRx-1# 查看中断绑定的 CPUcat /proc/irq/89/smp_affinity_list# 输出:0(仅在 CPU 0 处理)手动绑定中断到 CPU:
# 绑定 IRQ 89 到 CPU 2echo 2 | sudotee /proc/irq/89/smp_affinity_list# 绑定 IRQ 90 到 CPU 3echo 3 | sudotee /proc/irq/90/smp_affinity_list自动化脚本(绑定网卡所有队列到独立核心):
#!/bin/bash# 脚本:set-irq-affinity.shNIC="eth0"CPUS=(2 3 4 5 6 7) # 使用 CPU 2-7 处理网卡中断# 获取网卡所有中断号IRQS=$(cat /proc/interrupts | grep $NIC | awk '{print $1}' | sed 's/://')i=0for irq in$IRQS; do cpu=${CPUS[$((i % ${#CPUS[@]}))]}echo$cpu | sudotee /proc/irq/$irq/smp_affinity_listecho"IRQ $irq -> CPU $cpu" ((i++))done验证:
# 运行脚本sudo bash set-irq-affinity.sh# 查看绑定结果cat /proc/interrupts | grep eth0# 观察各中断的 CPU 列分布# 实时监控中断分布watch -n 1 "cat /proc/interrupts | grep eth0"使用 irqbalance 自动平衡(推荐生产环境):
# 安装 irqbalancesudo yum install -y irqbalance # RHEL/CentOSsudo apt install -y irqbalance # Ubuntu# 配置排除关键 CPU(不参与中断平衡)sudo vi /etc/sysconfig/irqbalance # RHELsudo vi /etc/default/irqbalance # Ubuntu# 添加:IRQBALANCE_BANNED_CPUS=00000003(禁止 CPU 0-1 参与平衡)sudo systemctl enable --now irqbalance场景:低延迟交易系统、高频数据采集,避免 CPU C-State 唤醒延迟(微秒级)。
检查当前 C-State:
# 查看 CPU 空闲态信息cpupower idle-info# 或查看每个 CPUls /sys/devices/system/cpu/cpu0/cpuidle/state*/name禁用深度空闲态:
# 方法 1:通过内核参数(重启生效)sudo grubby --update-kernel=ALL --args="intel_idle.max_cstate=0 processor.max_cstate=1"sudo reboot# 方法 2:临时禁用(立即生效)for state in /sys/devices/system/cpu/cpu*/cpuidle/state*/disable; doecho 1 | sudotee$statedone# 方法 3:仅禁用深度 C-State(C3 及以上)for cpu in /sys/devices/system/cpu/cpu[0-9]*; dofor state in$cpu/cpuidle/state[3-9]*/disable; do [ -f "$state" ] && echo 1 | sudotee$statedonedone验证:
# 查看禁用状态cpupower idle-info# 输出应显示深度 C-State disabled# 性能对比(延迟测试)# 使用 perf 测量上下文切换延迟perf bench sched pipe -l 100000# 禁用 C-State 后延迟降低 10-30%注意事项:
processor.max_cstate=1 保留最浅层 C1 状态平衡功耗。场景:关键业务进程(数据库/缓存)提升优先级,日志/备份任务降低优先级。
查看进程优先级:
# 查看进程 nice 值(-20 最高,19 最低)ps -eo pid,comm,nice,pri | grep -E 'mysql|nginx'# nice: 用户空间优先级# pri: 内核调度优先级提升关键进程优先级:
# 提升 MySQL 进程 nice 值为 -10sudo renice -n -10 -p $(pgrep mysqld)# 启动时设置 nice 值nice -n -10 /usr/sbin/mysqld &# systemd 服务配置sudo systemctl edit mysql.service# 添加:[Service]Nice=-10CPUSchedulingPolicy=fifoCPUSchedulingPriority=50降低后台任务优先级:
# 降低备份脚本优先级nice -n 19 /usr/local/bin/backup.sh# ionice 限制 IO 优先级(避免备份影响在线服务)ionice -c3 nice -n 19 /usr/local/bin/backup.sh# -c3: idle 类,仅在空闲时使用 IO验证:
# 实时监控进程优先级top -p $(pgrep mysqld)# 按 'r' 键可交互式调整 nice 值# 查看 IO 优先级iotop -p $(pgrep mysqld)参数说明:
nice -n -20:最高 CPU 优先级(需 root 权限)。nice -n 19:最低 CPU 优先级(后台任务推荐)。ionice -c1:实时 IO 类(关键数据库推荐)。ionice -c3:空闲 IO 类(备份/日志推荐)。场景:容器化环境或多租户场景隔离资源(CPU/内存/IO)。
检查 cgroup 版本:
# 查看系统使用的 cgroup 版本mount | grep cgroup# v1: 多个挂载点(cpu/memory/blkio)# v2: 单一挂载点 /sys/fs/cgroup# 检查版本stat -fc %T /sys/fs/cgroup/# 输出 cgroup2fs 表示 v2,tmpfs 表示 v1cgroup v1 示例(限制进程 CPU 与内存):
# 创建 cgroup 组sudo cgcreate -g cpu,memory:/myapp# 设置 CPU 配额(50% CPU)echo 50000 | sudotee /sys/fs/cgroup/cpu/myapp/cpu.cfs_quota_usecho 100000 | sudotee /sys/fs/cgroup/cpu/myapp/cpu.cfs_period_us# 设置内存限制(2GB)echo 2147483648 | sudotee /sys/fs/cgroup/memory/myapp/memory.limit_in_bytes# 启动进程到 cgroupsudo cgexec -g cpu,memory:/myapp /usr/bin/myappcgroup v2 示例(systemd 集成):
# 编辑服务配置sudo systemctl edit myapp.service# 添加:[Service]CPUQuota=50%MemoryMax=2GIOWeight=100验证:
# 查看 cgroup 资源使用systemd-cgtop# 实时显示各 cgroup CPU/内存/IO 使用# 查看特定服务 cgroup 限制systemctl show myapp.service -p CPUQuota -p MemoryMax# 压力测试验证 CPU 限制stress-ng --cpu 4 --timeout 60s &# 观察 CPU 使用受限在配额内场景:诊断性能瓶颈(CPU 热点/内存泄漏/IO 延迟)。
安装工具:
# RHEL/CentOSsudo yum install -y perf bcc-tools bpftrace# Ubuntu/Debiansudo apt install -y linux-tools-common linux-tools-$(uname -r) bpfcc-tools bpftraceperf 常用命令:
# CPU 热点分析(采样 30 秒)sudo perf record -F 99 -a -g -- sleep 30sudo perf report --stdio# 实时 CPU 热点(top 模式)sudo perf top -g# 系统调用统计sudo perf stat -e 'syscalls:sys_enter_*' -a sleep 10# 内存访问分析sudo perf mem record -a sleep 10sudo perf mem reporteBPF 工具示例:
# 监控磁盘 IO 延迟分布(biolatency)sudo /usr/share/bcc/tools/biolatency -m 10# 跟踪 TCP 连接延迟(tcplife)sudo /usr/share/bcc/tools/tcplife# 跟踪文件打开(opensnoop)sudo /usr/share/bcc/tools/opensnoop -p $(pgrep nginx)# 跟踪 MySQL 查询(需调试符号)sudo /usr/share/bcc/tools/mysqld_qslower 100# 显示执行时间 >100ms 的查询bpftrace 单行脚本:
# 统计系统调用次数sudo bpftrace -e 'tracepoint:syscalls:sys_enter_* { @[probe] = count(); }'# 跟踪 TCP 重传sudo bpftrace -e 'kprobe:tcp_retransmit_skb { @[comm] = count(); }'# 跟踪内存分配sudo bpftrace -e 'tracepoint:kmem:kmalloc { @bytes = hist(args->bytes_alloc); }'验证与持续监控:
# 定期生成火焰图(需 FlameGraph 工具)git clone https://github.com/brendangregg/FlameGraph.gitsudo perf record -F 99 -a -g -- sleep 60sudo perf script | ./FlameGraph/stackcollapse-perf.pl | ./FlameGraph/flamegraph.pl > perf.svg场景:避免缓存占用过多内存,日志撑爆磁盘。
手动清理缓存:
# 清理 page cache(不影响脏页)sync && echo 1 | sudotee /proc/sys/vm/drop_caches# 清理 dentries 和 inodessync && echo 2 | sudotee /proc/sys/vm/drop_caches# 清理所有缓存(page cache + dentries + inodes)sync && echo 3 | sudotee /proc/sys/vm/drop_caches# 验证清理效果free -h# 观察 buff/cache 列变化自动化日志清理(logrotate):
# 检查 logrotate 配置cat /etc/logrotate.conf# 自定义应用日志轮转(/etc/logrotate.d/myapp)cat <<EOF | sudo tee /etc/logrotate.d/myapp/var/log/myapp/*.log { daily rotate 7 compress delaycompress missingok notifempty create 0640 appuser appgroup sharedscripts postrotate /usr/bin/systemctl reload myapp > /dev/null 2>&1 || true endscript}EOF# 手动测试轮转sudo logrotate -d /etc/logrotate.d/myapp # 调试模式sudo logrotate -f /etc/logrotate.d/myapp # 强制执行清理 systemd journal 日志:
# 查看 journal 日志占用journalctl --disk-usage# 输出示例:Archived and active journals take up 2.5G in the file system.# 清理 7 天前的日志sudo journalctl --vacuum-time=7d# 限制日志最大大小(1GB)sudo journalctl --vacuum-size=1G# 永久配置(/etc/systemd/journald.conf)sudo vi /etc/systemd/journald.conf# 修改:SystemMaxUse=1GSystemMaxFileSize=100MMaxRetentionSec=7daysudo systemctl restart systemd-journald定期清理脚本(cron 任务):
# 创建清理脚本cat <<'EOF' | sudotee /usr/local/bin/cleanup-cache.sh#!/bin/bash# 每周日凌晨 3 点清理缓存与旧日志# 清理缓存sync && echo 3 > /proc/sys/vm/drop_caches# 清理 journal 日志journalctl --vacuum-time=7d# 清理 /tmp 目录 30 天前文件find /tmp -type f -atime +30 -delete# 清理 core dumpfind /var/lib/systemd/coredump -type f -mtime +7 -deletelogger "System cleanup completed"EOFsudochmod +x /usr/local/bin/cleanup-cache.sh# 添加 cron 任务echo"0 3 * * 0 root /usr/local/bin/cleanup-cache.sh" | sudotee -a /etc/crontabNode Exporter 关键指标:
# CPU 使用率(排除 idle)100-(avgby(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m]))*100)# 内存可用率100*(node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes)# 磁盘 IO 利用率rate(node_disk_io_time_seconds_total[5m])*100# 网络接收丢包率rate(node_network_receive_drop_total[5m])# TCP TIME_WAIT 连接数node_netstat_Tcp_CurrEstab{state="time_wait"}# 文件描述符使用率100*(process_open_fds/process_max_fds)# 磁盘空间使用率100-((node_filesystem_avail_bytes/node_filesystem_size_bytes)*100)# 系统负载(1 分钟)node_load1/count(node_cpu_seconds_total{mode="idle"})告警规则示例(alertmanager):
groups:-name:system_performanceinterval:30srules:-alert:HighCPUUsageexpr:100-(avgby(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m]))*100)>80for:5mlabels:severity:warningannotations:summary:"High CPU usage on {{ $labels.instance }}"description:"CPU usage is {{ $value }}%"-alert:HighMemoryPressureexpr:100*(node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes)<10for:3mlabels:severity:criticalannotations:summary:"High memory pressure on {{ $labels.instance }}"-alert:NetworkDropsexpr:rate(node_network_receive_drop_total[5m])>100for:2mlabels:severity:warningannotations:summary:"Network packet drops detected on {{ $labels.instance }}"-alert:DiskSpaceLowexpr:100-((node_filesystem_avail_bytes/node_filesystem_size_bytes)*100)>85for:10mlabels:severity:warning实时性能监控脚本:
#!/bin/bash# 综合性能监控脚本(每 5 秒输出一次)whiletrue; do clearecho"=== System Performance Monitor ==="echo"Timestamp: $(date '+%Y-%m-%d %H:%M:%S')"echo""# CPU 使用率echo"--- CPU Usage ---" mpstat 1 1 | tail -1# 内存使用echo"--- Memory Usage ---" free -h | grep -E 'Mem|Swap'# 磁盘 IOecho"--- Disk IO ---" iostat -x 1 1 | tail -n +4# 网络流量echo"--- Network Traffic ---" sar -n DEV 1 1 | grep -E 'eth0|ens'# TCP 连接状态echo"--- TCP Connections ---" ss -ant | awk '{print $1}' | sort | uniq -c# 系统负载echo"--- Load Average ---"uptimesleep 5done性能阈值建议:
# CPU 使用率:< 80%(峰值 < 95%)# 内存可用率:> 15%# 磁盘 IO util:< 85%# 磁盘 IO await:< 20ms(SSD),< 50ms(HDD)# 网络丢包率:< 0.01%# TCP 重传率:< 1%# 系统负载(Load Average):< CPU 核心数 * 0.7# 文件描述符使用率:< 80%CPU 性能测试:
# sysbench CPU 测试(素数计算)sysbench cpu --cpu-max-prime=20000 --threads=4 run# 目标指标:# events per second: >10000(4C)# latency avg: <1.0ms内存性能测试:
# sysbench 内存测试sysbench memory --memory-block-size=1K --memory-total-size=100G --threads=4 run# 目标指标:# throughput: >10GB/s(DDR4)磁盘 IO 测试:
# fio 随机读测试fio --name=randread --ioengine=libaio --iodepth=32 --rw=randread --bs=4k --direct=1 --size=10G --numjobs=4 --runtime=60 --group_reporting# fio 随机写测试fio --name=randwrite --ioengine=libaio --iodepth=32 --rw=randwrite --bs=4k --direct=1 --size=10G --numjobs=4 --runtime=60 --group_reporting# 目标指标(SSD):# IOPS: >50000(随机读),>20000(随机写)# Latency: <1ms(P99)网络性能测试:
# iperf3 带宽测试# 服务端iperf3 -s# 客户端iperf3 -c <server_ip> -P 10 -t 60# 目标指标(10Gbps 网卡):# Bandwidth: >9.5 Gbps# Retransmits: <0.1%HTTP 性能测试:
# wrk 压测wrk -t12 -c400 -d60s --latency http://localhost/# 目标指标(Nginx 静态文件):# Requests/sec: >50000(16C)# Latency avg: <10ms# Latency P99: <50ms限制 root 登录:
# 禁用 root SSH 登录sudo vi /etc/ssh/sshd_config# 修改:PermitRootLogin nosudo systemctl restart sshdsudo 权限审计:
# 记录所有 sudo 命令到日志sudo vi /etc/sudoers.d/audit# 添加:Defaults logfile="/var/log/sudo.log"Defaults log_input, log_outputDefaults!/usr/bin/sudoreplay !log_output系统调用审计(auditd):
# 监控网络参数修改sudo auditctl -w /etc/sysctl.conf -p wa -k sysctl_changessudo auditctl -w /etc/sysctl.d/ -p wa -k sysctl_changes# 监控服务配置修改sudo auditctl -w /etc/systemd/system/ -p wa -k systemd_changes# 查看审计日志sudo ausearch -k sysctl_changes -i防火墙规则(firewalld):
# 仅允许必需端口(SSH/HTTP/HTTPS)sudo firewall-cmd --permanent --add-service=sshsudo firewall-cmd --permanent --add-service=httpsudo firewall-cmd --permanent --add-service=httpssudo firewall-cmd --reload# 限制来源 IP(仅允许运维网段访问 SSH)sudo firewall-cmd --permanent --zone=public --add-rich-rule='rule family="ipv4" source address="10.0.0.0/8" service name="ssh" accept'SYN Flood 防护(已在 Step 12 启用 tcp_syncookies):
# 验证启用状态sysctl net.ipv4.tcp_syncookies# 输出:net.ipv4.tcp_syncookies = 1ip -s link show | sysctl -w net.core.netdev_max_backlog=50000 | |||
ss -ant | grep TIME_WAIT | wc -l | sysctl -w net.ipv4.tcp_tw_reuse=1 | |||
iostat -x 1 | ||||
free -h | echo 3 > /proc/sys/vm/drop_caches | |||
perf top | ||||
netstat -s | grep -i listen | sysctl -w net.core.somaxconn=65535 | |||
vmstat 1 | sysctl -w vm.swappiness=10 | |||
perf stat -p <pid> | ||||
netstat -s | grep retrans | ||||
lsof | wc -l | ulimit -n 1048576 |
变更前检查清单:
#!/bin/bash# 变更前健康检查脚本echo"=== Pre-Change Health Check ==="# 1. 备份当前配置sudocp /etc/sysctl.conf /etc/sysctl.conf.bak.$(date +%F-%H%M)# 2. 记录当前性能基线echo"CPU:" && mpstat 1 1 | tail -1echo"Memory:" && free -hecho"Disk:" && iostat -x 1 1 | tail -n +4echo"Network:" && ss -s# 3. 验证监控正常curl -s http://localhost:9090/-/healthy || echo"Prometheus 异常"# 4. 检查磁盘空间df -h | awk '$5+0 > 85 {print "WARNING: " $0}'echo"=== 检查完成,可以执行变更 ==="分批调整示例(以 swappiness 为例):
# 第 1 批:1 台测试服务器ssh server1 "sudo sysctl -w vm.swappiness=10"# 观察 30 分钟,监控内存与 swap 使用# 第 2 批:10% 生产节点for host in server{2..5}; do ssh $host"sudo sysctl -w vm.swappiness=10"done# 观察 2 小时# 第 3 批:全量推送ansible all -m sysctl -a "name=vm.swappiness value=10 state=present reload=yes"变更后验证:
#!/bin/bash# 变更后验证脚本echo"=== Post-Change Validation ==="# 验证参数生效sysctl -a | grep -E 'swappiness|somaxconn|tcp_rmem' > /tmp/sysctl-current.txtdiff /tmp/sysctl-baseline.txt /tmp/sysctl-current.txt# 验证服务正常systemctl is-active nginx mysql redis || echo"服务异常"# 验证连接正常curl -I http://localhost/ || echo"HTTP 异常"mysql -u root -p -e "SELECT 1;" || echo"MySQL 异常"# 验证性能指标wrk -t4 -c100 -d10s http://localhost/ > /tmp/perf-after.txtecho"对比变更前后 QPS 差异"echo"=== 验证完成 ==="触发回滚条件:
快速回滚:
#!/bin/bash# 回滚脚本echo"=== Rollback Started ==="# 1. 恢复配置文件sudocp /etc/sysctl.conf.bak.$(date +%F)* /etc/sysctl.conf# 2. 重新加载参数sudo sysctl -p# 3. 重启受影响服务(如有必要)sudo systemctl restart nginx# 4. 验证回滚sysctl -a | grep -E 'swappiness|somaxconn'echo"=== Rollback Completed ==="tuned-adm profile throughput-performance(吞吐优先)或 latency-performance(延迟优先)。systemctl edit 保留原文件。# /etc/sysctl.conf - Linux Performance Tuning Profile# 测试于 2025-10,RHEL 8/Ubuntu 22.04,内核 4.18+/5.15+# === 内存管理 ===vm.swappiness = 10vm.dirty_ratio = 10vm.dirty_background_ratio = 5vm.dirty_expire_centisecs = 500vm.dirty_writeback_centisecs = 100vm.overcommit_memory = 1vm.nr_hugepages = 16384 # 根据实际内存调整# === 文件系统 ===fs.file-max = 2097152fs.inotify.max_user_watches = 524288fs.aio-max-nr = 1048576# === 网络核心参数 ===net.core.somaxconn = 65535net.core.netdev_max_backlog = 50000net.core.rmem_max = 134217728net.core.wmem_max = 134217728net.core.rmem_default = 87380net.core.wmem_default = 65536net.core.netdev_budget = 600net.core.netdev_budget_usecs = 8000# === TCP 参数 ===net.ipv4.tcp_rmem = 4096 87380 134217728net.ipv4.tcp_wmem = 4096 65536 134217728net.ipv4.tcp_window_scaling = 1net.ipv4.tcp_moderate_rcvbuf = 1net.ipv4.tcp_max_syn_backlog = 65535net.ipv4.tcp_syncookies = 1net.ipv4.tcp_tw_reuse = 1net.ipv4.tcp_timestamps = 1net.ipv4.tcp_fin_timeout = 30net.ipv4.tcp_keepalive_time = 600net.ipv4.tcp_keepalive_intvl = 30net.ipv4.tcp_keepalive_probes = 3net.ipv4.tcp_max_orphans = 262144net.ipv4.tcp_fastopen = 3net.ipv4.tcp_syn_retries = 3net.ipv4.tcp_synack_retries = 3net.ipv4.ip_local_port_range = 10000 65535# === 连接跟踪 ===net.netfilter.nf_conntrack_max = 1048576net.netfilter.nf_conntrack_tcp_timeout_established = 7200# === 安全参数 ===net.ipv4.conf.all.rp_filter = 1net.ipv4.conf.default.rp_filter = 1net.ipv4.icmp_echo_ignore_broadcasts = 1net.ipv4.icmp_ignore_bogus_error_responses = 1net.ipv4.conf.all.accept_source_route = 0net.ipv4.conf.default.accept_source_route = 0net.ipv4.conf.all.send_redirects = 0net.ipv4.conf.default.send_redirects = 0# === 内核参数 ===kernel.pid_max = 4194304kernel.threads-max = 4194304kernel.sysrq = 1kernel.core_uses_pid = 1# /etc/systemd/system/myapp.service.d/performance.conf[Service]# CPU 优先级Nice=-10CPUSchedulingPolicy=otherCPUSchedulingPriority=0# CPU 配额(可选,限制为 4 核)# CPUQuota=400%# 内存限制MemoryMax=16GMemoryHigh=14G# IO 优先级IOSchedulingClass=realtimeIOSchedulingPriority=0# 文件描述符LimitNOFILE=1048576LimitNPROC=65535# 核心转储LimitCORE=infinity# 日志限流LogRateLimitIntervalSec=30sLogRateLimitBurst=1000# OOM 优先级(负数不易被 kill)OOMScoreAdjust=-500# /etc/nginx/nginx.confuser nginx;worker_processes auto; # 等于 CPU 核心数worker_cpu_affinity auto;worker_rlimit_nofile1048576;events {useepoll;worker_connections65535;multi_accepton;}http {# TCP 优化sendfileon;tcp_nopushon;tcp_nodelayon;# 连接超时keepalive_timeout65;keepalive_requests1000;# 缓冲区client_body_buffer_size128k;client_max_body_size10m;client_header_buffer_size1k;large_client_header_buffers48k;# 文件缓存open_file_cache max=10000 inactive=30s;open_file_cache_valid60s;open_file_cache_min_uses2;open_file_cache_errorson;server {listen80 reuseport backlog=65535 fastopen=256;location / {# 后端连接池proxy_http_version1.1;proxy_set_header Connection "";# 超时设置proxy_connect_timeout5s;proxy_send_timeout10s;proxy_read_timeout10s;proxy_pass http://backend; } }upstream backend { least_conn;keepalive1024;keepalive_requests10000;keepalive_timeout60s;server10.0.0.1:8080 max_fails=3 fail_timeout=30s;server10.0.0.2:8080 max_fails=3 fail_timeout=30s; }}# deploy-tuning.yml----name:LinuxPerformanceTuningDeploymenthosts:allbecome:yestasks:-name:备份当前sysctl配置copy:src:/etc/sysctl.confdest:"/etc/sysctl.conf.bak.{{ ansible_date_time.iso8601_basic_short }}"remote_src:yes-name:部署优化后的sysctl配置copy:src:files/sysctl.confdest:/etc/sysctl.confowner:rootgroup:rootmode:0644notify:reloadsysctl-name:配置文件描述符限制blockinfile:path:/etc/security/limits.confblock:| * soft nofile 1048576 * hard nofile 1048576 root soft nofile 1048576 root hard nofile 1048576-name:禁用透明大页服务copy:dest:/etc/systemd/system/disable-thp.servicecontent:| [Unit] Description=Disable Transparent Huge Pages DefaultDependencies=no After=sysinit.target [Service] Type=oneshot ExecStart=/bin/sh -c 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' ExecStart=/bin/sh -c 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' [Install] WantedBy=basic.targetnotify:enabledisable-thp-name:设置CPU频率策略为performancecommand:cpupowerfrequency-set-gperformancewhen:ansible_processor_count>4-name:验证配置生效command:sysctl-aregister:sysctl_outputfailed_when:"'vm.swappiness = 10' not in sysctl_output.stdout"handlers:-name:reloadsysctlcommand:sysctl-p-name:enabledisable-thpsystemd:name:disable-thpenabled:yesstate:starteddaemon_reload:yes覆盖系统:RHEL 7/8/9、CentOS 7/8、Ubuntu 20.04/22.04测试环境:测试于 2025-10,内核 4.18+/5.15+,生产验证 16C32G 典型配置
快速验证清单:
# 一键检查优化效果sysctl vm.swappiness net.core.somaxconn net.ipv4.tcp_tw_reusecat /sys/kernel/mm/transparent_hugepage/enabledulimit -ncat /sys/block/sda/queue/schedulerss -sfree -h微
信
群
WeChat group
为了方便大家更好的交流运维等相关技术问题,创建了微信交流群,需要加群的小伙伴们可以扫一扫下面的二维码加我为好友拉您进群(备注:加群)。

代
码
仓
库
| 代码仓库 | 网址 |
| Github | https://github.com/raymond999999 |
| Gitee | https://gitee.com/raymond9 |
博
客
Blog
| 博客 | 网址 |
| https://blog.csdn.net/qq_25599925 | |
| 稀土掘金 | https://juejin.cn/user/4262187909781751 |
| 知识星球 | https://wx.zsxq.com/group/15555885545422 |
| 阿里云社区 | https://developer.aliyun.com/profile/snzh3xpxaf6sg |
| 腾讯云社区 | https://cloud.tencent.com/developer/user/11823619 |
| 华为云社区 | https://developer.huaweicloud.com/usercenter/mycommunity/dynamics |
访问博客网站,查看更多优质原创内容。