在 Linux Shell 脚本开发中,调试是一项贯穿始终的工作——无论是排查逻辑错误、验证变量取值,还是跟踪命令执行流程,开发者都需要“看清”脚本运行的每一步。set -x正是 Shell 提供的调试开关,它能让脚本在执行时“自曝”详细的操作细节,堪称开发者的“调试透视眼”。本文将深入解析 set -x的原理、用法及实战技巧。
一、set -x的本质:开启命令回显与调试模式
set是 Shell 的内置命令,用于控制 Shell 的运行环境(如选项、参数等)。其中,-x是 set的一个调试选项,全称可理解为“xtrace”(跟踪执行)。当执行 set -x后,Shell 会进入“调试模式”,在此模式下:
每条执行的命令会被“回显”(即打印到标准错误输出 stderr);
变量会被展开为其实际值(替换后的具体内容可见);
通过 +符号标记调试输出的层级(便于区分主命令与子命令)。
二、set -x的工作机制:从“隐形”到“透明”的执行过程
为了直观理解 set -x的效果,我们通过一个简单脚本对比“关闭调试”与“开启调试”的差异。
示例脚本 test.sh
#!/bin/bash
name="Alice"
age=30
echo "Hello, $name! You are $age years old."
result=$((age + 5))
echo "In 5 years, you will be $result years old."
场景 1:未开启调试(默认模式)
直接执行脚本:
chmod +x test.sh
./test.sh
输出(仅最终结果):
Hello, Alice! You are 30 years old.
In 5 years, you will be 35 years old.
此时,脚本的执行过程是“隐形”的——我们看不到变量何时被赋值、算术运算如何执行,只能看到最终的 echo输出。
场景 2:开启调试(set -x)
修改脚本,在开头添加 set -x:
#!/bin/bash
set -x # 开启调试模式
name="Alice"
age=30
echo "Hello, $name! You are $age years old."
result=$((age + 5))
echo "In 5 years, you will be $result years old."
再次执行:
./test.sh
输出(含调试信息):
+ name=Alice # 调试行:变量赋值(以+开头)
+ age=30 # 调试行:变量赋值
+ echo 'Hello, Alice! You are 30 years old.' # 调试行:即将执行的echo命令(变量已展开)
Hello, Alice! You are 30 years old. # 实际命令的输出
+ result=35 # 调试行:算术运算结果(age+5展开为30+5=35)
+ echo 'In 5 years, you will be 35 years old.' # 调试行:即将执行的echo命令
In 5 years, you will be 35 years old. # 实际命令的输出
关键观察:
+符号:每行调试信息以 +开头,标记这是 Shell 正在执行的命令(区别于脚本的实际输出)。
变量展开:$name被替换为 Alice,$age被替换为 30,$((age + 5))被计算为 35,全程可见。
命令轨迹:从变量赋值到算术运算,再到 echo执行,每一步都被“直播”,彻底暴露执行流程。
三、set +x:关闭调试模式的“刹车”
+x是 -x的反向操作,用于关闭调试模式。若在脚本中临时需要停止调试(例如避免敏感信息泄露),可使用 set +x。
示例:局部关闭调试
#!/bin/bash
set -x # 全局开启调试
name="Alice"
age=30
echo "Hello, $name!" # 此行会被调试
set +x # 关闭调试
secret_key="my_password_123" # 敏感操作,不希望被调试显示
echo "Secret key is set." # 此行不会被调试(仅显示实际输出)
set -x # 重新开启调试
result=$((age + 5))
echo "Result: $result" # 此行会被调试
执行后输出:
+ name=Alice
+ age=30
+ echo 'Hello, Alice!'
Hello, Alice!
+ set +x
Secret key is set. # 无调试行(set +x 后不显示变量赋值)
+ result=35
+ echo 'Result: 35'
Result: 35
四、set -x的典型应用场景
`你是一位专业的Linux系统管理员,我需要你帮我写一个Shell脚本,用于监控Linux服务器的CPU使用率,并在CPU使用率超过80%时发送邮件报警。要求脚本每分钟检查一次,持续监控,并且邮件报警时需要包含当前CPU使用率和时间戳。
好的,我会为你编写一个专业、可靠且易于维护的 Linux CPU 监控脚本,满足你的需求:
功能:每分钟检查一次 CPU 使用率
阈值:CPU 使用率 > 80% 时触发邮件报警
报警内容:包含当前 CPU 使用率与时间戳
持续监控:脚本一直运行直到手动停止
邮件发送:使用系统 mail命令(需确保已配置好 sendmail或 postfix)
1. 脚本思路
获取 CPU 使用率
使用 /proc/stat读取 CPU 时间片并计算使用率(推荐用 top/mpstat或直接解析 /proc/stat的方式,这里我们采用轻量级的 /proc/stat方法,避免依赖额外工具)。
计算方式
第一次读取 CPU 总的空闲时间与总时间
等待 1 秒(或短时间采样间隔)再读取一次
根据差值计算 CPU 使用率公式:
CPU Usage=(1−total_diffidle_diff)×100%
判断与报警
如果超过 80%,发送邮件(带时间戳和当前使用率)。
循环执行
无限循环 + sleep 60实现每分钟一次。
2. Shell 脚本代码
#!/bin/bash
# =============================================
# CPU 使用率监控脚本
# 功能:每分钟检查一次 CPU 使用率,超过 80% 发邮件报警
# 作者:Linux 系统管理员
# 使用:确保系统已配置 mail 命令可用
# =============================================
# 配置项
THRESHOLD=80 # CPU 使用率报警阈值(百分比)
EMAIL="admin@example.com" # 接收报警的邮箱地址
SUBJECT="⚠️ 服务器 CPU 使用率告警" # 邮件主题
INTERVAL=60 # 检查间隔(秒),这里设为 60 秒
# 日志文件(可选,用于记录报警历史)
LOG_FILE="/var/log/cpu_monitor.log"
# 获取当前时间戳函数
timestamp() {
date "+%Y-%m-%d %H:%M:%S"
}
# 获取 CPU 使用率函数(基于 /proc/stat)
get_cpu_usage() {
# 第一次采样
read cpu user nice system idle iowait irq softirq steal guest < /proc/stat
prev_total=$((user + nice + system + idle + iowait + irq + softirq + steal))
prev_idle=$idle
# 等待 1 秒
sleep 1
# 第二次采样
read cpu user nice system idle iowait irq softirq steal guest < /proc/stat
total=$((user + nice + system + idle + iowait + irq + softirq + steal))
idle_cur=$idle
# 计算差值
total_diff=$((total - prev_total))
idle_diff=$((idle_cur - prev_idle))
# 计算使用率
usage=$(echo "scale=2; (1 - $idle_diff / $total_diff) * 100" | bc)
# 去掉小数点后的无效零,保留整数或一位小数
usage_int=$(printf "%.0f" "$usage") # 转为整数方便比较
echo "$usage_int"
}
# 发送邮件函数
send_alert() {
local current_usage=$1
local time_now=$(timestamp)
local message="⏰ 时间:$(timestamp)
🚨 CPU 使用率告警
当前 CPU 使用率: ${current_usage}%
阈值: ${THRESHOLD}%
请及时检查服务器负载情况!
---
监控系统自动发送"
# 发送邮件
echo -e "$message" | mail -s "$SUBJECT" "$EMAIL"
# 写入日志
echo "[$(timestamp)] ALERT: CPU usage ${current_usage}% exceeds threshold ${THRESHOLD}%" >> "$LOG_FILE"
}
# 主循环
while true; do
cpu_usage=$(get_cpu_usage)
time_now=$(timestamp)
echo "[$(timestamp)] Current CPU Usage: ${cpu_usage}%" # 控制台输出(可选)
# 判断是否超过阈值
if [ "$cpu_usage" -gt "$THRESHOLD" ]; then
echo "[$(timestamp)] CPU usage exceeds threshold, sending alert..."
send_alert "$cpu_usage"
fi
# 等待下一次检查
sleep "$INTERVAL"
done
3. 使用说明
权限与依赖
脚本需要有执行权限:chmod +x monitor_cpu.sh
确保系统已安装 bc(浮点计算):yum install bc或 apt-get install bc
配置好 mail命令(如使用 sendmail或 postfix):
# CentOS/RHEL
yum install mailx postfix
systemctl enable --now postfix
# Debian/Ubuntu
apt-get install mailutils postfix
测试 mail是否能发信:echo "test" | mail -s "Test Mail" your@email.com
运行脚本
后台运行(nohup):
nohup ./monitor_cpu.sh &
或者加入 crontab 做守护(但这里是持续监控,更适合用 systemd服务或 screen/tmux保持运行)。
日志查看
报警记录保存在 /var/log/cpu_monitor.log,可用 tail -f实时查看:
tail -f /var/log/cpu_monitor.log
停止脚本
找到进程 PID:ps aux | grep monitor_cpu.sh
杀掉进程:kill <PID>
4. 进阶优化建议
防重复报警:可以在一定时间内只报警一次,避免短时间内频繁发邮件(比如 10 分钟内只报一次)。
多核支持:当前算法是整体 CPU 使用率,如需单核或按核心监控,可扩展解析 /proc/stat的 cpu0、cpu1等。
集成到系统服务:编写 systemd unit 文件,让脚本开机自启并受系统管理。
增加微信/钉钉报警:除了邮件,可调用 webhook 发送到企业 IM。
✅ 这样你就拥有了一个 生产级可用的 CPU 监控报警脚本,能够持续监控并在超过阈值时自动发邮件提醒。