贵州遵义的山
一,需求
设计思路
- 运维排查通常关注最近发生的问题。全量读取几个 G 的日志既浪费时间又消耗资源。利用
tail -n 20000 强制只读取文件尾部。即使文件有 1 亿行,脚本也只在几秒内完成分析。
- 动态适配:不同的业务可能输出不同格式的日志(如 JSON 格式的微服务日志 vs 传统 Nginx 日志),且日志可能会轮转压缩。
- 文件检测:通过
file 后缀和 head -n 1 内容特征动态判断类型。 - 命令构建:根据类型动态构建读取命令 (
read_cmd),主逻辑无需关心底层是 cat 还是 zcat。 - 解析分流:针对 JSON 使用
grep -oP 提取字段,针对文本使用 awk 提取列。
- 故障输出策略:正常的日志(200 OK, info 级别)通常不需要关注,只有异常才值得打印详情。
- 条件触发:仅当
count > 0 时,才执行第二次管道读取并打印具体日志行。 - 视觉强化:使用红色高亮错误数量和严重警告,让运维人员一眼看到重点。
二,简易流程图
三,代码
关键代码解析
- 进程替换 (
< <(...)) 与 while read - 避免了
ls | while 产生的子 Shell 作用域问题,确保循环内的变量累加(如 total_5xx_count)在循环结束后依然有效。
- 时间排序 (
%T@) - 使用
find -printf '%T@' 获取精确的时间戳进行排序,确保最新的日志文件最先被分析。这对于轮转日志(access.log, access.log.1...)尤为重要。
- 正则兼容性处理
- 针对 JSON 和 标准格式分别编写了正则,避免了用同一套逻辑解析不同格式导致的误报。
- 色彩增强
- 定义 ANSI 颜色变量,使报告在终端中层次分明,关键错误一目了然。
#!/bin/bash#===============================================================================# 脚本名称: nginx_dir_analyze.sh (修复版)#===============================================================================# 开启严格模式,但我们要小心处理管道返回值set -uo pipefail # 注意:去掉了 -e,防止 grep 找不到内容时脚本直接退出而不输出任何提示DEFAULT_DIR="/usr/local/nginx-1.12.0/logs"LINES_LIMIT=20000 # 【已修正】默认只分析最近 2 万行TOP_N=10RED='\033[0;31m'GREEN='\033[0;32m'YELLOW='\033[1;33m'BLUE='\033[0;34m'NC='\033[0m'LOG_DIR="${1:-$DEFAULT_DIR}"if [[ ! -d "$LOG_DIR" ]]; then echo -e "${RED}错误: 目录 '$LOG_DIR' 不存在!${NC}" exit 1fiecho -e "${BLUE}============================================================${NC}"echo -e "${BLUE} Nginx 日志目录分析报告${NC}"echo -e "${BLUE} 目标目录: $LOG_DIR${NC}"echo -e "${BLUE} 分析范围: 最近 $LINES_LIMIT 行 (每文件)${NC}"echo -e "${BLUE}============================================================${NC}"echo ""get_read_cmd() { local file="$1" if [[ "$file" == *.gz ]]; then echo "zcat '$file' | tail -n $LINES_LIMIT" else # 强制使用 tail,即使行数大于文件行数,tail 也会安全地返回全部内容 echo "tail -n $LINES_LIMIT '$file'" fi}detect_log_type() { local file="$1" local sample if [[ "$file" == *.gz ]]; then sample=$(zcat "$file" 2>/dev/null | head -n 1) else sample=$(head -n 1 "$file") fi if [[ -z "$sample" ]]; then echo "empty"; return; fi if [[ "$sample" == "{"* ]]; then echo "json"; return; fi if echo "$sample" | grep -qE '\[[a-z]+\]' && echo "$sample" | grep -qE '^[0-9]{4}/'; then echo "error"; return; fi if echo "$sample" | grep -qE '^[0-9]+\.[0-9]+' || echo "$sample" | grep -qE '(GET|POST|HTTP/)'; then echo "access"; return; fi echo "unknown"}total_access_files=0total_error_files=0total_5xx_count=0total_crit_count=0# 使用 find 获取文件列表while IFS= read -r file; do [[ -z "$file" ]] && continue filename=$(basename "$file") filetype=$(detect_log_type "$file") if [[ "$filetype" == "empty" ]] || [[ "$filetype" == "unknown" ]]; then continue fi read_cmd=$(get_read_cmd "$file") echo -e "${GREEN}----------------------------------------${NC}" echo -e "${BLUE}正在分析: $filename${NC} (${filetype^^} 格式)" echo -e "${GREEN}----------------------------------------${NC}" # --- Access 日志分析 --- if [[ "$filetype" == "access" ]] || [[ "$filetype" == "json" ]]; then ((total_access_files++)) # 检查是否有数据 line_count=$(eval "$read_cmd" | wc -l) if [[ $line_count -eq 0 ]]; then echo -e "${YELLOW}警告: 文件为空或未读取到数据。${NC}" continue fi echo "📄 读取行数: $line_count" echo "📊 Top $TOP_N 访问 IP:" if [[ "$filetype" == "json" ]]; then eval "$read_cmd" | grep -oP '"(remote_addr|client_ip)":\s*"\K[^"]+' 2>/dev/null | sort | uniq -c | sort -nr | head -n $TOP_N || echo " (无数据)" else # 增加 grep 过滤,确保只处理像 IP 的行,防止乱码 eval "$read_cmd" | awk '{print $1}' | grep -E '^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$' | sort | uniq -c | sort -nr | head -n $TOP_N || echo " (无数据)" fi echo "⚠️ 5xx 错误统计:" count_5xx=0 if [[ "$filetype" == "json" ]]; then count_5xx=$(eval "$read_cmd" | grep -cE '"status":\s*(5[0-9]{2})' 2>/dev/null || echo 0) else count_5xx=$(eval "$read_cmd" | grep -cE '\s5[0-9]{2}\s' 2>/dev/null || echo 0) fi if [[ $count_5xx -gt 0 ]]; then echo -e " 发现 ${RED}$count_5xx${NC} 个 5xx 错误" ((total_5xx_count+=count_5xx)) echo " 最近 3 条:" eval "$read_cmd" | grep -E '(5[0-9]{2}|\"status\":\s*5[0-9]{2})' | tail -n 3 else echo " ✅ 未发现 5xx 错误" fi # --- Error 日志分析 --- elif [[ "$filetype" == "error" ]]; then ((total_error_files++)) echo "📉 错误级别分布:" eval "$read_cmd" | grep -oE '\[(debug|info|notice|warn|error|crit|alert|emerg)\]' | sort | uniq -c | sort -nr || echo " (无匹配级别)" count_crit=$(eval "$read_cmd" | grep -cE '\[(crit|alert|emerg)\]' 2>/dev/null || echo 0) if [[ $count_crit -gt 0 ]]; then echo -e "🚨 发现 ${RED}$count_crit${NC} 个严重错误!" ((total_crit_count+=count_crit)) # --- 新增下面这行 --- echo " 详情:" eval "$read_cmd" | grep -E '\[(crit|alert|emerg)\]' | tail -n 5 fi fi echo ""done < <(find "$LOG_DIR" -maxdepth 1 -type f \( -name "*.log" -o -name "*.log.gz" \) -printf '%T@ %p\n' 2>/dev/null | sort -k1,1nr | cut -d' ' -f2-)echo -e "${BLUE}============================================================${NC}"echo -e "${BLUE} 📝 总结${NC}"echo -e "${BLUE}============================================================${NC}"echo "Access 日志文件数: $total_access_files"echo "Error 日志文件数 : $total_error_files"echo -e "5xx 错误总数 : ${RED}$total_5xx_count${NC}"echo -e "严重错误总数 : ${RED}$total_crit_count${NC}"
四,测试
[root@master1 nginx]# ./test2.sh ============================================================ Nginx 日志目录分析报告 目标目录: /usr/local/nginx-1.12.0/logs 分析范围: 最近 20000 行 (每文件)============================================================----------------------------------------正在分析: access.log (ACCESS 格式)----------------------------------------?? 读取行数: 4531?? Top 10 访问 IP: 1759 192.168.201.120 1625 192.168.88.13 1020 192.168.200.210 65 192.168.200.67 54 192.168.201.3 8 172.25.61.52?? 5xx 错误统计: 发现 1059 个 5xx 错误 最近 3 条:172.25.61.52 - - [22/Sep/2025:21:38:49 +0800] "GET /tool/ HTTP/1.1" 200 290 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36"172.25.61.52 - - [22/Sep/2025:21:39:08 +0800] "GET /tool/apache-tomcat-8.5.30.zip HTTP/1.1" 200 22002977 "http://172.25.61.120:65006/tool/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36"172.25.61.52 - - [25/Sep/2025:16:28:46 +0800] "GET / HTTP/1.1" 499 0 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"----------------------------------------正在分析: error.log (ERROR 格式)----------------------------------------?? 错误级别分布: 13 [error] 9 [notice] 2 [alert]?? 发现 2 个严重错误! 详情:2021/09/15 21:00:08 [alert] 16562#0: 1024 worker_connections are not enough2021/09/15 21:00:12 [alert] 16562#0: 1024 worker_connections are not enough============================================================ ?? 总结============================================================Access 日志文件数: 1Error 日志文件数 : 15xx 错误总数 : 1059严重错误总数 : 2
五,总结
以上脚本适用以下场景
- 日常巡检:每天定时运行,快速查看是否有新增的 5xx 爆发。
- 故障排查:接到报警后,第一时间运行脚本定位是哪个 IP 在攻击,或哪种错误在频发。
- 迁移验证:服务器迁移后,快速对比新旧环境的日志错误率。
不适用:需要审计一个月前的具体某条日志(因为限制了行数)或需要生成正式的 PDF/HTML 报表(目前仅支持终端输出)。最后的最后(Last but not least),欢迎交流:
关注公众号留言,或者在下方直接留言: