当前位置：首页>Linux>linux nginx日志分析脚本实现

linux nginx日志分析脚本实现

2026-03-27 22:55:55

linux nginx日志分析脚本实现

贵州遵义的山

一，需求

设计思路

运维排查通常关注最近发生的问题。全量读取几个 G 的日志既浪费时间又消耗资源。利用 tail -n 20000 强制只读取文件尾部。即使文件有 1 亿行，脚本也只在几秒内完成分析。

动态适配：不同的业务可能输出不同格式的日志（如 JSON 格式的微服务日志 vs 传统 Nginx 日志），且日志可能会轮转压缩。

文件检测
：通过 file 后缀和 head -n 1 内容特征动态判断类型。
命令构建
：根据类型动态构建读取命令 (read_cmd)，主逻辑无需关心底层是 cat 还是 zcat。
解析分流
：针对 JSON 使用 grep -oP 提取字段，针对文本使用 awk 提取列。

故障输出策略：正常的日志（200 OK, info 级别）通常不需要关注，只有异常才值得打印详情。

默认只展示统计数字（如：发现 100 个错误）。
条件触发
：仅当 count > 0 时，才执行第二次管道读取并打印具体日志行。
视觉强化
：使用红色高亮错误数量和严重警告，让运维人员一眼看到重点。

二，简易流程图

三，代码

关键代码解析

进程替换 (< <(...)) 与 while read
：

避免了 ls | while 产生的子 Shell 作用域问题，确保循环内的变量累加（如 total_5xx_count）在循环结束后依然有效。

时间排序 (%T@)
：

使用 find -printf '%T@' 获取精确的时间戳进行排序，确保最新的日志文件最先被分析。这对于轮转日志（access.log, access.log.1...）尤为重要。

正则兼容性处理
：

针对 JSON 和标准格式分别编写了正则，避免了用同一套逻辑解析不同格式导致的误报。

色彩增强
：

定义 ANSI 颜色变量，使报告在终端中层次分明，关键错误一目了然。

#!/bin/bash#===============================================================================# 脚本名称: nginx_dir_analyze.sh (修复版)#===============================================================================# 开启严格模式，但我们要小心处理管道返回值set -uo pipefail # 注意：去掉了 -e，防止 grep 找不到内容时脚本直接退出而不输出任何提示DEFAULT_DIR="/usr/local/nginx-1.12.0/logs"LINES_LIMIT=20000       # 【已修正】默认只分析最近 2 万行TOP_N=10RED='\033[0;31m'GREEN='\033[0;32m'YELLOW='\033[1;33m'BLUE='\033[0;34m'NC='\033[0m'LOG_DIR="${1:-$DEFAULT_DIR}"if [[ ! -d "$LOG_DIR" ]]; then    echo -e "${RED}错误: 目录 '$LOG_DIR' 不存在！${NC}"    exit 1fiecho -e "${BLUE}============================================================${NC}"echo -e "${BLUE}  Nginx 日志目录分析报告${NC}"echo -e "${BLUE}  目标目录: $LOG_DIR${NC}"echo -e "${BLUE}  分析范围: 最近 $LINES_LIMIT 行 (每文件)${NC}"echo -e "${BLUE}============================================================${NC}"echo ""get_read_cmd() {    local file="$1"    if [[ "$file" == *.gz ]]; then        echo "zcat '$file' | tail -n $LINES_LIMIT"    else        # 强制使用 tail，即使行数大于文件行数，tail 也会安全地返回全部内容        echo "tail -n $LINES_LIMIT '$file'"    fi}detect_log_type() {    local file="$1"    local sample    if [[ "$file" == *.gz ]]; then        sample=$(zcat "$file" 2>/dev/null | head -n 1)    else        sample=$(head -n 1 "$file")    fi    if [[ -z "$sample" ]]; then echo "empty"; return; fi    if [[ "$sample" == "{"* ]]; then echo "json"; return; fi    if echo "$sample" | grep -qE '\[[a-z]+\]' && echo "$sample" | grep -qE '^[0-9]{4}/'; then         echo "error"; return; fi    if echo "$sample" | grep -qE '^[0-9]+\.[0-9]+' || echo "$sample" | grep -qE '(GET|POST|HTTP/)'; then         echo "access"; return; fi    echo "unknown"}total_access_files=0total_error_files=0total_5xx_count=0total_crit_count=0# 使用 find 获取文件列表while IFS= read -r file; do    [[ -z "$file" ]] && continue    filename=$(basename "$file")    filetype=$(detect_log_type "$file")    if [[ "$filetype" == "empty" ]] || [[ "$filetype" == "unknown" ]]; then        continue    fi    read_cmd=$(get_read_cmd "$file")    echo -e "${GREEN}----------------------------------------${NC}"    echo -e "${BLUE}正在分析: $filename${NC} (${filetype^^} 格式)"    echo -e "${GREEN}----------------------------------------${NC}"    # --- Access 日志分析 ---    if [[ "$filetype" == "access" ]] || [[ "$filetype" == "json" ]]; then        ((total_access_files++))        # 检查是否有数据        line_count=$(eval "$read_cmd" | wc -l)        if [[ $line_count -eq 0 ]]; then            echo -e "${YELLOW}警告: 文件为空或未读取到数据。${NC}"            continue        fi        echo "📄 读取行数: $line_count"        echo "📊 Top $TOP_N 访问 IP:"        if [[ "$filetype" == "json" ]]; then             eval "$read_cmd" | grep -oP '"(remote_addr|client_ip)":\s*"\K[^"]+' 2>/dev/null | sort | uniq -c | sort -nr | head -n $TOP_N || echo "   (无数据)"        else             # 增加 grep 过滤，确保只处理像 IP 的行，防止乱码             eval "$read_cmd" | awk '{print $1}' | grep -E '^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$' | sort | uniq -c | sort -nr | head -n $TOP_N || echo "   (无数据)"        fi        echo "⚠️  5xx 错误统计:"        count_5xx=0        if [[ "$filetype" == "json" ]]; then            count_5xx=$(eval "$read_cmd" | grep -cE '"status":\s*(5[0-9]{2})' 2>/dev/null || echo 0)        else            count_5xx=$(eval "$read_cmd" | grep -cE '\s5[0-9]{2}\s' 2>/dev/null || echo 0)        fi        if [[ $count_5xx -gt 0 ]]; then            echo -e "   发现 ${RED}$count_5xx${NC} 个 5xx 错误"            ((total_5xx_count+=count_5xx))            echo "   最近 3 条:"            eval "$read_cmd" | grep -E '(5[0-9]{2}|\"status\":\s*5[0-9]{2})' | tail -n 3        else            echo "   ✅ 未发现 5xx 错误"        fi    # --- Error 日志分析 ---    elif [[ "$filetype" == "error" ]]; then        ((total_error_files++))        echo "📉 错误级别分布:"        eval "$read_cmd" | grep -oE '\[(debug|info|notice|warn|error|crit|alert|emerg)\]' | sort | uniq -c | sort -nr || echo "   (无匹配级别)"        count_crit=$(eval "$read_cmd" | grep -cE '\[(crit|alert|emerg)\]' 2>/dev/null || echo 0)        if [[ $count_crit -gt 0 ]]; then            echo -e "🚨 发现 ${RED}$count_crit${NC} 个严重错误!"            ((total_crit_count+=count_crit))	    # --- 新增下面这行 ---            echo "   详情:"            eval "$read_cmd" | grep -E '\[(crit|alert|emerg)\]' | tail -n 5        fi    fi    echo ""done < <(find "$LOG_DIR" -maxdepth 1 -type f \( -name "*.log" -o -name "*.log.gz" \) -printf '%T@ %p\n' 2>/dev/null | sort -k1,1nr | cut -d' ' -f2-)echo -e "${BLUE}============================================================${NC}"echo -e "${BLUE}  📝 总结${NC}"echo -e "${BLUE}============================================================${NC}"echo "Access 日志文件数: $total_access_files"echo "Error 日志文件数 : $total_error_files"echo -e "5xx 错误总数     : ${RED}$total_5xx_count${NC}"echo -e "严重错误总数   : ${RED}$total_crit_count${NC}"

四，测试

[root@master1 nginx]# ./test2.sh ============================================================  Nginx 日志目录分析报告  目标目录: /usr/local/nginx-1.12.0/logs  分析范围: 最近 20000 行 (每文件)============================================================----------------------------------------正在分析: access.log (ACCESS 格式)----------------------------------------?? 读取行数: 4531?? Top 10 访问 IP:   1759 192.168.201.120   1625 192.168.88.13   1020 192.168.200.210     65 192.168.200.67     54 192.168.201.3      8 172.25.61.52??  5xx 错误统计:   发现 1059 个 5xx 错误   最近 3 条:172.25.61.52 - - [22/Sep/2025:21:38:49 +0800] "GET /tool/ HTTP/1.1" 200 290 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36"172.25.61.52 - - [22/Sep/2025:21:39:08 +0800] "GET /tool/apache-tomcat-8.5.30.zip HTTP/1.1" 200 22002977 "http://172.25.61.120:65006/tool/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36"172.25.61.52 - - [25/Sep/2025:16:28:46 +0800] "GET / HTTP/1.1" 499 0 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"----------------------------------------正在分析: error.log (ERROR 格式)----------------------------------------?? 错误级别分布:     13 [error]      9 [notice]      2 [alert]?? 发现 2 个严重错误!   详情:2021/09/15 21:00:08 [alert] 16562#0: 1024 worker_connections are not enough2021/09/15 21:00:12 [alert] 16562#0: 1024 worker_connections are not enough============================================================  ?? 总结============================================================Access 日志文件数: 1Error 日志文件数 : 15xx 错误总数     : 1059严重错误总数   : 2

五，总结

以上脚本适用以下场景

日常巡检：每天定时运行，快速查看是否有新增的 5xx 爆发。
故障排查：接到报警后，第一时间运行脚本定位是哪个 IP 在攻击，或哪种错误在频发。
迁移验证：服务器迁移后，快速对比新旧环境的日志错误率。

不适用：需要审计一个月前的具体某条日志（因为限制了行数）或需要生成正式的 PDF/HTML 报表（目前仅支持终端输出）。

最后的最后（Last but not least），欢迎交流：

关注公众号留言，或者在下方直接留言：

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

linux nginx日志分析脚本实现

设计思路

最新文章

热门文章

随机文章

linux nginx日志分析脚本实现

设计思路

[PHP]设计模式 四

Python 库巡礼 | Seaborn:让统计图形变得简单而美观

最新文章

热门文章

随机文章

[PHP]设计模式四