做后端开发、运维、云服务管理的同学,一定对 df -h 这个命令刻骨铭心。
服务器磁盘空间不足,绝对是线上服务最常见的故障之一:日志文件无限膨胀、业务数据持续写入、临时文件堆积不清理,最终触发「No space left on device」报错,导致服务写入失败、数据库卡死、程序崩溃。
而我们的常规操作,永远是被动且低效的:
- 每天手动敲
df -h 巡检磁盘,几十台服务器就要重复几十遍,机械又枯燥; - 磁盘告警全靠「用户反馈+服务报错」,故障发生了才后知后觉,只能紧急清理;
- 清理完不知道根源在哪,过几天磁盘又满了,陷入「满了清、清了满」的死循环;
- 没有历史数据,无法分析磁盘增长趋势,更做不到提前预警。
我们真正需要的是什么?
一个能自动巡检、阈值告警、智能清理、趋势分析、可视化展示的磁盘空间监控机器人,彻底告别手动敲命令的低效运维,把「被动救火」变成「主动防御」。
今天这篇文章,我将由浅入深、循序渐进地带着大家实现这个监控机器人,从「极简入门版」到「企业实用版」,再到进阶对接 Prometheus+Grafana 实现可视化大屏监控,所有代码均可直接运行、按需修改,零基础也能轻松上手。
核心价值:一套完整的磁盘监控解决方案,覆盖「单机小服务」→「多机集群」→「企业级可视化运维」全场景,学完即用!
一、先搞懂:磁盘监控的核心知识点(必知,无门槛)
在写代码之前,先理清几个基础知识点,这些是我们实现监控机器人的核心依据,也是 Linux 磁盘监控的底层逻辑,不用死记,理解即可。
核心命令:df -h 到底能看什么?
我们每天敲的 df -h,全称是 disk free -human-readable,作用是查看系统磁盘分区的空间使用情况,输出内容如下:
Filesystem Size Used Avail Use% Mounted on
/dev/vda1 40G 32G 5.8G 85% /
tmpfs 1.9G 0 1.9G 0% /dev/shm
/dev/vdb1 200G 120G 70G 60% /data
- Filesystem磁盘分区名,比如
/dev/vda1 是系统盘,/dev/vdb1 是数据盘; - Size
- Used
- Avail
- Use%
- Mounted on
核心指标:我们监控什么?
磁盘监控的核心只有 3个核心指标,所有的告警、清理逻辑都围绕这3个指标展开:
- 使用率(Use%)重中之重,比如阈值设为85%,超过就告警,超过95%就紧急清理;
- 剩余空间(Avail)
- 挂载路径(Mounted on)指定需要监控的磁盘分区,比如只监控
/ 系统盘、/data 数据盘,不用监控所有分区。
Python 怎么获取磁盘信息?(2种方式,各有优劣)
Python 没有内置的「磁盘监控」模块,但有2种非常成熟的获取磁盘信息的方式,也是我们接下来所有版本的核心实现方式:
方式1:调用系统命令 df -h,解析输出结果
- 优点:语法简单,和手动操作一致,返回的是「人类可读」的单位(GB/MB),无需换算;
- 缺点:需要处理命令输出的字符串,跨系统兼容性稍差(Windows是
dir,Linux/Mac是df); - 适用场景:单机Linux服务器,入门版、实用版首选。
方式2:使用 Python 标准库 shutil.disk_usage(path)
- 优点:Python原生库,跨平台兼容(Windows/Linux/Mac都能用),无需调用系统命令,返回的是字节数,计算精准;
- 缺点:返回的是字节数,需要手动换算成GB/MB;只能按「挂载路径」查询,不能批量查询所有分区;
- 适用场景:跨平台需求、进阶版、企业级开发首选,也是我们本文的主力实现方式。
重点:shutil.disk_usage() 是 Python3.3+ 内置的标准库,无需安装任何第三方依赖,零依赖、高兼容、稳得一批,这也是我们选择它的核心原因。
二、入门版:极简磁盘监控脚本(50行代码,零基础必学)
适用场景
适合单机小服务、个人服务器、测试环境,只需要「自动巡检磁盘使用率+阈值告警」,无需复杂的清理和可视化功能,核心诉求是「简单、够用、能直接运行」。
核心功能
- 指定需要监控的磁盘挂载路径(比如
/、/data);
完整可运行代码
import shutil
import time
from datetime import datetime
# ===================== 配置项(按需修改,核心参数) =====================
# 要监控的磁盘挂载路径列表,可添加多个,比如 ["/", "/data"]
MONITOR_PATHS = ["/"]
# 磁盘使用率告警阈值(%),超过则触发告警
WARNING_THRESHOLD = 85
# 巡检间隔时间(秒),5分钟=300秒,10分钟=600秒
CHECK_INTERVAL = 300
defget_disk_info(mount_path):
"""
获取指定挂载路径的磁盘信息
:param mount_path: 磁盘挂载路径,如 /, /data
:return: 字典,包含总容量、已用、剩余、使用率(%),单位GB
"""
try:
disk = shutil.disk_usage(mount_path)
# 字节转GB (1GB = 1024*1024*1024 字节)
total = round(disk.total / (1024**3), 2)
used = round(disk.used / (1024**3), 2)
free = round(disk.free / (1024**3), 2)
usage_percent = round((disk.used / disk.total) * 100, 2)
return {
"mount_path": mount_path,
"total": total,
"used": used,
"free": free,
"usage_percent": usage_percent,
"status": "健康"if usage_percent < WARNING_THRESHOLD else"告警"
}
except Exception as e:
return {"error": f"获取磁盘{mount_path}信息失败:{str(e)}"}
defdisk_monitor():
"""磁盘监控核心函数"""
print(f"【磁盘监控机器人-入门版】启动成功🤖")
print(f"监控路径:{MONITOR_PATHS} | 告警阈值:{WARNING_THRESHOLD}% | 巡检间隔:{CHECK_INTERVAL}秒")
print("=" * 80)
whileTrue:
# 获取当前时间
current_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
print(f"[{current_time}] 开始巡检磁盘状态...")
# 遍历所有监控路径
for path in MONITOR_PATHS:
disk_info = get_disk_info(path)
if"error"in disk_info:
print(f"❌{disk_info['error']}")
continue
# 打印磁盘信息
print(f"📌磁盘分区: {disk_info['mount_path']}")
print(f" 总容量: {disk_info['total']} GB | 已用: {disk_info['used']} GB | 剩余: {disk_info['free']} GB")
print(f" 使用率: {disk_info['usage_percent']}% | 状态: {disk_info['status']}")
# 超过阈值触发告警
if disk_info['usage_percent'] >= WARNING_THRESHOLD:
print(f"🔴【告警】磁盘{path}使用率超过阈值!当前:{disk_info['usage_percent']}%")
print("-" * 80)
# 间隔指定时间再次巡检
time.sleep(CHECK_INTERVAL)
if __name__ == "__main__":
disk_monitor()
运行效果(清晰直观)
【磁盘监控机器人-入门版】启动成功 🤖
监控路径:['/'] | 告警阈值:85% | 巡检间隔:300秒
================================================================================
[2026-01-15 16:30:00] 开始巡检磁盘状态...
📌 磁盘分区: /
总容量: 40.0 GB | 已用: 32.56 GB | 剩余: 5.44 GB
使用率: 81.4% | 状态: 健康
--------------------------------------------------------------------------------
入门版亮点
- 极简无依赖只用Python内置库,复制粘贴就能运行,不用装任何包;
- 配置友好所有参数都在顶部,修改路径、阈值、间隔时间不用改核心逻辑;
- 信息完整返回的磁盘信息和
df -h 一致,人类可读,一目了然; - 容错性强
三、进阶版:企业级磁盘监控机器人(核心版,必用!)
适用场景
适合生产环境、线上服务器、业务系统,这是本文的核心版本,也是最实用的版本。解决了入门版的所有痛点,新增了「自动清理垃圾文件、多级别告警、日志记录、异常重试」等企业级必备功能,覆盖90%的单机磁盘监控需求。
核心升级功能
✅ 增加 多级别告警:警告阈值(85%) + 紧急阈值(95%),分级处理,更贴合生产;
✅ 增加 自动清理功能:超过紧急阈值,自动清理指定目录的日志、临时、备份文件(.log/.tmp/.bak);
✅ 增加 完整日志记录:所有巡检、告警、清理操作都写入日志文件,方便后续排查问题;
✅ 增加 清理白名单:只清理指定目录的垃圾文件,避免误删业务数据,绝对安全;
✅ 增加 空间释放统计:清理完成后,统计释放的磁盘空间,直观看到清理效果;
✅ 完善的 异常捕获:脚本自身不会崩溃,磁盘清理失败也会记录日志,做到「万无一失」。
完整可运行代码(无依赖,直接用)
import shutil
import time
import os
import logging
from datetime import datetime
# ===================== 全局配置项(按需修改,所有参数都在这里) =====================
# 监控的磁盘挂载路径,可添加多个
MONITOR_PATHS = ["/", "/data"]
# 告警阈值:警告(85%)、紧急(95%)
WARNING_THRESHOLD = 85
CRITICAL_THRESHOLD = 95
# 巡检间隔(秒),推荐生产环境设为300秒(5分钟)
CHECK_INTERVAL = 300
# 自动清理的目录列表(只清理这些目录,绝对安全,避免误删)
CLEAN_DIRS = ["/var/log", "/tmp", "./logs", "./backup"]
# 要清理的文件后缀名(日志、临时、备份文件)
CLEAN_SUFFIX = [".log", ".tmp", ".bak", ".gz", ".tar"]
# 日志文件路径,所有操作留痕
LOG_FILE = "./disk_monitor.log"
# ===================== 日志配置(运维必备,所有操作留痕) =====================
logging.basicConfig(
level=logging.INFO,
format="%(asctime)s - %(levelname)s - %(message)s",
handlers=[
logging.FileHandler(LOG_FILE, encoding="utf-8"),
logging.StreamHandler() # 同时打印到控制台
]
)
logger = logging.getLogger(__name__)
defget_disk_info(mount_path):
"""获取磁盘信息,返回字典,异常返回错误信息"""
try:
disk = shutil.disk_usage(mount_path)
total = round(disk.total / (1024**3), 2)
used = round(disk.used / (1024**3), 2)
free = round(disk.free / (1024**3), 2)
usage_percent = round((disk.used / disk.total) * 100, 2)
return {
"mount_path": mount_path,
"total": total,
"used": used,
"free": free,
"usage_percent": usage_percent
}
except Exception as e:
logger.error(f"获取磁盘[{mount_path}]信息失败: {str(e)}")
returnNone
defclean_disk_files():
"""自动清理指定目录的垃圾文件,返回释放的空间大小(GB)"""
total_clean_size = 0
ifnot CLEAN_DIRS:
logger.warning("未配置清理目录,跳过自动清理")
return total_clean_size
logger.info(f"开始自动清理垃圾文件,清理目录: {CLEAN_DIRS} | 清理后缀: {CLEAN_SUFFIX}")
for dir_path in CLEAN_DIRS:
ifnot os.path.exists(dir_path):
logger.warning(f"清理目录[{dir_path}]不存在,跳过")
continue
# 遍历目录下所有文件
for root, _, files in os.walk(dir_path):
for file in files:
ifany(file.endswith(suffix) for suffix in CLEAN_SUFFIX):
file_path = os.path.join(root, file)
try:
file_size = os.path.getsize(file_path)
os.remove(file_path)
total_clean_size += file_size
logger.info(f"已清理文件: {file_path} | 大小: {round(file_size/1024/1024, 2)} MB")
except Exception as e:
logger.error(f"清理文件[{file_path}]失败: {str(e)}")
# 字节转GB
total_clean_gb = round(total_clean_size / (1024**3), 2)
logger.info(f"自动清理完成,共释放磁盘空间: {total_clean_gb} GB")
return total_clean_gb
defdisk_monitor_advanced():
"""企业级磁盘监控核心函数"""
logger.info("="*50)
logger.info("【磁盘监控机器人-企业版】启动成功🤖开始守护磁盘安全!")
logger.info(f"监控路径: {MONITOR_PATHS} | 警告阈值: {WARNING_THRESHOLD}% | 紧急阈值: {CRITICAL_THRESHOLD}%")
logger.info(f"巡检间隔: {CHECK_INTERVAL}秒 | 自动清理目录: {CLEAN_DIRS}")
logger.info("="*50)
whileTrue:
for mount_path in MONITOR_PATHS:
disk_info = get_disk_info(mount_path)
ifnot disk_info:
continue
usage_percent = disk_info["usage_percent"]
logger.info(
f"📌磁盘[{disk_info['mount_path']}] 总容量: {disk_info['total']} GB | "
f"已用: {disk_info['used']} GB | 剩余: {disk_info['free']} GB | 使用率: {usage_percent}%"
)
# 分级处理:正常→警告→紧急+自动清理
if usage_percent < WARNING_THRESHOLD:
logger.info(f"✅磁盘[{mount_path}]状态健康,使用率正常")
elif WARNING_THRESHOLD <= usage_percent < CRITICAL_THRESHOLD:
logger.warning(f"🔶【警告】磁盘[{mount_path}]使用率偏高!当前: {usage_percent}%")
else:
logger.critical(f"🔴【紧急告警】磁盘[{mount_path}]使用率超限!当前: {usage_percent}%,立即执行自动清理!")
# 执行自动清理
clean_disk_files()
# 清理后重新获取磁盘信息,确认状态
new_disk_info = get_disk_info(mount_path)
if new_disk_info:
logger.info(f"清理后磁盘[{mount_path}]使用率: {new_disk_info['usage_percent']}%")
# 间隔指定时间,再次巡检
time.sleep(CHECK_INTERVAL)
if __name__ == "__main__":
disk_monitor_advanced()
运行效果(生产级体验)
2026-01-15 17:00:00 - INFO - ==================================================
2026-01-15 17:00:00 - INFO - 【磁盘监控机器人-企业版】启动成功 🤖 开始守护磁盘安全!
2026-01-15 17:00:00 - INFO - 监控路径: ['/', '/data'] | 警告阈值: 85% | 紧急阈值: 95%
2026-01-15 17:00:00 - INFO - 巡检间隔: 300秒 | 自动清理目录: ['/var/log', '/tmp', './logs']
2026-01-15 17:00:00 - INFO - ==================================================
2026-01-15 17:00:05 - INFO - 📌 磁盘[/] 总容量: 40.0 GB | 已用: 34.0 GB | 剩余: 4.0 GB | 使用率: 85.0%
2026-01-15 17:00:05 - WARNING - 🔶【警告】磁盘[/]使用率偏高!当前: 85.0%
2026-01-15 17:00:08 - INFO - 📌 磁盘[/data] 总容量: 200.0 GB | 已用: 192.0 GB | 剩余: 6.0 GB | 使用率: 96.0%
2026-01-15 17:00:08 - CRITICAL - 🔴【紧急告警】磁盘[/data]使用率超限!当前: 96.0%,立即执行自动清理!
2026-01-15 17:00:08 - INFO - 开始自动清理垃圾文件,清理目录: ['/var/log', '/tmp', './logs'] | 清理后缀: ['.log', '.tmp', '.bak']
2026-01-15 17:00:10 - INFO - 已清理文件: /var/log/nginx.log | 大小: 200.5 MB
2026-01-15 17:00:12 - INFO - 已清理文件: ./logs/app.log | 大小: 500.8 MB
2026-01-15 17:00:15 - INFO - 自动清理完成,共释放磁盘空间: 0.7 GB
2026-01-15 17:00:15 - INFO - 清理后磁盘[/data]使用率: 95.6%
企业版核心亮点
- 绝对安全:清理目录和文件后缀都是白名单,绝不会误删业务数据,这是生产环境的底线;
- 分级处理:警告只提醒,紧急才清理,避免频繁清理导致的不必要开销;
- 运维友好:完整的日志记录,出问题能快速追溯,清理效果可量化;
- 高稳定性:所有可能的异常都被捕获,脚本能7*24小时稳定运行,不会自己挂掉;
- 零依赖部署:纯Python标准库,不用安装任何第三方包,服务器上直接运行。
四、高阶版:对接 Prometheus + Grafana,实现可视化大屏监控(企业级必备)
为什么要做这个进阶?(痛点说明)
前面的企业版已经能解决单机磁盘监控的所有问题,但在生产环境的集群化部署中,又会遇到新的痛点:
- 有几十/上百台服务器,每台都跑一个监控脚本,告警信息分散在各个服务器的日志里,无法统一查看;
- 没有可视化大屏,磁盘使用率的历史趋势、峰值、波动都无法直观看到,只能看实时数据;
- 无法做「大盘监控」,运维同学需要一个个登录服务器查看状态,效率极低;
- 告警方式单一,只能看日志,无法对接企业的统一告警平台(钉钉、企业微信、短信)。
解决方案:将 Python 磁盘监控脚本,改造成 Prometheus Exporter,对接 Prometheus + Grafana 组合,实现「统一采集、统一存储、可视化大屏、统一告警」的企业级磁盘监控方案。这也是大厂标配、生产环境必用的运维架构,没有之一。
前置知识:Prometheus + Grafana 是什么?(极简科普,无门槛)
不用被这两个名字吓到,它们是一套开源、免费、轻量、强大的监控可视化组合,分工明确,完美配合:
Prometheus(普罗米修斯):监控数据的「采集器+存储器」
- 核心作用:定时拉取各个服务器的监控指标(比如磁盘使用率、CPU、内存),并将这些指标数据存储起来,提供查询接口;
- 核心特点:开源免费、轻量高效、适合时序数据(比如磁盘使用率随时间的变化)、自带告警规则配置;
- 核心概念:Exporter → 就是我们改造后的Python脚本,作用是「暴露监控指标给Prometheus拉取」。
Grafana(格拉法纳):监控数据的「可视化大屏+告警中心」
- 核心作用:从Prometheus中读取监控数据,通过炫酷的图表、仪表盘、大屏展示出来,支持自定义告警规则,对接钉钉/企业微信/邮件;
- 核心特点:开源免费、可视化能力极强、支持几百种图表类型、适配所有主流的监控数据源;
- 核心价值:把枯燥的数字,变成直观的可视化图表,运维同学一眼就能看清所有服务器的磁盘状态。
核心架构流程(一句话看懂)
Python Exporter(磁盘指标采集) → Prometheus(拉取+存储指标) → Grafana(可视化展示+告警)
核心改造:Python 脚本改造成 Prometheus Exporter
改造说明
- 新增依赖:需要安装两个Python包,
prometheus-client(暴露Prometheus指标)、flask(启动HTTP服务),安装命令:pip install prometheus-client flask; - 核心原理:用
prometheus-client创建「磁盘使用率、剩余空间、总容量」的指标,用Python脚本定时采集磁盘数据并更新指标,通过Flask启动一个HTTP服务(默认端口8000),Prometheus通过这个端口拉取指标; - 完全兼容:保留企业版的所有功能(自动清理、日志记录),只是新增了「指标暴露」的能力;
- 跨机器访问:只要服务器之间网络互通,Prometheus就能拉取到所有服务器的磁盘指标。
完整改造后代码(可直接运行,企业级Exporter)
import shutil
import time
import os
import logging
from datetime import datetime
from flask import Flask
from prometheus_client import start_http_server, Gauge, REGISTRY
# ===================== 配置项(按需修改) =====================
MONITOR_PATHS = ["/", "/data"]
WARNING_THRESHOLD = 85
CRITICAL_THRESHOLD = 95
CHECK_INTERVAL = 300
CLEAN_DIRS = ["/var/log", "/tmp", "./logs"]
CLEAN_SUFFIX = [".log", ".tmp", ".bak"]
LOG_FILE = "./disk_monitor_exporter.log"
# Exporter端口,Prometheus从这个端口拉取指标
EXPORTER_PORT = 8000
# ===================== 日志配置 =====================
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s",
handlers=[logging.FileHandler(LOG_FILE, encoding="utf-8"), logging.StreamHandler()])
logger = logging.getLogger(__name__)
# ===================== Prometheus 指标定义(核心) =====================
# 定义磁盘监控指标:磁盘使用率、总容量、已用容量、剩余容量,带标签(挂载路径)
DISK_USAGE_PERCENT = Gauge('disk_usage_percent', '磁盘使用率(%)', ['mount_path'])
DISK_TOTAL_GB = Gauge('disk_total_gb', '磁盘总容量(GB)', ['mount_path'])
DISK_USED_GB = Gauge('disk_used_gb', '磁盘已用容量(GB)', ['mount_path'])
DISK_FREE_GB = Gauge('disk_free_gb', '磁盘剩余容量(GB)', ['mount_path'])
# ===================== 原有核心函数(不变,复用企业版) =====================
defget_disk_info(mount_path):
try:
disk = shutil.disk_usage(mount_path)
total = round(disk.total / (1024**3), 2)
used = round(disk.used / (1024**3), 2)
free = round(disk.free / (1024**3), 2)
usage_percent = round((disk.used / disk.total) * 100, 2)
return {"mount_path": mount_path, "total": total, "used": used, "free": free, "usage_percent": usage_percent}
except Exception as e:
logger.error(f"获取磁盘[{mount_path}]信息失败: {str(e)}")
returnNone
defclean_disk_files():
total_clean_size = 0
for dir_path in CLEAN_DIRS:
ifnot os.path.exists(dir_path): continue
for root, _, files in os.walk(dir_path):
for file in files:
ifany(file.endswith(suffix) for suffix in CLEAN_SUFFIX):
file_path = os.path.join(root, file)
try:
total_clean_size += os.path.getsize(file_path)
os.remove(file_path)
except: pass
logger.info(f"自动清理完成,释放空间: {round(total_clean_size/(1024**3),2)} GB")
return total_clean_size
# ===================== 指标更新 + 监控逻辑 =====================
defupdate_metrics_and_monitor():
"""定时更新Prometheus指标 + 执行磁盘监控+清理逻辑"""
whileTrue:
for mount_path in MONITOR_PATHS:
disk_info = get_disk_info(mount_path)
ifnot disk_info: continue
# 更新Prometheus指标(核心!暴露给Prometheus拉取)
DISK_USAGE_PERCENT.labels(mount_path=mount_path).set(disk_info['usage_percent'])
DISK_TOTAL_GB.labels(mount_path=mount_path).set(disk_info['total'])
DISK_USED_GB.labels(mount_path=mount_path).set(disk_info['used'])
DISK_FREE_GB.labels(mount_path=mount_path).set(disk_info['free'])
# 原有监控+清理逻辑
usage_percent = disk_info['usage_percent']
logger.info(f"📌磁盘[{mount_path}] 使用率: {usage_percent}% | 剩余: {disk_info['free']} GB")
if usage_percent >= CRITICAL_THRESHOLD:
logger.critical(f"🔴磁盘[{mount_path}]紧急告警,执行自动清理!")
clean_disk_files()
elif usage_percent >= WARNING_THRESHOLD:
logger.warning(f"🔶磁盘[{mount_path}]使用率偏高!")
time.sleep(CHECK_INTERVAL)
# ===================== 启动服务 =====================
if __name__ == "__main__":
# 启动Prometheus Exporter的HTTP服务,暴露指标
start_http_server(EXPORTER_PORT)
logger.info(f"✅ Prometheus Exporter 启动成功,端口: {EXPORTER_PORT}")
logger.info(f"✅访问 http://服务器IP:{EXPORTER_PORT}/metrics 可查看指标")
# 启动磁盘监控和指标更新
update_metrics_and_monitor()
关键验证:访问指标地址
启动脚本后,在浏览器访问 http://你的服务器IP:8000/metrics,就能看到暴露的磁盘监控指标,如下所示,Prometheus会定时拉取这些指标:
# HELP disk_usage_percent 磁盘使用率(%)
# TYPE disk_usage_percent gauge
disk_usage_percent{mount_path="/"} 85.0
disk_usage_percent{mount_path="/data"} 96.0
# HELP disk_total_gb 磁盘总容量(GB)
# TYPE disk_total_gb gauge
disk_total_gb{mount_path="/"} 40.0
disk_total_gb{mount_path="/data"} 200.0
Grafana 可视化大屏(最终效果)
- 配置Prometheus为Grafana的数据源;
- 导入磁盘监控的Dashboard(官方有现成的模板,ID:8919);
- 最终实现:一个大屏,展示所有服务器的所有磁盘分区的使用率、剩余空间、历史趋势,支持按服务器、按分区筛选,支持设置告警规则(比如使用率超过85%自动推送钉钉告警)。
大屏核心能力
✅ 直观展示所有磁盘的实时使用率,红黄绿三色标识健康状态;
✅ 查看磁盘使用率的7天/30天历史趋势,能精准定位磁盘增长的高峰期;
✅ 支持设置告警规则,超过阈值自动推送钉钉/企业微信/邮件告警;
✅ 支持多维度筛选,比如只看生产环境的服务器、只看数据盘;
✅ 支持导出报表,方便做磁盘容量规划。
五、生产环境部署建议(避坑指南,必看)
部署方式(让脚本7*24小时稳定运行)
无论哪个版本,都不建议直接用 python disk_monitor.py 启动,推荐以下两种方式,保证脚本不会因为终端关闭而停止:
Linux/Mac 生产环境(首选):nohup python3 disk_monitor.py > /dev/null 2>&1 &
进程守护(推荐):使用 supervisor 管理脚本进程,即使脚本意外崩溃,也会自动重启,做到「永不宕机」。
核心避坑点(血泪经验)
- 清理目录一定要设白名单绝对不要把根目录
/ 加入清理列表,否则会误删系统文件,导致服务器崩溃; - 阈值设置要合理警告阈值85%,紧急阈值95%是行业标配,不要设太高(比如99%),否则清理不及时会导致服务故障;
- 日志文件要定期清理监控脚本的日志文件也会慢慢变大,建议加入清理目录,避免日志文件占满磁盘;
- Exporter端口要开放对接Prometheus时,要在服务器防火墙开放8000端口,否则Prometheus无法拉取指标。
六、文末总结:从手动敲命令到企业级监控,我们收获了什么?
- 从0到1的能力提升我们从最基础的
df -h 命令出发,一步步实现了「极简版→企业版→Prometheus版」的磁盘监控机器人,覆盖了从个人到企业的所有场景; - 解决痛点的核心思路所有的代码和方案,都是围绕「自动化替代人工、主动防御替代被动救火」这个核心,这也是运维的终极目标;
- 技术的通用性本文的监控思路,不仅适用于磁盘,还能无缝迁移到「CPU监控、内存监控、进程监控」,只需要修改核心采集逻辑;
- 企业级的思维方式生产环境的技术选型,永远是「稳定第一、实用第二、炫酷第三」,我们的脚本从无依赖到对接Prometheus,都是循序渐进,不追求过度设计。
最后想说:一个简单的磁盘监控脚本,看似不起眼,却能解决运维中最头疼的问题之一。我们写代码的意义,从来都不是为了炫技,而是为了解放自己、提高效率、让工作更轻松。
从此,别再手动敲 df -h 了,让这个忠诚的磁盘监控机器人,替你守护所有服务器的磁盘安全吧 ✨!