当磁盘被打爆,却找不到罪魁祸首。深夜,监控系统突然报警。磁盘IOPS 爆表,磁盘利用率达到100%!还有业务响应超时等。
此时,你可能会紧急登录服务器并使用各种IO工具,去试图找出元凶,却:
1.能看到某个进程在触发IO操作,却不知道它具体在读写哪个文件
2.能看到磁盘在疯狂写入,却不知道这些IO来自哪个业务进程
3.能看到内核线程在刷脏页,却根本无法追踪到原始的业务进程
4.能看到IO吞吐量,却不知道这些IO的延迟情况,无法定位性能瓶颈
不能全景的分析 “是谁在写”、“写到哪里”、“为什么慢”。排查陷入僵局,业务继续受影响…