大家好,我是王鸽,这篇文章主要是讲看门狗,涉及什么是看门狗,「看门狗核心原理→驱动开发模板→用户态使用→避坑注意点」四个维度讲解,以及核心注意事项。一、看门狗核心原理(先搞懂 “它是干嘛的”)
1. 看门狗的本质
看门狗(WDT, Watchdog Timer)是硬件 / 软件定时器,核心作用是:
- 驱动 / 系统定期向看门狗 “喂狗”(重置定时器);
- 若系统卡死 / 驱动崩溃,无法喂狗 → 定时器超时 → 触发系统复位 / 中断 / 报警;
- 最终目的:保证系统在异常时自动恢复,提升可靠性(工业 / 嵌入式场景必用)。
- 看门狗其实就是一个可以在一定时间内被复位的计数器,一般叫做看门狗计时器(看门狗定时器);如果在规定时间内没有复位看门狗计时器, 计数器溢出则会对 CPU产生一个复位信号使系统重启, 当然有些看门狗也可以产生中断信号。
2. 两类看门狗(Linux 中均支持)
3. Linux 看门狗子系统架构
Linux 内核提供统一的看门狗驱动框架,驱动只需实现底层硬件操作,上层通过标准接口(/dev/watchdog)使用,架构如下:
硬件看门狗 → 看门狗驱动(适配框架) → 内核看门狗子系统 → /dev/watchdog(用户态接口)二、Linux 看门狗驱动开发模板(可直接套用)
看 门 狗 驱 动 框 架 涉 及 到 drivers/watchdog/watchdog_dev.c 、drivers/watchdog/watchdog_core.c、drivers/watchdog/watchdog_pretimeout.c 这三个源文件。
watchdog_dev.c 源文件作为上层,注册字符设备操作函数集 file_operations 结构体变量,与应用程序进行对接;
watchdog_core.c 源文件作为看门狗驱动框架核心层,提供了注册、卸载等相关 API 函数;
而 watchdog_pretimeout.c 源文件主要涉及到看门狗定时、 预超时相关的处理。
struct watchdog_device {int id; struct cdev cdev;struct device *dev;struct device *parent;const struct watchdog_info *info;const struct watchdog_ops *ops;unsigned int bootstatus;unsigned int timeout;unsigned int min_timeout;unsigned int max_timeout;void *driver_data;struct mutex lock;unsigned long status;/* Bit numbers for status flags */#define WDOG_ACTIVE 0 /* Is the watchdog running/active */#define WDOG_DEV_OPEN 1 /* Opened via /dev/watchdog ? */#define WDOG_ALLOW_RELEASE 2 /* Did we receive the magic char ? */#define WDOG_NO_WAY_OUT 3 /* Is 'nowayout' feature set ? */#define WDOG_UNREGISTERED 4 /* Has the device been unregistered */};
主要是对着这两个结构体操作
看门狗信息 watchdog_info 结构体指针和看门狗硬件操作函数集 watchdog_ops 结构体指针
struct watchdog_info { __u32 options; /* Options the card/driver supports */ __u32 firmware_version; /* Firmware version of the card */ __u8 identity[32]; /* Identity of the board */};struct watchdog_ops {struct module *owner;/* mandatory operations */int (*start)(struct watchdog_device *);int (*stop)(struct watchdog_device *);/* optional operations */int (*ping)(struct watchdog_device *);unsigned int (*status)(struct watchdog_device *);int (*set_timeout)(struct watchdog_device *, unsigned int);unsigned int (*get_timeleft)(struct watchdog_device *);void (*ref)(struct watchdog_device *);void (*unref)(struct watchdog_device *);long (*ioctl)(struct watchdog_device *, unsigned int, unsigned long);};
设备树这块
watchdog0: watchdog@f8005000 { clocks = <&clkc 45>; compatible = "demo,wdt"; interrupt-parent = <&intc>; interrupts = <0 9 1>; reg = <0xf8005000 0x1000>; timeout-sec = <10>; };
watchdog0 节点便是 SWDT 所对应的设备节点, timeout-sec 属性表示 SWDT 看门狗的默认的超时时间,以秒为单位, timeout-sec 属性的值等于 10,也就是 10 秒钟; compatible 属性的值为"demo,wdt"。
以硬件看门狗为例,提供符合 Linux 内核框架的驱动模板(基于watchdog_device结构体):
#include<linux/module.h>#include<linux/watchdog.h>#include<linux/platform_device.h>#include<linux/io.h>// 看门狗硬件寄存器定义(示例:假设SOC的看门狗寄存器)#define WDT_CTRL_REG 0x00 // 控制寄存器#define WDT_COUNT_REG 0x04 // 计数寄存器#define WDT_FEED_REG 0x08 // 喂狗寄存器#define WDT_EN_BIT (1 << 0) // 使能位#define WDT_RST_BIT (1 << 1) // 复位使能位// 驱动私有数据struct wdt_dev_data { struct watchdog_device wdt; // 看门狗核心结构体 void __iomem *reg_base; // 寄存器虚拟地址 unsigned int timeout; // 超时时间(秒) spinlock_t lock; // 并发保护锁};// 1. 喂狗操作(核心:重置看门狗定时器)staticintwdt_feed(struct watchdog_device *wdd){ struct wdt_dev_data *dev_data = container_of(wdd, struct wdt_dev_data, wdt); unsigned long flags; // 自旋锁保护(中断上下文安全) spin_lock_irqsave(&dev_data->lock, flags); // 写喂狗寄存器(硬件特定操作,需按芯片手册修改) writel(0x12345678, dev_data->reg_base + WDT_FEED_REG); // 喂狗魔法值 spin_unlock_irqrestore(&dev_data->lock, flags); return 0;}// 2. 设置看门狗超时时间staticintwdt_set_timeout(struct watchdog_device *wdd, unsignedint timeout){ struct wdt_dev_data *dev_data = container_of(wdd, struct wdt_dev_data, wdt); unsigned long flags; // 检查超时时间范围(示例:1~60秒) if (timeout < 1 || timeout > 60) return -EINVAL; spin_lock_irqsave(&dev_data->lock, flags); // 写硬件寄存器设置超时(按芯片手册修改) writel(timeout, dev_data->reg_base + WDT_COUNT_REG); dev_data->timeout = timeout; wdd->timeout = timeout; // 更新框架的超时值 spin_unlock_irqrestore(&dev_data->lock, flags); return 0;}// 3. 启动/停止看门狗staticintwdt_start(struct watchdog_device *wdd){ struct wdt_dev_data *dev_data = container_of(wdd, struct wdt_dev_data, wdt); unsigned long flags; spin_lock_irqsave(&dev_data->lock, flags); // 使能看门狗 + 使能复位功能 writel(WDT_EN_BIT | WDT_RST_BIT, dev_data->reg_base + WDT_CTRL_REG); spin_unlock_irqrestore(&dev_data->lock, flags); // 首次喂狗,避免立即超时 wdt_feed(wdd); return 0;}staticintwdt_stop(struct watchdog_device *wdd){ struct wdt_dev_data *dev_data = container_of(wdd, struct wdt_dev_data, wdt); unsigned long flags; spin_lock_irqsave(&dev_data->lock, flags); // 关闭看门狗(部分硬件不支持运行中停止,需注意) writel(0, dev_data->reg_base + WDT_CTRL_REG); spin_unlock_irqrestore(&dev_data->lock, flags); return 0;}// 4. 看门狗操作集(绑定核心函数)static const struct watchdog_info wdt_info = { .options = WDIOF_SETTIMEOUT | WDIOF_KEEPALIVEPING | WDIOF_MAGICCLOSE, .identity = "demo-hardware-wdt", // 设备标识};static const struct watchdog_ops wdt_ops = { .owner = THIS_MODULE, .start = wdt_start, .stop = wdt_stop, .ping = wdt_feed, // 喂狗接口(对应WDIOC_KEEPALIVE) .set_timeout = wdt_set_timeout,};// 5. 设备probe函数(驱动初始化)staticintwdt_probe(struct platform_device *pdev){ struct wdt_dev_data *dev_data; struct resource *res; int ret; // 分配私有数据 dev_data = devm_kzalloc(&pdev->dev, sizeof(*dev_data), GFP_KERNEL); if (!dev_data) return -ENOMEM; // 初始化自旋锁 spin_lock_init(&dev_data->lock); // 映射硬件寄存器(从设备树/平台资源获取物理地址) res = platform_get_resource(pdev, IORESOURCE_MEM, 0); dev_data->reg_base = devm_ioremap_resource(&pdev->dev, res); if (IS_ERR(dev_data->reg_base)) return PTR_ERR(dev_data->reg_base); // 初始化看门狗核心结构体 dev_data->wdt.info = &wdt_info; dev_data->wdt.ops = &wdt_ops; dev_data->wdt.timeout = 10; // 默认超时10秒 dev_data->wdt.min_timeout = 1; dev_data->wdt.max_timeout = 60; watchdog_set_nowayout(&dev_data->wdt, 1); // 禁止关闭(可选,提升可靠性) // 注册看门狗设备到内核框架 ret = devm_watchdog_register_device(&pdev->dev, &dev_data->wdt); if (ret < 0) { dev_err(&pdev->dev, "watchdog register failed: %d\n", ret); return ret; } platform_set_drvdata(pdev, dev_data); dev_info(&pdev->dev, "hardware watchdog probe success (timeout: %d s)\n", dev_data->timeout); return 0;}// 6. 平台驱动结构体static const struct of_device_id wdt_of_match[] = { { .compatible = "demo,wdt" }, // 设备树匹配标识 { },};MODULE_DEVICE_TABLE(of, wdt_of_match);static struct platform_driver wdt_driver = { .probe = wdt_probe, .driver = { .name = "demo-wdt", .of_match_table = wdt_of_match, },};module_platform_driver(wdt_driver);MODULE_LICENSE("GPL");MODULE_DESCRIPTION("Linux硬件看门狗驱动模板");
其中
intdevm_watchdog_register_device(struct device *dev,struct watchdog_device *wdd)
函数参数和返回值含义如下:dev: 带 devm_前缀函数需要绑定一个 device 对象。wdd: struct watchdog_device 结构体对象指针。返回值: 0,成功;负值,失败。
三、用户态使用看门狗(标准接口)
驱动注册成功后,内核会创建/dev/watchdog设备节点,用户态通过文件操作使用:
1. 基础使用示例(C 代码)
#include<stdio.h>#include<fcntl.h>#include<unistd.h>#include<sys/ioctl.h>#include<linux/watchdog.h>intmain(){ int fd; int timeout = 10; char feed = 'V'; // 喂狗字符(部分驱动支持) // 1. 打开看门狗设备(一旦打开,需定期喂狗,否则超时复位) fd = open("/dev/watchdog", O_RDWR); if (fd < 0) { perror("open /dev/watchdog failed"); return -1; } // 2. 设置超时时间(可选) if (ioctl(fd, WDIOC_SETTIMEOUT, &timeout) < 0) { perror("set timeout failed"); close(fd); return -1; } printf("watchdog timeout set to %d s\n", timeout); // 3. 循环喂狗(模拟业务逻辑) while (1) { // 方式1:写任意数据喂狗 write(fd, &feed, 1); // 方式2:ioctl喂狗(推荐) // ioctl(fd, WDIOC_KEEPALIVE, NULL); printf("feed watchdog...\n"); sleep(5); // 喂狗间隔必须小于超时时间 } // 4. 关闭看门狗(仅当驱动支持WDIOF_MAGICCLOSE时有效) // write(fd, "V", 1); // 写魔法字符关闭(不同驱动魔法值可能不同) close(fd); return 0;}
2. 命令行快速测试
# 1. 打开看门狗(后台运行,避免终端卡死)exec 3>/dev/watchdog &# 2. 喂狗(写任意数据)echo "1" >&3# 3. 设置超时时间(需root)echo 10 > /sys/class/watchdog/watchdog0/timeout# 4. 查看看门狗状态cat /sys/class/watchdog/watchdog0/status
四、看门狗使用核心注意点(避坑关键)
1. 硬件层面注意点
- 喂狗间隔必须小于超时时间比如超时 10 秒,需每 5~8 秒喂一次(留冗余,避免系统延迟导致喂狗不及时);
- 硬件看门狗不可中断部分 SOC 的看门狗一旦使能,只能通过复位关闭(驱动的
stop函数无效); - 魔法关闭值
- 若需关闭看门狗,需写驱动约定的 “魔法字符”(如
0x00/V),直接close可能仍会触发复位; - 硬件复位范围确认看门狗触发的是 “整机复位” 还是 “仅 CPU 复位”(工业场景需整机复位)。
2. 驱动层面注意点
- 并发保护喂狗 / 设置超时等操作必须加锁(自旋锁 / 互斥体),避免多线程 / 中断同时操作寄存器;
- nowayout 设置
watchdog_set_nowayout(&wdt, 1) 禁止关闭看门狗(推荐工业场景开启,防止误关闭); - 超时范围检查驱动需限制最小 / 最大超时时间(比如 1~60 秒),避免设置无效值;
- 资源释放驱动卸载时,若硬件支持,需关闭看门狗,避免系统复位。
3. 用户态注意点
- 打开后必须喂狗
/dev/watchdog一旦打开,内核会启动看门狗,即使程序退出,若未正确关闭,仍会超时复位; - 避免单点依赖喂狗逻辑不能和业务逻辑强耦合(比如业务线程卡死,喂狗线程也卡死),建议单独线程喂狗;
- 调试阶段禁用复位开发时可先关闭硬件复位功能(仅触发中断 / 报警),避免频繁复位影响调试;
- 支持 WDIOF_MAGICCLOSE若驱动未设置该标志,
close设备后看门狗仍运行,需断电 / 复位才能停止。
4. 软件看门狗注意点
- 依赖内核运行软件看门狗由内核线程实现,若内核卡死,软件看门狗也失效(仅用于调试,不推荐生产环境);
- 内核配置需开启
CONFIG_SOFT_WATCHDOG编译选项,加载soft_wdt模块使用。
5. 场景化注意点
- 工业 / 车载场景优先用硬件看门狗,且开启
nowayout,喂狗线程设为高优先级; - 开发调试场景可先用软件看门狗,或硬件看门狗仅触发日志报警(不复位);
- 多进程使用避免多个进程同时打开
/dev/watchdog,建议封装为单例服务。
五、总结
- 核心原理看门狗通过 “定期喂狗→超时复位” 保证系统可靠性,Linux 提供统一框架适配硬件 / 软件看门狗;
- 驱动开发关键实现
start/stop/ping/set_timeout核心操作,绑定watchdog_device结构体; - 使用避坑
- 打开
/dev/watchdog后必须正确喂狗 / 关闭,避免误复位。