在最近的板卡使用过程中,客户现场出现了一个问题,偶现板卡异常卡死,设备无法通过uart串口或者网络来进行通信登陆,长时间后会触发我们的看门狗保护进程,进而导致我们板卡设备异常重启。
在第一次出现时,由于我们研发并未看到实际产生的现象,只能通过现场同事描述的现象来判断,但属于老虎吃刺猬--无从下口。
就自己在我们研发中心搭建了一个环境,按照现场的场景来运行。
为了保证能看到出问题时的情况,采用开启top -d 1的命令来实现1秒1查询,与此同时,在采用 cat /proc/kmsg的方法来实时捕获内核态打印。
在连续拷机一个星期后,发现打印如下:
[58563.589554] BUG: workqueue lockup - pool cpus=3 node=0 flags=0x0 nice=0 stuck for 58373s!
[58594.301000] BUG: workqueue lockup - pool cpus=2 node=0 flags=0x0 nice=0 stuck for 58404s!
[58594.309204] BUG: workqueue lockup - pool cpus=2 node=0 flags=0x0 nice=-20 stuck for 57824s!
[58594.317566] BUG: workqueue lockup - pool cpus=3 node=0 flags=0x0 nice=0 stuck for 58404s!
[58625.045002] BUG: workqueue lockup - pool cpus=2 node=0 flags=0x0 nice=0 stuck for 58435s!
[58625.053199] BUG: workqueue lockup - pool cpus=2 node=0 flags=0x0 nice=-20 stuck for 57855s!
[58625.061554] BUG: workqueue lockup - pool cpus=3 node=0 flags=0x0 nice=0 stuck for 58435s!
[59301.033001] BUG: workqueue lockup - pool cpus=2 node=0 flags=0x0 nice=0 stuck for 59111s!
[59301.041200] BUG: workqueue lockup - pool cpus=2 node=0 flags=0x0 nice=-20 stuck for 58530s!
[59301.049563] BUG: workqueue lockup - pool cpus=3 node=0 flags=0x0 nice=0 stuck for 59111s!