
大家好,我是情报小哥~
如果你也曾对着 candump 上刷屏的错误帧怀疑人生,因为一个 EMSGSIZE 把整个周末 debug 进去,或者在客户的产线上顶着 60 分贝噪音查 CAN 总线——恭喜你,你就是本文要拯救的对象。
我也曾经蹲在实验台前,左手拿着示波器探头,右手敲着 candump can0,试图让一块汽车网关和 Linux 主机正常对话。代码在虚拟 CAN 上跑得比德芙还丝滑,一切到真实 MCP2515 就疯狂报错。三天后才发现,内核配置忘记打开 SPI 中断合并… 那时我发了个誓:一定要把所有坑都趟一遍,然后写一篇文章,让后面的兄弟别再跳。
今天,我来还愿。
这篇文章不打算教你“CAN 2.0 协议有几种帧格式”,那玩意儿你应该在昨天搞懂。我们直接切进工程实践:从 SocketCAN 架构讲到 FD 帧收发,从过滤器调优到掉线重传状态机,所有代码都能在 ARM/ARM64 上编译运行。并且我会把这些年踩过的坑浓缩成精华。

Linux 的 CAN 子系统把 CAN 控制器抽象为普通的网络接口(比如 can0),并通过 SocketCAN 提供一套套接字的 API。这意味着你可以用 socket()、bind()、read()、write()、select() 等系统调用来操作 CAN 总线,就像处理 UDP 数据包一样。
内核负责完成 CAN 帧的拆包、ID 过滤、错误帧上报等硬件相关的底层脏活。协议族 PF_CAN 支持 SOCK_RAW、SOCK_DGRAM(广播管理器)等多种类型。对应用层来说,最核心的就是 CAN_RAW 套接字,它能收发原始的 CAN 帧数据。
没有这套工具,SocketCAN 编程跟裸泳没区别。
candump:抓取 CAN 帧,可加时间戳、过滤 ID。cansend:从命令行发送单帧。cangen:随机生成 CAN 帧用于压力测试。canplayer:回放 candump 记录的日志。canbusload:统计总线负载率。安装:sudo apt install can-utils(Debian系) 或从源码编译(https://github.com/linux-can/can-utils)。
真实硬件调试太麻烦?vcan 让你在没有物理 CAN 控制器的情况下跑完整代码逻辑。
# 加载 vcan 内核模块(通常已内置)sudo modprobe vcan# 创建虚拟 CAN 接口 vcan0sudo ip link add dev vcan0 type vcansudo ip link set vcan0 up# 验证ip link show vcan0candump vcan0 &cansend vcan0 123#DEADBEEF你会立刻在终端看到 vcan0 123 [4] DE AD BE EF。任何代码先在这上面跑通,再切真硬件,这是无数前辈换来的铁律。
int s = socket(PF_CAN, SOCK_RAW, CAN_RAW);if (s < 0) { perror("socket");return-1;}为什么是 PF_CAN?最新内核同时支持 PF_CAN(29 号协议族)和 AF_CAN 别名,推荐用 PF_CAN 明确宣示 CAN 子系统。
为什么 SOCK_RAW?SOCK_RAW 允许我们自己组装/解析 CAN 帧头部(ID、DLC 等),这是 CAN 应用的标准模式。CAN_BCM(广播管理器)才会用到 SOCK_DGRAM,用于周期性发送等特殊场景,我们后面再提。
第三个参数 CAN_RAW:代表原始协议,除此之外还有 CAN_BCM、CAN_ISOTP(ISO 15765-2 传输层)等。对于汽车诊断(UDS),你可能会用到 CAN_ISOTP,但先用 CAN_RAW 理解底层逻辑是必经之路。
我们需要把套接字绑定到具体的 CAN 接口(比如 can0),首先要拿到接口的索引号。
#include<net/if.h>unsignedint ifindex = if_nametoindex("can0");if (!ifindex) { perror("if_nametoindex");return-1;}和 ioctl 比哪个好?ioctl(fd, SIOCGIFINDEX, ...) 更通用,但需要一个临时套接字和复杂的 struct ifreq 填充。if_nametoindex 专门干这件事,代码量少 80%,不易出错。选它,别纠结。
structsockaddr_canaddr;memset(&addr, 0, sizeof(addr));addr.can_family = AF_CAN; // 必须是 AF_CANaddr.can_ifindex = ifindex; // 用上一步拿到的索引if (bind(s, (struct sockaddr *)&addr, sizeof(addr)) < 0) { perror("bind"); close(s);return-1;}bind() 之后,这个套接字就只能收发 can0 接口上的帧。如果你想同时监听多个 CAN 接口,每个接口必须创建独立的套接字(或者使用 SO_BINDTODEVICE 加辅助手段,但不推荐,管理混乱)。
------ 避坑提醒 ------
如果你需要发完就关闭套接字,
bind不是必须的;可以用sendto直接指定目标接口地址。但长连接通信最好绑定,否则接收时你永远不知道帧来自哪个接口(除非检查消息元数据)。
构造一个经典 CAN 2.0 帧:
structcan_frameframe;frame.can_id = 0x123; // 标准帧 11 位 IDframe.can_dlc = 4; // 数据长度 4 字节frame.data[0] = 0xDE;frame.data[1] = 0xAD;frame.data[2] = 0xBE;frame.data[3] = 0xEF;ssize_t nbytes = write(s, &frame, sizeof(frame));if (nbytes != sizeof(frame)) { perror("write");}三种发送方式的差别:
write(s, &frame, CAN_MTU):最简单,前提是你已经 bind() 了套接字。它直接发给绑定的接口。适合 99% 的场景。send(s, &frame, CAN_MTU, flags):比 write 多一个 flags 参数,可以设置 MSG_DONTWAIT 实现非阻塞发送,但很少需要。sendto(s, &frame, CAN_MTU, 0, (struct sockaddr*)&addr, sizeof(addr)):不需要预先 bind,每次指定目的接口。适合一次性发送或你要向不同接口发数据的特殊工具程序。注意:
write()返回的字节数nbytes应当等于CAN_MTU(经典 CAN 为 16 字节),如果不相等说明发送失败或部分写入,立即排查errno。
阻塞接收,尽量不要阻塞:
ssize_t n = read(s, &frame, sizeof(struct can_frame));除非你有独立线程专职阻塞读,否则会卡死你的主循环。
设置非阻塞:
int flags = fcntl(s, F_GETFL, 0);if (flags < 0) { perror("fcntl get"); }flags |= O_NONBLOCK;if (fcntl(s, F_SETFL, flags) < 0) { perror("fcntl set"); }之后 read() 无数据时返回 -1,errno 为 EAGAIN 或 EWOULDBLOCK,你的线程可以继续做别的事。
select/poll/epoll 多路复用实战(推荐):
下面是一个标准的 poll 接收循环,结构清晰,跨平台性好。
#include<poll.h>structpollfdpfd;pfd.fd = s;pfd.events = POLLIN;while (running) {int ret = poll(&pfd, 1, 1000); // 超时 1000msif (ret < 0) { perror("poll");break; }if (ret == 0) {// 超时,可以做一些心跳检测printf("can rx timeout\n");continue; }if (pfd.revents & POLLIN) {structcan_frameframe;ssize_t n = read(s, &frame, sizeof(frame));if (n == sizeof(frame)) {// 处理帧printf("Received ID 0x%X DLC %d\n", frame.can_id, frame.can_dlc); } elseif (n < 0 && errno != EAGAIN) { perror("read error"); } }}进阶:epoll 边缘触发。对于高负载 CAN 总线(比如 >5000 帧/秒),epoll 配合非阻塞 I/O 和 recvmmsg 可以大幅减少系统调用次数,后续性能优化章节会细讲。
如果不设过滤器,每一个在 can0 上出现的帧都会唤醒你的接收线程。想象一下车辆上有 60 个 ECU 每秒吼上千帧,你的应用只关心其中 3 个 ID,却全部被叫醒——CPU 负载徒增,可能引发调度抖动丢帧。
设置 CAN ID 过滤器(白名单):
structcan_filterrfilter[2];// 最多可以配 512 个规则(内核默认)// 规则1:只接收 ID 0x123 ~ 0x124rfilter[0].can_id = 0x123;rfilter[0].can_mask = CAN_SFF_MASK; // 先匹配标准帧,再精细掩码// 实际上我们常用完整掩码:掩码位=1 表示必须匹配rfilter[0].can_mask = 0x7FF; // 标准帧低11位全部参与匹配// 若要包含 0x124,可以设置范围性掩码,或再加一条规则// 规则2:接收扩展帧 ID 0x18F00100rfilter[1].can_id = 0x18F00100 | CAN_EFF_FLAG; // 必须设置 EFF 标志rfilter[1].can_mask = (CAN_EFF_MASK | CAN_EFF_FLAG | CAN_RTR_FLAG); // 掩码覆盖扩展位setsockopt(s, SOL_CAN_RAW, CAN_RAW_FILTER, &rfilter, sizeof(rfilter));关键要点:
can_id 字段需要带上帧格式标志:标准帧用 0(默认)或 CAN_SFF_MASK 区域,扩展帧必须或上 CAN_EFF_FLAG。can_mask 位为 1 的 bit 在 can_id 中必须一致;为 0 的 bit 忽略。标准帧只比较低 11 位,扩展帧比较 29 位。CAN FD 一帧能带 64 字节数据,速率可切换至 5 Mbps 甚至更高。SocketCAN 通过 CANFD_MTU(72 字节)和 canfd_frame 结构来支持。
第一步:创建套接字后立即开启 FD 模式。
int can_fd = 1;setsockopt(s, SOL_CAN_RAW, CAN_RAW_FD_FRAMES, &can_fd, sizeof(can_fd));第二步:用 canfd_frame 收发。
structcanfd_framefdframe;fdframe.can_id = 0x100 | CAN_EFF_FLAG; // 扩展帧fdframe.flags = CANFD_BRS | CANFD_ESI; // BRS 位速率切换,ESI 错误状态指示(可选)fdframe.len = 64; // 长度,最大 64memset(fdframe.data, 0xA5, 64);// 发送时注意长度是 canfd_frame 大小ssize_t n = write(s, &fdframe, sizeof(struct canfd_frame));if (n != sizeof(struct canfd_frame)) { perror("FD write");}接收时要区分帧类型:
if (n == CAN_MTU) {// 经典 CAN 帧structcan_frame *cf = (structcan_frame *)&buffer;} elseif (n == CANFD_MTU) { struct canfd_frame *fd = (struct canfd_frame *)&buffer;} else {// 不可能,除非驱动有 bug}常见大坑:忘记启用 CAN_RAW_FD_FRAMES,导致发送 FD 帧返回 EMSGSIZE(Message too long)。另一个坑:你的 CAN 控制器驱动可能没编译进内核,检查 ip -details link show can0 是否显示 CAN-FD。
当总线发生错误(位错误、填充错误、CRC 错误等),内核会把错误帧转发给开启错误报告的套接字。要接收错误帧:
int recv_err = 1;setsockopt(s, SOL_CAN_RAW, CAN_RAW_RECV_OWN_MSGS, &recv_err, sizeof(recv_err)); // 可选,接收自己发出的错误帧can_err_mask_t err_mask = CAN_ERR_MASK; // 接收所有错误类型setsockopt(s, SOL_CAN_RAW, CAN_RAW_ERR_FILTER, &err_mask, sizeof(err_mask));接收到的帧 can_id 会带有 CAN_ERR_FLAG (0x20000000U),具体的错误类型编码在 data 字段中(参考 include/uapi/linux/can/error.h)。
if (frame.can_id & CAN_ERR_FLAG) {if (frame.can_id & CAN_ERR_BUSERROR) {// 总线错误,data[0] 可能包含位位置等信息 }if (frame.data[1] & CAN_ERR_CRTL_TX_WARNING) {// 发送错误警告,控制器进入被动错误状态 }// 实际产品中应当计数并报警,达到阈值尝试重启控制器或告警}容错设计要点:
CAN_ERR_CRTL_TX_PASSIVE 或 CAN_ERR_BUSOFF,说明硬件连接、终端电阻或波特率配置有问题。CAN_ERR_RESTARTED 事件并做记录。CAN_ERR_FLAG。CAN_RAW_RECV_OWN_MSGS,默认开启(你能收到自己发的帧),如果你想关闭,设为 0。CAN_RAW_TX_TRIES(仅对某些驱动生效),设定发送重试次数。硬件可能不支持,设置前检查。CAN_RAW_ONE_SHOT,仅在 Support 的控制器上,帧只发一次不重试,用于时间敏感场合。CAN_RAW_JOIN_FILTERS 允许多个套接字共享硬件过滤槽。场景举例:诊断设备发送 UDS 请求后期望应答,自己发的请求可以屏蔽回环,以免干扰应答处理。
遇到问题先别改代码,先用这仨定位。
# 查看接口状态ip -details link show can0# 实时抓取所有帧(包括错误帧)candump -e any,0:0,#FFFFFFFF# 从另一个终端发送一帧cansend can0 123#AABBCCDD如果 cansend 报 write: No such device 或 Network is down,先 ip link set can0 up。如果报 permission denied,请往下看。
CAN 套接字操作需要 CAP_NET_ADMIN 权限。长期 sudo 是慢性自杀。正确的做法:
can 组(如果存在),或更改 udev 规则。创建 /etc/udev/rules.d/80-can.rules:
ACTION=="add", SUBSYSTEM=="net", KERNEL=="can*", RUN+="/usr/bin/ip link set %k up", MODE="0666"然后 sudo udevadm control --reload-rules && sudo udevadm trigger,重新插拔 CAN 设备即可让普通用户访问。
检查接收缓冲区 SO_RCVBUF 默认 128KB 左右,对于高速 CAN FD 总线(如 5Mbps 仲裁段 + 8Mbps 数据段),瞬间微突发可能打爆缓冲。
int rcvbuf_size = 1024 * 1024; // 1MBsetsockopt(s, SOL_SOCKET, SO_RCVBUF, &rcvbuf_size, sizeof(rcvbuf_size));设置后可通过 /proc/net/can/stats 查看各组丢帧统计。如果 rx_dropped 仍在增长,考虑使用 recvmmsg 减少系统调用开销。
EINVAL | ||
EMSGSIZE | CAN_RAW_FD_FRAMES | |
ENOBUFS | SO_SNDBUF 或降低发送速率 | |
ENETDOWN | ip link set canX up | |
EADDRNOTAVAIL | bind() 或使用 sendto() |
推荐定位法:所有发送失败后立即 perror("write to CAN"),日志若显示对应的英文描述,搜索内核源码树找根本原因。
dmesg | grep can 能看到控制器报出的警告,比如:
flexcan 2090000.can can0: Error FIFO overflow这一类告警说明收发中断不及时,软件跟不上硬件。需要调整中断优先级、CPU 亲和性或优化应用层接收效率。
recvmmsg 一次系统调用能从内核拉取多条 CAN 帧,大幅降低上下文切换。
#define VLEN 16structmmsghdrmsgs[VLEN];structioveciovecs[VLEN];structcan_frameframes[VLEN];int i;memset(msgs, 0, sizeof(msgs));for (i = 0; i < VLEN; i++) { iovecs[i].iov_base = &frames[i]; iovecs[i].iov_len = sizeof(struct can_frame); msgs[i].msg_hdr.msg_iov = &iovecs[i]; msgs[i].msg_hdr.msg_iovlen = 1;}int ret = recvmmsg(s, msgs, VLEN, MSG_DONTWAIT, NULL);if (ret > 0) {for (i = 0; i < ret; i++) {// 处理 frames[i] }}前面详细讲解过,注意加过滤器。如果业务只关心几个 ID,不要让近百个无关帧激活你的接收线程。
把 CAN 接收线程绑定到专有 CPU 核心(isolcpus)可防止调度抖动导致缓冲区溢出。
cpu_set_t cpuset;CPU_ZERO(&cpuset);CPU_SET(1, &cpuset); // 绑定到 CPU1pthread_setaffinity_np(thread, sizeof(cpuset), &cpuset);同时配合实时调度策略:
structsched_paramparam = { .sched_priority = 45 };pthread_setschedparam(thread, SCHED_FIFO, ¶m);注意:实时线程不能无限占用 CPU,必须在 poll/recvmmsg 里用超时或阻塞短暂释放。
SO_SNDBUF 适当增大,tx_queue_len 可通过 ip link set can0 txqueuelen 1000 调节。
如果使用 SocketCAN 的广播管理器 (CAN_BCM) 进行周期发送,可交给内核定时器触发,避免用户态定时器抖动。
持续获取嵌入式实战干货,关注、标星 公众号不错过每一篇技术解析~
推荐好文点击蓝色字体即可跳转
☞专辑|Linux应用程序编程大全 ☞ 专辑|学点网络知识 ☞ 专辑|手撕C语言 ☞ 专辑|手撕C++语言
☞ 专辑|经验分享 ☞ 专辑|从单片机到Linux ☞ 专辑|电能控制技术 ☞ 专辑|嵌入式必备数学知识 ☞ MCU进阶专辑
☞ 经验分享