变量名 : 位数 的含义whole 与 part 共享同一块内存int 在不同平台宽度不同htonl/ntohl 统一解决字节序问题开始
Linux 内核、Ceph、LVM、GlusterFS、MySQL 全是这套逻辑
联合体 + 位域 压缩 ID,是存储系统的标准设计
C 语言的结构体没有统一的内存布局标准,换一个 CPU、换一个编译器,结构体在内存里的排列就全变了。
编译器会自动给结构体塞空白字节,让内存对齐,不同平台填充规则不一样:
typedef union {
uint64_t row_id;
struct {
uint64_t space_id : 10; // 表空间ID
uint64_t resv : 2; // 保留=0
uint64_t offs : 52; // 行偏移ID
} bits;
} innodb_row_id_t;
你在x86上把这个结构体发出去,ARM设备收到后,因为长度不一样,解析出来的池ID、卷ID全是错的。
C 语言没有规定位域的排列顺序:
x86:从低位往高位排
某些ARM/服务器CPU:从高位往低位排(eVolId 跑到最高位)
你发的结构体,对方解析时保留位、池ID、卷ID全部错位,直接判定ID非法。
小端CPU(x86):低字节存前面
大端CPU(网络/硬件):高字节存前面
结构体里的多个字段,无法统一转换字节序;
而纯整数可以用 htonl 一行转换,全网通用。
老平台:int 是 16位
新平台:int 是 32位
64位系统:指针长度变了
结构体字段长度一变,整个布局彻底崩溃。
// 你代码里的这个整数,全世界都认!
uint32_t whole;
长度固定:32位整数 = 永远4字节,64位整数 = 永远8字节
布局固定:就是一串连续的二进制,没有填充、没有乱序
兼容所有平台:CPU、硬件、网络、存储设备,只认识纯数字
可统一转换:用 htonl / ntohl 就能适配所有字节序
联合体+位域
本质就是为了:用结构体方便赋值,用整数跨平台传输
这就是 Linux 内核、Ceph、所有存储系统 的通用设计铁律!
你可能听过 Protobuf、FlatBuffers 这些序列化框架,但它们绝对不会用在你的场景:
太重:框架代码几百 K,底层固件 / 驱动只有几 M 空间
太慢:序列化需要函数调用、内存拷贝,而你的方案只需要 1 次赋值
没必要:你的 ID 只是固定 32/64 位整数,通用序列化是大炮打蚊子
请看一段代码
代码链接https://github.com/torvalds/linux/blob/master/include/uapi/linux/tcp.h#L120-L140
/* Intel e1000 网卡控制寄存器定义 */
typedef union
{
uint32_t raw; /* 完整32位寄存器值,直接读写硬件 */
struct {
uint32_t fd : 1; /* 全双工模式 */
uint32_t speed : 2; /* 网卡速率设置 */
uint32_t reserved1 : 5; /* 保留位,必须为0 */
uint32_t duplex : 1; /* 双工模式 */
uint32_t reserved2 : 23; /* 保留位,必须为0 */
} fields;
} e1000_ctrl_reg_t;
// NVMe 命名空间ID(nvme.h)
typedef union
{
uint32_t nsid;
struct {
uint32_t ctrl_id : 8;
uint32_t reserved: 4;
uint32_t ns_id : 20;
} bits;
} nvme_ns_t;
// InnoDB 行ID设计(row0row.h)
typedef union {
uint64_t row_id;
struct {
uint64_t space_id : 10; // 表空间ID
uint64_t resv : 2; // 保留=0
uint64_t offs : 52; // 行偏移ID
} bits;
} innodb_row_id_t;
/ Ceph的格式(64位,和你完全一个逻辑)
typedef union {
uint64_t val; // 完整64位整数
struct {
uint64_t pool:6; // 池ID
uint64_t prealloc:2; // 保留位
uint64_t oid:56; // 对象ID
} bits;
} ceph_object_id_t;
C 语言位域(Bit-field) 专用语法,也是嵌入式 / 硬件驱动开发的核心知识点变量名 : 位数 → 指定这个成员只占用【指定个数的二进制位 (bit)】
: 1 = 占用 1 个 bit: 2 = 占用 2 个 bit: 23 = 占用 23 个 bit核心优势:
彻底抛弃移位掩码,用变量名直接操作硬件,简单、易懂、零错误
// 定义(你之前的代码,内核标准写法)
typedef union {
uint32_t raw;
struct {
uint32_t fd : 1;
uint32_t speed : 2;
uint32_t reserved1 : 5;
uint32_t duplex : 1;
uint32_t reserved2 : 23;
} fields;
} e1000_ctrl_reg_t;
// 硬件寄存器指针
e1000_ctrl_reg_t *ctrl = (e1000_ctrl_reg_t *)REG_CTRL_ADDR;
// ============ 核心操作:零移位、零掩码!============
ctrl->raw = 0; // 清空所有位(保留位自动为0)
ctrl->fields.fd = 1; // 直接写:开启全双工
ctrl->fields.speed = 2; // 直接写:设置1G速率
ctrl->fields.duplex = 1; // 直接写:开启双工
按照从低位向高位的顺序分配
ctrl.fields.fd = 1;
ctrl.fields.speed = 2;
ctrl.fields.duplex = 1;
和你手算的移位代码:
uint32_t reg = (1<<0) | (2<<1) | (1<<8);
在编译后生成的机器码完全相同。
寄存器位 |31 ... 9 | 8 | 7 ... 3 | 2 1 | 0
字段名 |reserved2 | duplex |reserved1| speed | fd
宽度 | 23 bits | 1 bit | 5 bits | 2 bits | 1 bit
设定值 | 全0 | 1 | 全0 | 1 0 | 1
二进制位值 | 0 | 1 | 00000 | 1 0 | 1
思考:为什么这样设计 表示最大范围: 等比数列 公式
假设我们只有 2 位 无符号整数,那么所有可能的组合是:
最大值是 3,而 (2^2 = 4),所以最大值 = 4 - 1 = 3。
再比如 3 位:
最大值是 7,而 (2^3 = 8),所以最大值 = 8 - 1 = 7。
对于一个 N 位无符号二进制数:
或者换一种直观的方法:
因此,N 位无符号整数的最大值永远是 (2^N - 1)。
