当前位置：首页>Linux>联合体+位域:一个统治 Linux 内核、Ceph 与 MySQL 的底层 ID 压缩范式

联合体+位域:一个统治 Linux 内核、Ceph 与 MySQL 的底层 ID 压缩范式

2026-06-29 15:41:20

开始

1. 系统设计：ID 设计方案把多段信息压缩进一个整数

Linux 内核、Ceph、LVM、GlusterFS、MySQL 全是这套逻辑

联合体 + 位域压缩 ID，是存储系统的标准设计

底层 API、网络、硬件、磁盘**只识别完整整数，不识别结构体，

结构体无法跨平台传输。

一个 ID 需要包含多段信息（池 ID + 卷 ID、设备 ID + 节点 ID）

疑问：为什么结构体不能跨平台传输？（4个底层原因）

C 语言的结构体没有统一的内存布局标准，换一个 CPU、换一个编译器，结构体在内存里的排列就全变了。

最大坑：内存对齐（填充空洞）

编译器会自动给结构体塞空白字节，让内存对齐，不同平台填充规则不一样：

typedef union {
	uint64_t row_id;
	struct {
		uint64_t space_id : 10; // 表空间ID
		uint64_t resv : 2; // 保留=0
		uint64_t offs : 52; // 行偏移ID
	} bits;
} innodb_row_id_t;

你在x86上把这个结构体发出去，ARM设备收到后，因为长度不一样，解析出来的池ID、卷ID全是错的。

位域顺序无标准

C 语言没有规定位域的排列顺序：

•

x86：从低位往高位排

•

某些ARM/服务器CPU：从高位往低位排（eVolId 跑到最高位）

你发的结构体，对方解析时保留位、池ID、卷ID全部错位，直接判定ID非法。

字节序（大小端）混乱

•

小端CPU（x86）：低字节存前面

•

大端CPU（网络/硬件）：高字节存前面

结构体里的多个字段，无法统一转换字节序；

而纯整数可以用 htonl 一行转换，全网通用。

4. 数据类型长度不统一

•

老平台：int 是 16位

•

新平台：int 是 32位

•

64位系统：指针长度变了

结构体字段长度一变，整个布局彻底崩溃。

疑问2：对比：为什么「纯整数」可以跨平台？

// 你代码里的这个整数，全世界都认！
uint32_t whole;

长度固定：32位整数 = 永远4字节，64位整数 = 永远8字节

布局固定：就是一串连续的二进制，没有填充、没有乱序

兼容所有平台：CPU、硬件、网络、存储设备，只认识纯数字

可统一转换：用 htonl / ntohl 就能适配所有字节序

联合体+位域
本质就是为了：用结构体方便赋值，用整数跨平台传输

这就是 Linux 内核、Ceph、所有存储系统 的通用设计铁律！

疑问3：底层系统（存储 / 内核 / 硬件）为什么不用 Protobuf 等通用序列化？

你可能听过 Protobuf、FlatBuffers 这些序列化框架，但它们绝对不会用在你的场景：

•

太重：框架代码几百 K，底层固件 / 驱动只有几 M 空间

•

太慢：序列化需要函数调用、内存拷贝，而你的方案只需要 1 次赋值

•

没必要：你的 ID 只是固定 32/64 位整数，通用序列化是大炮打蚊子

练习题：

•

大二你掌握了基本知识

请看一段代码

Linux 内核（所有底层 ID 的鼻祖）

•

网络驱动中的寄存器定义

代码链接https://github.com/torvalds/linux/blob/master/include/uapi/linux/tcp.h#L120-L140
/* Intel e1000 网卡控制寄存器定义 */
typedef union
{
   uint32_t raw; /* 完整32位寄存器值，直接读写硬件 */
	struct {
		uint32_t fd : 1; /* 全双工模式 */

		uint32_t speed : 2; /* 网卡速率设置 */

		uint32_t reserved1 : 5; /* 保留位，必须为0 */

		uint32_t duplex : 1; /* 双工模式 */

		uint32_t reserved2 : 23; /* 保留位，必须为0 */

	} fields;
} e1000_ctrl_reg_t;

•

内核存储驱动的 LUN ID、命名空间 ID 全部位压缩

// NVMe 命名空间ID（nvme.h）
typedef union
{
	uint32_t nsid;
	struct {
	uint32_t ctrl_id : 8;
	uint32_t reserved: 4;
	uint32_t ns_id : 20;
	} bits;
} nvme_ns_t;

数据库内核

// InnoDB 行ID设计（row0row.h）
typedef union {
	uint64_t row_id;
	struct {
		uint64_t space_id : 10; // 表空间ID
		uint64_t resv : 2; // 保留=0
		uint64_t offs : 52; // 行偏移ID
	} bits;
} innodb_row_id_t;

存储系统

/ Ceph的格式（64位，和你完全一个逻辑）
typedef union {
	uint64_t val; // 完整64位整数
	struct {
		uint64_t pool:6; // 池ID
		uint64_t prealloc:2; // 保留位
		uint64_t oid:56; // 对象ID
	} bits;
} ceph_object_id_t;

C 语言位域（Bit-field） 专用语法，也是嵌入式 / 硬件驱动开发的核心知识点
变量名 : 位数 → 指定这个成员只占用【指定个数的二进制位 (bit)】

•

: 1 = 占用 1 个 bit

•

: 2 = 占用 2 个 bit

•

: 23 = 占用 23 个 bit

核心优势：
彻底抛弃移位掩码，用变量名直接操作硬件，简单、易懂、零错误

// 定义（你之前的代码，内核标准写法）
typedef union {
uint32_t raw;
struct {
uint32_t fd : 1;
uint32_t speed : 2;
uint32_t reserved1 : 5;
uint32_t duplex : 1;
uint32_t reserved2 : 23;
} fields;
} e1000_ctrl_reg_t;
// 硬件寄存器指针
e1000_ctrl_reg_t *ctrl = (e1000_ctrl_reg_t *)REG_CTRL_ADDR;
// ============ 核心操作：零移位、零掩码！============
ctrl->raw = 0; // 清空所有位（保留位自动为0）
ctrl->fields.fd = 1; // 直接写：开启全双工
ctrl->fields.speed = 2; // 直接写：设置1G速率
ctrl->fields.duplex = 1; // 直接写：开启双工

按照从低位向高位的顺序分配

ctrl.fields.fd = 1;
ctrl.fields.speed = 2;
ctrl.fields.duplex = 1;

和你手算的移位代码：

uint32_t reg = (1<<0) | (2<<1) | (1<<8);

在编译后生成的机器码完全相同。

寄存器位    |31 ... 9 | 8      | 7 ... 3 | 2    1 | 0
字段名     |reserved2 | duplex |reserved1| speed  | fd
宽度       | 23 bits | 1 bit  | 5 bits  | 2 bits | 1 bit
设定值     | 全0      | 1      | 全0      | 1  0   | 1
二进制位值  | 0        | 1      | 00000    | 1  0   | 1

思考：为什么这样设计表示最大范围：等比数列公式

1. 先看一个具体的小例子，建立感觉

假设我们只有 2 位 无符号整数，那么所有可能的组合是：

二进制	十进制
00	0
01	1
10	2
11	3

最大值是 3，而 (2^2 = 4)，所以最大值 = 4 - 1 = 3。

再比如 3 位：

二进制	十进制
000	0
001	1
010	2
011	3
100	4
101	5
110	6
111	7

最大值是 7，而 (2^3 = 8)，所以最大值 = 8 - 1 = 7。

2. 规律抽象化

对于一个 N 位无符号二进制数：

•

最低位是 (20)，最高位是 (2{N-1})。

•

当所有位都是 1 时，总和为

•

这是一个等比数列求和：

和

或者换一种直观的方法：

•

(2^N) 对应的二进制是 1 后面跟着 N 个 0，例如 (2^3 = 1000_2)。

•

从这个数里减去 1，结果就是 N 个 1。

•

而 N 个 1 正是 N 位能表示的最大无符号数。

因此，N 位无符号整数的最大值永远是 (2^N - 1)。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

数据库内核

存储系统

1. 先看一个具体的小例子，建立感觉

2. 规律抽象化

联合体+位域:一个统治 Linux 内核、Ceph 与 MySQL 的底层 ID 压缩范式

一、为什么需要把多段信息压缩进一个整数？

二、核心工具：联合体 + 位域

三、为什么结构体不能跨平台传输？（四个底层原因）

四、为什么纯整数可以跨平台？

五、为什么底层系统不用 Protobuf 等通用序列化框架？

六、业界实例：Linux 内核 / 存储系统 / 数据库的通用做法

七、动手验证：从 C 代码到硬件寄存器值的完整推导

1. 系统设计：ID 设计方案把多段信息压缩进一个整数

疑问：为什么结构体不能跨平台传输？（4个底层原因）

4. 数据类型长度不统一

疑问2：对比：为什么「纯整数」可以跨平台？

疑问3：底层系统（存储 / 内核 / 硬件）为什么不用 Protobuf 等通用序列化？

练习题：

Linux 内核（所有底层 ID 的鼻祖）

最新文章

热门文章

随机文章

联合体+位域:一个统治 Linux 内核、Ceph 与 MySQL 的底层 ID 压缩范式

一、为什么需要把多段信息压缩进一个整数？

二、核心工具：联合体 + 位域

三、为什么结构体不能跨平台传输？（四个底层原因）

四、为什么纯整数可以跨平台？

五、为什么底层系统不用 Protobuf 等通用序列化框架？

六、业界实例：Linux 内核 / 存储系统 / 数据库的通用做法

七、动手验证：从 C 代码到硬件寄存器值的完整推导

1. 系统设计：ID 设计方案 把多段信息压缩进一个整数

疑问： 为什么结构体不能跨平台传输？（4个底层原因）

4. 数据类型长度不统一

疑问2： 对比：为什么「纯整数」可以跨平台？

疑问3：底层系统（存储 / 内核 / 硬件）为什么不用 Protobuf 等通用序列化？

练习题：

Linux 内核（所有底层 ID 的鼻祖）

数据库内核

存储系统

1. 先看一个具体的小例子，建立感觉

2. 规律抽象化

杂谈:如何让学生喜欢上python?

【python3.8.2】python3.8.2setup安装包及python激活方式

最新文章

热门文章

随机文章

1. 系统设计：ID 设计方案把多段信息压缩进一个整数

疑问：为什么结构体不能跨平台传输？（4个底层原因）

疑问2：对比：为什么「纯整数」可以跨平台？