揭秘网络数据包的秘密 - 从内存布局到生命周期
系列:Linux 网络子系统源码剖析篇号:第 2 篇 内核版本:Linux 5.10 LTS
📋 本篇导读
你将学到
sk_buff 的完整结构和内存布局
sk_buff 的生命周期管理
数据操作函数的实现原理
克隆、复制、分片等高级特性
性能优化技巧和最佳实践
前置知识
已阅读第 1 篇《网络子系统总览与初始化》
理解 C 语言指针和内存管理
了解引用计数机制
阅读时间
约 40-50 分钟
🎯 为什么 sk_buff 如此重要?
sk_buff 的核心地位
sk_buff 的设计目标
🔍 sk_buff 结构详解
完整结构定义
源码位置:include/linux/skbuff.h
/**
* struct sk_buff - socket buffer
* @next: 下一个 buffer
* @prev: 上一个 buffer
* @tstamp: 时间戳
* @rbnode: RB-tree 节点(用于 TCP 接收队列)
* @sk: 关联的 socket
* @dev: 关联的网络设备
* @_skb_refdst: 路由目的地引用
* @cb: 控制缓冲区(48 字节)
* @len: 数据长度
* @data_len: 分片数据长度
* @mac_len: MAC 头长度
* @hdr_len: 可写头长度
* @csum: 校验和
* @priority: 包优先级
* @cloned: 是否被克隆
* @ip_summed: 校验和状态
* @nohdr: 是否有头
* @pkt_type: 包类型
* @fclone: 快速克隆状态
* @ipvs_property: IPVS 属性
* @tc_skip_classify: 跳过 TC 分类
* @tc_at_ingress: TC 在入口
* @redirected: 是否被重定向
* @from_ingress: 来自入口
* @peeked: 是否被 peek
* @nf_trace: Netfilter 跟踪
* @protocol: 协议类型
* @destructor: 析构函数
* @_nfct: Netfilter 连接跟踪
* @nf_bridge: Netfilter 网桥
* @skb_iif: 输入接口索引
* @tc_index: TC 索引
* @hash: 哈希值
* @queue_mapping: 队列映射
* @pfmemalloc: 使用紧急内存池
* @active_extensions: 活动扩展
* @ndisc_nodetype: NDISC 节点类型
* @ooo_okay: 允许乱序
* @l4_hash: L4 哈希
* @sw_hash: 软件哈希
* @wifi_acked_valid: WiFi ACK 有效
* @wifi_acked: WiFi 已 ACK
* @no_fcs: 无 FCS
* @encapsulation: 封装
* @encap_hdr_csum: 封装头校验和
* @csum_valid: 校验和有效
* @csum_complete_sw: 软件完成校验和
* @csum_level: 校验和级别
* @inner_protocol_type: 内部协议类型
* @remcsum_offload: 远程校验和卸载
* @offload_fwd_mark: 卸载转发标记
* @offload_l3_fwd_mark: L3 卸载转发标记
* @inner_protocol: 内部协议
* @inner_transport_header: 内部传输层头
* @inner_network_header: 内部网络层头
* @inner_mac_header: 内部 MAC 头
* @transport_header: 传输层头
* @network_header: 网络层头
* @mac_header: MAC 头
* @tail: 数据尾部
* @end: 缓冲区结束
* @head: 缓冲区头部
* @data: 数据起始
* @truesize: 真实大小
* @users: 引用计数
*/
内存布局详解
关键指针详解
/*
* head: 缓冲区的起始地址(固定不变)
* data: 当前数据的起始地址(可变)
* tail: 当前数据的结束地址(可变)
* end: 缓冲区的结束地址(固定不变)
*/
// 示例:数据包在协议栈中的变化
skb_shared_info - 共享信息
/**
* struct skb_shared_info - 共享信息结构
*
* 这个结构位于数据缓冲区的末尾(end 指针位置)
* 包含分片、GSO、引用计数等信息
*/
skb_shared_info 位置:
🔄 sk_buff 生命周期
1. 分配(Allocation)
alloc_skb() - 标准分配
/**
* alloc_skb - 分配一个 sk_buff
* @size: 数据缓冲区大小
* @gfp_mask: 分配标志(GFP_KERNEL/GFP_ATOMIC)
*
* 返回: 新分配的 sk_buff,失败返回 NULL
*/
__alloc_skb() - 底层分配函数
/**
* __alloc_skb - 底层分配函数
* @size: 数据大小
* @gfp_mask: 分配标志
* @flags: SKB 标志
* @node: NUMA 节点
*
* 这是最底层的分配函数,alloc_skb() 是它的封装
*/
分配流程图
2. 释放(Free)
kfree_skb() - 释放 sk_buff
释放流程图
3. 克隆(Clone)vs 复制(Copy)
克隆和复制的区别
skb_clone() - 克隆实现
/**
* skb_clone - 克隆一个 sk_buff
* @skb: 要克隆的 sk_buff
* @gfp_mask: 分配标志
*
* 返回: 新的 sk_buff,共享原始数据
*/
skb_copy() - 复制实现
🛠️ 数据操作函数
1. skb_put() - 在尾部添加数据
/**
* skb_put - 在 sk_buff 尾部添加数据
* @skb: sk_buff
* @len: 要添加的长度
*
* 返回: 新数据的起始地址
*
* 使用场景:接收数据时,在尾部添加新接收的数据
*/
skb_put() 示例:
2. skb_push() - 在头部添加数据
/**
* skb_push - 在 sk_buff 头部添加数据
* @skb: sk_buff
* @len: 要添加的长度
*
* 返回: 新数据的起始地址
*
* 使用场景:发送数据时,在头部添加协议头
*/
void* skb_push(struct sk_buff *skb, unsigned int len)
{/* ========== 更新指针和长度 ========== */
skb->data-=len;
skb->len+=len;
/* ========== 检查是否越界 ========== */
if (unlikely(skb->data<skb->head))
skb_under_panic(skb, len, __builtin_return_address(0));
return skb->data;
}
skb_push() 示例:
3. skb_pull() - 移除头部数据
/**
* skb_pull - 移除 sk_buff 头部数据
* @skb: sk_buff
* @len: 要移除的长度
*
* 返回: 新的数据起始地址
*
* 使用场景:接收数据时,移除已处理的协议头
*/
void* skb_pull(struct sk_buff *skb, unsigned int len)
{/* ========== 检查长度 ========== */
if (len>skb->len)
returnNULL;
/* ========== 更新指针和长度 ========== */
skb->len-=len;
skb->data+=len;
return skb->data;
}
/**
* __skb_pull - 不检查长度的版本
* @skb: sk_buff
* @len: 要移除的长度
*
* 返回: 新的数据起始地址
*
* 注意:调用者必须确保 len <= skb->len
*/
static inline void* __skb_pull(struct sk_buff *skb, unsigned int len)
{skb->len-=len;
BUG_ON(skb->len<skb->data_len);
return skb->data+=len;
}
skb_pull() 示例:
4. skb_reserve() - 预留空间
/**
* skb_reserve - 预留 headroom 空间
* @skb: sk_buff
* @len: 要预留的长度
*
* 使用场景:分配 sk_buff 后,为协议头预留空间
*/
static inline void skb_reserve(struct sk_buff *skb, int len)
{skb->data+=len;
skb->tail+=len;
}
skb_reserve() 示例:
数据操作函数总结
🔧 高级特性
1. 分片(Fragmentation)
当数据包大于 MTU 时,需要进行分片。sk_buff 支持两种分片方式:
线性分片 vs 非线性分片
skb_is_nonlinear() - 检查是否非线性
/**
* skb_is_nonlinear - 检查 sk_buff 是否包含分片
* @skb: sk_buff
*
* 返回: true 如果包含分片
*/
static inline int skb_is_nonlinear(const struct sk_buff *skb)
{return skb->data_len!=0;
}
2. 线性化(Linearization)
有时需要将非线性的 sk_buff 转换为线性的:
/**
* skb_linearize - 将 sk_buff 线性化
* @skb: sk_buff
*
* 返回: 0 成功,负数失败
*
* 将所有分片数据拷贝到线性缓冲区
*/
3. 引用计数详解
sk_buff 有两个引用计数:
/*
* 1. skb->users: sk_buff 结构的引用计数
* 当多个地方持有 sk_buff 指针时使用
*/
refcount_tusers;
/*
* 2. skb_shinfo(skb)->dataref: 数据缓冲区的引用计数
* 当多个 sk_buff 共享数据时使用(克隆)
*/
atomic_tdataref;
引用计数操作:
📊 性能优化技巧
1. 内存池优化
2. 快速克隆(Fast Clone)
/*
* 快速克隆机制:
* 在分配时预先分配两个 sk_buff
* 克隆时直接使用第二个,无需再分配
*/
struct sk_buff_fclones {structsk_buffskb1; /* 原始 sk_buff */
structsk_buffskb2; /* 克隆 sk_buff */
refcount_tfclone_ref; /* 快速克隆引用计数 */
};
3. 零拷贝技术
/*
* 使用分片实现零拷贝
* 数据直接从用户空间页面映射,无需拷贝
*/
/**
* skb_fill_page_desc - 添加页面分片
* @skb: sk_buff
* @i: 分片索引
* @page: 页面指针
* @off: 页面内偏移
* @size: 分片大小
*/
4. 批量处理
🎓 实战案例
案例 1:构造一个完整的 TCP 数据包
案例 2:解析接收到的数据包
案例 3:sk_buff 性能测试
📚 总结
核心要点回顾
sk_buff 结构
核心指针:head, data, tail, end
两个引用计数:users(结构)和 dataref(数据)
skb_shared_info 位于缓冲区末尾
生命周期
克隆 vs 复制
克隆:共享数据,快速但不可修改
复制:独立数据,慢但可修改
快速克隆优化性能
数据操作
skb_put():尾部添加
skb_push():头部添加
skb_pull():头部移除
skb_reserve():预留空间
高级特性
分片:支持大数据包
线性化:转换为连续内存
零拷贝:使用页面分片
性能优化
常见问题 FAQ
Q1:什么时候使用 skb_clone(),什么时候使用 skb_copy()?A:如果只需要读取数据,使用 skb_clone();如果需要修改数据,使用 skb_copy()。
Q2:如何判断 sk_buff 是否可以修改?A:使用 skb_cloned() 检查,如果返回 true,需要先调用 pskb_expand_head() 或 skb_unclone()。
Q3:skb->len 和 skb->data_len 的区别?A:skb->len 是总长度,skb->data_len 是分片数据长度。线性数据长度 = skb->len - skb->data_len。
Q4:如何避免内存泄漏?A:确保每个 alloc_skb() 都有对应的 kfree_skb(),注意引用计数。
Q5:sk_buff 的最大大小是多少?A:理论上受限于内存,实际上受 MTU 限制(通常 1500 字节),大包会分片。
下篇预告
在下一篇《网络设备驱动框架》中,我们将深入探讨:
net_device 结构详解
驱动注册流程
NAPI 机制实现
数据收发接口
多队列支持
📖 参考资料
源码位置
include/linux/skbuff.h # sk_buff 定义
net/core/skbuff.c # sk_buff 实现
推荐阅读
Linux Kernel Networking - sk_buff
《Understanding Linux Network Internals》Chapter 2
《Linux Kernel Development》Chapter 17
作者:肇中系列:Linux 网络子系统源码剖析
sk_buff 是网络子系统的灵魂,掌握它就掌握了网络数据包处理的精髓。
上一篇:第 1 篇 - 网络子系统总览与初始化下一篇:第 3 篇 - 网络设备驱动框架(敬请期待)