我记得以前学过,在Unix系统中是不存在线程概念的。
在操作系统教科书中,进程和线程的典型定义是:
进程:资源分配的最小单位
线程:CPU调度的最小单位
(PS:进程是资源分配的最小单位,线程是CPU调度的最小单位。这句话是考点,面试经常会问到)
Linux的设计哲学是简洁和统一,为此它做出了一个重大决定:
// Linux内核源码:include/linux/sched.h
structtask_struct {
// 进程/线程的核心数据结构
pid_t pid; // 线程ID (线程的唯一标识)
pid_t tgid; // 线程组ID (进程ID)
structmm_struct *mm;// 内存描述符 (共享时为同一指针)
structfiles_struct *files;// 文件描述符表
// 每个线程有自己的栈
void *stack;
// 调度相关
structlist_headtasks;// 任务链表
// ...
};
关键真相:在Linux内核中,**线程和进程使用完全相同的数据结构(task_struct)**,区别仅在于它们是否共享某些资源。
在2003年之前,Linux使用LinuxThreads线程库,它的实现方式是:
# LinuxThreads架构:每个线程都是独立的进程
进程A(PID=1000) -> 主线程(pid=1000)
-> 线程1(pid=1001) # 实际上是独立进程
-> 线程2(pid=1002) # 内核认为是独立进程
-> 线程3(pid=1003) # 但用户空间认为是线程
# 问题1:getpid()在不同线程中返回不同的值
# 问题2:信号处理混乱
# 问题3:线程数量受限(每个线程消耗一个进程ID)
LinuxThreads的致命缺陷:
// 每个线程都是clone()创建的独立进程
// 使用CLONE_VM | CLONE_FILES | CLONE_FS | CLONE_SIGHAND等标志共享资源
// 但内核仍然将其视为独立进程
从Linux 2.6开始,NPTL成为标准,它通过内核增强实现了真正的线程支持:
// NPTL的关键内核增强:
// 1. 引入线程组概念
// 2. 引入futex(快速用户态互斥锁)
// 3. 改进的clone()系统调用
// NPTL创建线程的典型调用
clone(CLONE_VM | // 共享地址空间
CLONE_FS | // 共享文件系统信息
CLONE_FILES | // 共享文件描述符
CLONE_SIGHAND | // 共享信号处理
CLONE_THREAD | // 属于同一线程组
CLONE_SYSVSEM | // 共享System V信号量
CLONE_SETTLS | // 设置线程局部存储
CLONE_PARENT_SETTID | // 将TID写入父进程内存
CLONE_CHILD_CLEARTID | // 子线程退出时清除TID
CLONE_DETACHED, // 分离状态
...);
// clone()系统调用的原型
longclone(unsignedlong flags, // 共享标志位
void *child_stack, // 子进程/线程栈
int *parent_tid, // 父进程的TID指针
int *child_tid, // 子进程的TID指针
unsignedlong tls); // 线程局部存储
共享标志位的含义:
用户空间调用pthread_create()
↓
调用clone()系统调用
↓
内核执行do_fork()(实际是_do_fork())
↓
【关键分支】根据flags决定资源共享程度
↓
创建新的task_struct结构
↓
设置共享指针(mm, files等)或复制资源
↓
将新任务加入调度队列
↓
返回用户空间,新线程开始执行
// 创建进程的传统方式:fork()
pid_tcreate_process(void){
pid_t pid = fork(); // 内部调用clone(0, ...)
// 默认不共享任何资源(除文件描述符表等少数)
return pid;
}
// 创建线程的方式:clone() with specific flags
intcreate_thread(void *(*start_routine)(void *), void *arg){
// 分配线程栈
void *stack = malloc(STACK_SIZE);
// 调用clone创建线程
return clone((int (*)(void *))start_routine,
stack + STACK_SIZE,
CLONE_VM | CLONE_FS | CLONE_FILES | CLONE_SIGHAND,
arg);
}
# 测试脚本:创建1000个进程/线程的时间开销
#!/bin/bash
# benchmark_create.sh
echo"=== 创建开销测试 ==="
# 测试进程创建
echo"测试进程创建 (fork) 1000次:"
time for i in {1..1000}; do
/bin/true & # 创建进程执行true命令
wait 2>/dev/null
done
# 测试线程创建
echo -e "\n测试线程创建 (pthread_create) 1000次:"
cat > thread_test.c << 'EOF'
#include <pthread.h>
#include <stdio.h>
#include <unistd.h>
void* thread_func(void* arg) {
return NULL;
}
int main() {
pthread_t threads[1000];
for (int i = 0; i < 1000; i++) {
pthread_create(&threads[i], NULL, thread_func, NULL);
}
for (int i = 0; i < 1000; i++) {
pthread_join(threads[i], NULL);
}
return 0;
}
EOF
gcc -pthread thread_test.c -o thread_test
time ./thread_test
典型结果对比:
进程创建:real 0m5.123s # 较慢,需要复制页表等
线程创建:real 0m0.045s # 很快,仅分配栈和task_struct
# 使用LMBench测量上下文切换开销
$ lmbench lat_ctx -s 0 2
# 进程上下文切换(不同进程)
Process ctxsw: 1.2345 microseconds
# 线程上下文切换(同一进程内)
Thread ctxsw: 0.4567 microseconds
# 解释:线程切换不需要切换页表(CR3寄存器),TLB不会失效
# 查看进程和线程的内存占用差异
$ cat /proc/[pid]/status | grep -E "Vm|Threads"
# 对于进程:
VmPeak: 1024000 kB # 虚拟内存峰值
VmSize: 512000 kB # 当前虚拟内存大小
Threads: 1 # 线程数
# 对于多线程程序(如Nginx):
VmPeak: 1024000 kB # 整个进程的虚拟内存
VmSize: 512000 kB
Threads: 8 # 8个工作线程,共享同一地址空间
# 关键结论:N个线程的内存消耗 ≈ 1个进程的内存消耗
# 而N个进程的内存消耗 ≈ N × 单个进程的内存消耗
// 多线程程序中的信号处理陷阱
#include<signal.h>
#include<pthread.h>
#include<stdio.h>
// 全局信号处理函数
voidsignal_handler(int sig){
// 问题:哪个线程会执行这个处理函数?
printf("Thread %ld received signal %d\n",
(long)pthread_self(), sig);
}
intmain(){
// 设置信号处理
signal(SIGUSR1, signal_handler);
// 创建多个线程
for(int i = 0; i < 5; i++) {
pthread_create(&tid[i], NULL, worker, NULL);
}
// 发送信号给进程
kill(getpid(), SIGUSR1);
// 结果:只有一个随机的线程会收到信号!
}
信号投递规则:
// TLS的三种实现方式
#include<pthread.h>
// 方式1:C11关键字(推荐)
_Thread_local int tls_var;
// 方式2:GCC扩展
__thread int tls_var;
// 方式3:POSIX接口
pthread_key_t key;
pthread_key_create(&key, NULL);
int* tls_ptr = pthread_getspecific(key);
// TLS在内核中的实现:通过%gs或%fs寄存器指向的段
# 测量互斥锁开销
$ perf stat -e cache-misses,L1-dcache-load-misses ./mutex_test
# 结果分析:
# 1. 频繁的锁竞争导致大量的缓存行失效(Cache Coherency Problem)
# 2. 用户态-内核态切换(futex机制)
# 3. 自旋锁浪费CPU周期
# 在容器中查看线程
$ docker run -it --cpus="2" --memory="512m" alpine sh
# 容器内
/ # ps -eLf
UID PID PPID LWP C NLWP STIME TTY TIME CMD
root 1 0 1 0 1 00:00 ? 00:00:00 /bin/sh
# 注意:容器内的PID命名空间使得线程可见性不同
# 线程的cgroup限制
$ cat /sys/fs/cgroup/cpu/tasks # 包含所有线程的PID
$ cat /sys/fs/cgroup/cpu/threads # cgroups v2特有的线程控制
# 查看线程的CPU亲和性
$ taskset -p 1234 # 进程的CPU亲和性
pid 1234's current affinity mask: f # 可以运行在任何CPU
# 线程的CPU亲和性(需要查看线程的PID)
$ taskset -p 1235 # 线程的PID
pid 1235's current affinity mask: 1 # 只运行在CPU0
# 设置线程的CPU亲和性
$ taskset -cp 0,1 1235 # 将线程绑定到CPU0和CPU1
| 隔离性要求 | |||
| 通信开销 | |||
| 创建数量 | |||
| 调试难度 | |||
| 可移植性 | |||
| 资源控制 | |||
| 并发I/O |
案例1:Nginx - 多进程模型
# Nginx架构:Master进程 + 多个Worker进程
$ ps aux | grep nginx
root 1234 0.0 0.1 45678 1234 ? Ss 10:00 0:00 nginx: master process
www-data 1235 0.0 0.2 56789 2345 ? S 10:00 0:05 nginx: worker process
www-data 1236 0.0 0.2 56789 2345 ? S 10:00 0:05 nginx: worker process
# 优势:
# 1. 一个Worker崩溃不影响其他
# 2. 可以利用多核CPU
# 3. 避免线程同步的复杂性
案例2:Redis - 单线程+多进程
Redis算是比较熟悉的一种进程实用方式。我记得早期的Redis版本都是单进程单线程模式的,读写操作都是串行执行的,虽然性能快,如果执行了一个耗时较长的操作时,后续的操作都会卡出阻塞。 如果要做持久化,则会fork一个进程出来进行RDB或者AOF的持久化,据说新版本里面又出现了RDB+AOF的持久化方式。。。。
# Redis主线程单线程,但支持多进程持久化
$ ps aux | grep redis
redis 9012 0.5 0.3 56789 4567 ? Ssl 10:00 2:34 /usr/bin/redis-server
# 持久化时fork子进程
$ ps aux | grep redis
redis 9012 0.1 0.3 56789 4567 ? Ssl 10:00 2:35 /usr/bin/redis-server
redis 9013 12.5 20.1 1023456 78900 ? R 10:05 0:10 /usr/bin/redis-server *:6379
# 优势:
# 1. 避免锁竞争
# 2. fork写时复制,子进程共享内存数据
# 3. 主线程简单高效
// 现代高性能服务器的常见模式:单线程事件循环
// 如Redis、Nginx的每个Worker、Node.js
while (1) {
// 使用epoll/kqueue/IOCP等待事件
int n = epoll_wait(epfd, events, MAX_EVENTS, -1);
for (int i = 0; i < n; i++) {
// 处理I/O事件
if (events[i].events & EPOLLIN) {
handle_read(events[i].data.fd);
}
if (events[i].events & EPOLLOUT) {
handle_write(events[i].data.fd);
}
}
}
线程和进程的选择,本质上是在隔离性和性能之间的权衡。理解了Linux线程的实现真相后,你不再会盲目地认为"线程一定比进程快",而是会根据具体场景做出明智的选择。
记住:线程不是轻量级的进程,而是共享资源的进程。这个认知差异决定了你能否正确设计、调试和优化多线程程序。
运维箴言: 真正的专家不是知道所有答案的人,而是理解底层原理,能够根据具体情况选择正确工具的人。线程和进程,没有绝对的优劣,只有适合的场景。