当前位置：首页>Linux>Linux 进程概念总结与完善

Linux 进程概念总结与完善

2026-07-02 16:37:13

1. 冯诺依曼体系结构

冯诺依曼体系结构主要由四部分组成：

组成部分	作用
输入设备	向计算机输入数据，例如键盘、网卡
输出设备	输出计算结果，例如显示器、网卡
存储器	这里主要指内存
中央处理器 CPU	负责取指令、分析指令、执行指令

核心理解：

CPU 不直接和外设打交道，CPU 主要和内存打交道。

原因是外设速度太慢，而 CPU 速度很快。如果 CPU 直接等待磁盘、键盘、网卡等外设，会严重降低整机效率。因此，数据通常先从外设加载到内存，再由 CPU 从内存读取。

所以程序运行的基本过程是：

磁盘中的可执行程序        ↓加载到内存        ↓CPU 从内存中读取指令和数据        ↓执行程序

可以这样理解：

输入设备 / 磁盘 / 网卡        ↓      内存        ↓       CPU        ↓      内存        ↓输出设备 / 磁盘 / 网卡

2. 操作系统 OS 的本质

操作系统是一个进行 软硬件资源管理 的软件。

它向下管理硬件资源，向上为用户和应用程序提供稳定、安全、高效的运行环境。

可以总结为：

操作系统是什么？管理软硬件资源的软件。为什么需要操作系统？为了让计算机资源被安全、高效、稳定地使用。操作系统怎么管理？先描述，再组织。

3. 管理的核心思想：先描述，后组织

操作系统并不是直接“面对面”管理硬件或者进程，而是管理它们对应的数据。

这就是你笔记里非常重要的一句话：

管理的本质是对数据做管理。

操作系统管理任何对象，一般都是两步：

1. 先描述：用结构体描述对象的属性2. 后组织：用链表、队列、树等数据结构组织这些对象

例如管理学生：

struct Student{    int id;    string name;    int age;};

然后用链表、数组、树等数据结构组织学生对象。

操作系统管理进程也是类似的：

struct task_struct{    pid_t pid;    long state;    int prio;    struct mm_struct* mm;    struct files_struct* files;    struct task_struct* parent;};

所以：

管理进程本质上就是管理进程对应的 PCB。

4. 系统调用接口

操作系统需要保护自己，不能让用户程序随便访问内核空间和硬件资源。

因此，用户程序不能直接进入操作系统内部，只能通过操作系统提供的接口访问资源。

整体结构可以理解为：

用户 ↓Shell / C库 / 图形界面 ↓系统调用接口 ↓操作系统内核 ↓驱动 ↓硬件

例如：

用户行为	本质
`ls`	shell 启动一个可执行程序
`printf`	C 库函数，最终可能调用 write
`open`	系统调用，打开文件
`fork`	系统调用，创建进程
`exec`	系统调用，程序替换
`wait`	系统调用，回收子进程

操作系统的原则可以总结为：

OS 不相信任何用户程序。用户程序必须通过系统调用访问系统资源。

5. 进程的概念

5.1 程序和进程的区别

程序是静态的，进程是动态的。

概念	说明
程序	磁盘上的可执行文件，是静态的
进程	程序运行起来之后的状态，是动态的

例如：

磁盘上的 a.out 是程序运行 ./a.out 后，内存中执行起来的 a.out 是进程

更准确地说：

进程 = 内核数据结构 PCB + 程序代码和数据 + 地址空间 + 打开的文件等资源

你笔记中写的是：

进程 == 内核数据结构 + 进程对应的磁盘代码

这个说法适合入门理解，但可以进一步完善为：

进程不是单纯的代码。进程是操作系统对一个正在运行程序的管理实体。它包含 PCB、地址空间、代码、数据、堆、栈、打开文件、信号信息、调度信息等。

5.2 PCB：进程控制块

Linux 中描述进程的核心结构体是 task_struct。

PCB 中保存了进程的各种属性，例如：

字段	含义
pid	进程 ID
state	进程状态
prio	进程优先级
mm	进程地址空间
files	打开的文件
parent	父进程
children	子进程
thread	CPU 上下文
signal	信号相关信息

因此：

操作系统管理进程不是直接管理代码而是管理进程对应的 task_struct。

6. fork 创建子进程

fork() 用来创建子进程。

函数原型：

#include <unistd.h>pid_t fork(void);

返回值：

返回值	含义
> 0	父进程中返回子进程 pid
== 0	子进程中返回 0
< 0	创建失败

典型代码：

pid_t id = fork();if (id == 0){    // 子进程执行这里}else if (id > 0){    // 父进程执行这里}else{    // fork 失败}

重点理解：

fork 之后，父子进程代码共享。但是父子进程有各自独立的执行流。通过 fork 的返回值不同，让父子进程执行不同逻辑。

注意：

fork 后谁先运行，不确定。由操作系统调度器决定。

7. fork 与写时拷贝

fork 之后，父子进程看起来有相同的变量地址，但变量值可以不同。

例如：

int g_val = 100;pid_t id = fork();if (id == 0){    g_val = 1;}else{    g_val = 2;}

父子进程打印 &g_val 可能是一样的，但值不同。

原因是：

C/C++ 打印出来的地址是虚拟地址，不是物理地址。父子进程拥有各自独立的虚拟地址空间。

fork 初期父子进程可以共享物理内存，当某一方尝试修改数据时，操作系统才会真正复制一份物理页。

这叫：

写时拷贝 Copy-On-Write，COW

好处：

减少不必要的内存拷贝，提高 fork 效率。

8. 进程状态

Linux 中常见进程状态如下：

状态	含义
R	Running / Runnable，正在运行或在运行队列中
S	Interruptible Sleep，可中断睡眠
D	Uninterruptible Sleep，不可中断睡眠
T	Stopped，暂停状态
t	Tracing stop，调试暂停
Z	Zombie，僵尸状态
X	Dead，死亡状态，几乎看不到

8.1 R 状态

R 状态不一定表示进程正在 CPU 上运行。

更准确地说：

R 状态表示进程正在运行，或者已经准备好运行，正在运行队列中等待 CPU 调度。

例如计算密集型程序：

while (1){    int a = 1 + 1;}

这种程序通常容易处于 R 状态。

8.2 S 状态

S 状态表示可中断睡眠。

常见于进程正在等待某种事件，例如：

sleep(1);read(fd, buf, size);

例如：

while (1){    printf("hello\n");    sleep(1);}

这个程序大部分时间都在 sleep，所以通常是 S 状态。

8.3 D 状态

D 状态表示不可中断睡眠。

通常发生在进程等待底层 I/O，例如磁盘 I/O、网络文件系统 I/O 等。

特点：

D 状态进程一般不能被 kill -9 立即杀死。

原因是它正在等待内核态的关键 I/O 操作完成。

8.4 T 状态

T 状态表示暂停。

可以使用：

kill -19 pid

暂停进程。

使用：

kill -18 pid

恢复进程。

8.5 Z 状态：僵尸进程

僵尸进程是指：

子进程已经退出，但是父进程还没有读取它的退出状态。

子进程退出后，操作系统不会立即删除它的全部信息，因为父进程可能需要知道：

1. 子进程是否正常退出2. 子进程的退出码是多少

因此，子进程退出后会保留一部分 PCB 信息，等待父进程调用：

wait();waitpid();

进行回收。

如果父进程一直不回收，就会产生僵尸进程。

总结：

僵尸进程不是正在运行的进程。它已经退出，只是 PCB 残留，等待父进程回收。

8.6 孤儿进程

孤儿进程是指：

父进程先退出，子进程还在运行。

此时子进程会被 1 号进程或者系统中的 init/systemd 进程领养。

所以：

孤儿进程最终会被系统接管。僵尸进程需要父进程 wait/waitpid 回收。

9. 进程优先级

进程优先级决定进程被调度的倾向。

注意区分：

优先级：谁先运行、谁后运行的问题。权限：能不能做某件事的问题。

Linux 中可以通过 ps -l 查看进程优先级相关字段：

字段	含义
PRI	priority，系统调度优先级
NI	nice 值，用户可调整的优先级修正值

nice 值范围通常是：

[-20, 19]

规律：

nice 值越小，优先级越高。nice 值越大，优先级越低。

普通用户一般只能调低自己的进程优先级，也就是增大 nice 值。

10. 并发、并行、竞争、独立性

10.1 竞争性

系统资源有限，多个进程想运行，就需要竞争 CPU、内存、磁盘、网络等资源。

资源少，进程多，所以需要调度。

10.2 独立性

进程之间具有独立性。

例如：

QQ 崩溃了，不影响微信继续运行。

这是因为每个进程都有自己独立的地址空间。

10.3 并发

并发是指：

多个进程在一段时间内都在推进。

单核 CPU 上，某一时刻只能运行一个进程，但由于 CPU 切换速度非常快，看起来像多个进程同时运行。

10.4 并行

并行是指：

多个进程在同一时刻真正同时运行。

通常需要多核 CPU 支持。

区别：

概念	说明
并发	一段时间内多个任务交替执行
并行	同一时刻多个任务同时执行

11. 进程切换

CPU 在运行一个进程时，会使用寄存器保存当前进程的临时数据，例如：

寄存器内容	作用
PC / EIP / RIP	下一条要执行的指令地址
SP / RSP	栈顶位置
通用寄存器	保存临时计算数据
FLAGS	保存 CPU 状态信息

但是 CPU 寄存器硬件只有一套，所有进程轮流使用。

当操作系统要从进程 A 切换到进程 B 时，需要：

1. 保存进程 A 的上下文2. 恢复进程 B 的上下文3. 让 CPU 继续执行进程 B

上下文主要包括：

内容	说明
寄存器数据	当前执行现场
程序计数器	下一条指令地址
栈指针	当前栈位置
页表信息	当前地址空间
调度信息	状态、优先级、时间片

所以：

进程切换的本质是上下文保存和上下文恢复。

12. 环境变量

环境变量是 Linux 中保存运行环境信息的键值对。

形式：

KEY=VALUE

常见环境变量：

环境变量	含义
PATH	命令搜索路径
HOME	当前用户家目录
USER	当前用户名
PWD	当前工作目录
SHELL	当前 shell
LANG	语言环境

查看环境变量：

envprintenvecho $PATHecho $HOME

设置环境变量：

export MYVAL=123

删除环境变量：

unset MYVAL

12.1 PATH 的作用

当你输入：

ls

shell 会根据 PATH 环境变量中的路径依次查找 ls 这个可执行程序。

例如：

echo $PATH

可能输出：

/usr/local/bin:/usr/bin:/bin

shell 会在这些目录中查找命令。

所以：

which 命令本质上就是根据 PATH 查找可执行程序。

12.2 本地变量和环境变量

定义本地变量：

aaa=123

这个变量只在当前 shell 内有效，子进程不能继承。

导出为环境变量：

export aaa

或者：

export aaa=123

这样子进程才能继承。

总结：

本地变量：只在当前 shell 内部有效。环境变量：可以被子进程继承。

12.3 main 函数参数

C/C++ 程序可以通过 main 函数接收命令行参数和环境变量。

int main(int argc, char* argv[], char* env[]){    return 0;}

含义：

参数	含义
argc	命令行参数个数
argv	命令行参数表
env	环境变量表

例如：

./a.out -a -b

对应：

argc = 3argv[0] = "./a.out"argv[1] = "-a"argv[2] = "-b"

13. 程序地址空间

程序运行时，进程看到的地址不是物理地址，而是虚拟地址。

一个典型进程地址空间可以分为：

高地址----------------命令行参数和环境变量栈区共享库映射区堆区未初始化数据区 bss已初始化数据区 data代码区 text----------------低地址

不同区域的作用：

区域	保存内容
代码区	程序指令
字符串常量区	常量字符串
已初始化数据区	已初始化全局变量、静态变量
未初始化数据区	未初始化全局变量、静态变量
堆区	malloc/new 申请的空间
栈区	局部变量、函数调用栈帧
环境变量区	环境变量和命令行参数

13.1 虚拟地址空间的意义

虚拟地址空间有三个重要作用：

第一，保护内存安全

进程不能直接访问物理内存，必须经过页表映射。

如果访问非法地址，操作系统可以检测到，并触发段错误。

虚拟地址 + 页表 = 内存访问保护

第二，保证进程独立性

每个进程都有自己的虚拟地址空间。

即使两个进程打印出来的虚拟地址相同，它们映射到的物理内存也可能不同。

这就是为什么 fork 后父子进程可以拥有相同地址，但数据互不影响。

第三，给程序统一视角

编译器在编译程序时，不需要关心程序最终被加载到物理内存的哪个位置。

它只需要按照统一的虚拟地址空间布局进行编译。

这样程序的编译、链接、加载都会更方便。

14. 页表

虚拟地址不能直接访问物理内存，需要通过页表进行转换。

虚拟地址   ↓页表映射   ↓物理地址

页表不仅负责地址转换，还负责权限检查。

例如：

权限	说明
可读	是否允许读取
可写	是否允许写入
可执行	是否允许执行

所以页表的作用可以总结为：

1. 虚拟地址到物理地址的映射2. 内存访问权限检查3. 支持进程独立性4. 支持写时拷贝

15. 这章的核心主线

你这章笔记可以浓缩成一条主线：

CPU 只和内存直接打交道        ↓程序必须加载到内存才能运行        ↓程序运行起来就是进程        ↓操作系统通过 PCB 描述进程        ↓通过数据结构组织 PCB        ↓进程运行时有状态、优先级、地址空间、环境变量等属性        ↓进程切换本质是上下文保存和恢复        ↓虚拟地址空间保证进程独立性和系统安全

16. 面试/复习版重点

必须掌握

1. 程序和进程的区别2. PCB 是什么3. fork 的返回值4. fork 后父子进程如何分流5. 写时拷贝是什么6. 僵尸进程和孤儿进程区别7. R/S/D/T/Z 状态含义8. 进程优先级和 nice 值9. 环境变量 PATH/HOME/PWD/USER 的作用10. 虚拟地址空间的作用11. 页表的作用12. 进程切换为什么要保存上下文

17. 你原笔记中建议完善的几个点

1. “进程 = 内核数据结构 + 磁盘代码”可以升级

建议改成：

进程 = PCB + 地址空间 + 代码和数据 + 打开的文件 + 信号信息 + 调度信息等资源。

这样更准确。

2. R 状态不要理解成“一定正在运行”

应该理解为：

R 状态 = 正在运行或者已经准备好运行。

只要在运行队列中，也属于 R 状态。

3. 阻塞队列不是全局唯一

可以完善为：

Linux 中通常没有一个统一的阻塞队列。进程等待什么资源，就挂到对应资源的等待队列上。

例如：

等待键盘输入 → 挂到终端相关等待队列等待磁盘 I/O → 挂到磁盘 I/O 相关等待队列等待 socket 数据 → 挂到网络相关等待队列

4. 僵尸进程和孤儿进程要分清

类型	产生原因	是否有害
僵尸进程	子进程退出，父进程不回收	有害，PCB 残留
孤儿进程	父进程先退出，子进程还在运行	通常无害，会被系统领养

5. 环境变量不是“局部变量”

建议区分：

shell 本地变量：只在当前 shell 中有效环境变量：可以被子进程继承

例如：

aaa=123        # 本地变量export aaa     # 变成环境变量

18. 最终一句话总结

这章的核心不是死记命令，而是理解：

操作系统通过“先描述，后组织”的方式管理进程；进程本质上是被操作系统管理起来的运行实体；PCB 描述进程，队列组织进程，调度器选择进程；虚拟地址空间保证进程独立，环境变量影响进程行为，上下文切换实现多进程并发。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Linux 进程概念总结与完善

Linux 进程概念总结与完善

1. 冯诺依曼体系结构

2. 操作系统 OS 的本质

3. 管理的核心思想：先描述，后组织

4. 系统调用接口

5. 进程的概念

5.1 程序和进程的区别

5.2 PCB：进程控制块

6. fork 创建子进程

7. fork 与写时拷贝

8. 进程状态

8.1 R 状态

8.2 S 状态

8.3 D 状态

8.4 T 状态

8.5 Z 状态：僵尸进程

8.6 孤儿进程

9. 进程优先级

10. 并发、并行、竞争、独立性

10.1 竞争性

10.2 独立性

10.3 并发

10.4 并行

11. 进程切换

12. 环境变量

12.1 PATH 的作用

12.2 本地变量和环境变量

12.3 main 函数参数

13. 程序地址空间

13.1 虚拟地址空间的意义

第一，保护内存安全

第二，保证进程独立性

第三，给程序统一视角

14. 页表

15. 这章的核心主线

16. 面试/复习版重点

必须掌握

推荐背诵版

17. 你原笔记中建议完善的几个点

1. “进程 = 内核数据结构 + 磁盘代码”可以升级

2. R 状态不要理解成“一定正在运行”

3. 阻塞队列不是全局唯一

4. 僵尸进程和孤儿进程要分清

5. 环境变量不是“局部变量”

18. 最终一句话总结

关于举办“Python”编程知识竞赛活动的通知来啦

开源分享 | Linux Auto Inspection:零依赖 Linux 服务器一键巡检工具

最新文章

热门文章

随机文章