冯诺依曼体系结构主要由四部分组成:
核心理解:
CPU 不直接和外设打交道,CPU 主要和内存打交道。
原因是外设速度太慢,而 CPU 速度很快。如果 CPU 直接等待磁盘、键盘、网卡等外设,会严重降低整机效率。因此,数据通常先从外设加载到内存,再由 CPU 从内存读取。
所以程序运行的基本过程是:
磁盘中的可执行程序 ↓加载到内存 ↓CPU 从内存中读取指令和数据 ↓执行程序可以这样理解:
输入设备 / 磁盘 / 网卡 ↓ 内存 ↓ CPU ↓ 内存 ↓输出设备 / 磁盘 / 网卡操作系统是一个进行 软硬件资源管理 的软件。
它向下管理硬件资源,向上为用户和应用程序提供稳定、安全、高效的运行环境。
可以总结为:
操作系统是什么?管理软硬件资源的软件。为什么需要操作系统?为了让计算机资源被安全、高效、稳定地使用。操作系统怎么管理?先描述,再组织。操作系统并不是直接“面对面”管理硬件或者进程,而是管理它们对应的数据。
这就是你笔记里非常重要的一句话:
管理的本质是对数据做管理。
操作系统管理任何对象,一般都是两步:
1. 先描述:用结构体描述对象的属性2. 后组织:用链表、队列、树等数据结构组织这些对象例如管理学生:
struct Student{ int id; string name; int age;};然后用链表、数组、树等数据结构组织学生对象。
操作系统管理进程也是类似的:
struct task_struct{ pid_t pid; long state; int prio; struct mm_struct* mm; struct files_struct* files; struct task_struct* parent;};所以:
管理进程本质上就是管理进程对应的 PCB。操作系统需要保护自己,不能让用户程序随便访问内核空间和硬件资源。
因此,用户程序不能直接进入操作系统内部,只能通过操作系统提供的接口访问资源。
整体结构可以理解为:
用户 ↓Shell / C库 / 图形界面 ↓系统调用接口 ↓操作系统内核 ↓驱动 ↓硬件例如:
ls | |
printf | |
open | |
fork | |
exec | |
wait |
操作系统的原则可以总结为:
OS 不相信任何用户程序。用户程序必须通过系统调用访问系统资源。程序是静态的,进程是动态的。
例如:
磁盘上的 a.out 是程序运行 ./a.out 后,内存中执行起来的 a.out 是进程更准确地说:
进程 = 内核数据结构 PCB + 程序代码和数据 + 地址空间 + 打开的文件等资源你笔记中写的是:
进程 == 内核数据结构 + 进程对应的磁盘代码这个说法适合入门理解,但可以进一步完善为:
进程不是单纯的代码。进程是操作系统对一个正在运行程序的管理实体。它包含 PCB、地址空间、代码、数据、堆、栈、打开文件、信号信息、调度信息等。Linux 中描述进程的核心结构体是 task_struct。
PCB 中保存了进程的各种属性,例如:
因此:
操作系统管理进程不是直接管理代码而是管理进程对应的 task_struct。fork() 用来创建子进程。
函数原型:
#include <unistd.h>pid_t fork(void);返回值:
典型代码:
pid_t id = fork();if (id == 0){ // 子进程执行这里}else if (id > 0){ // 父进程执行这里}else{ // fork 失败}重点理解:
fork 之后,父子进程代码共享。但是父子进程有各自独立的执行流。通过 fork 的返回值不同,让父子进程执行不同逻辑。注意:
fork 后谁先运行,不确定。由操作系统调度器决定。fork 之后,父子进程看起来有相同的变量地址,但变量值可以不同。
例如:
int g_val = 100;pid_t id = fork();if (id == 0){ g_val = 1;}else{ g_val = 2;}父子进程打印 &g_val 可能是一样的,但值不同。
原因是:
C/C++ 打印出来的地址是虚拟地址,不是物理地址。父子进程拥有各自独立的虚拟地址空间。fork 初期父子进程可以共享物理内存,当某一方尝试修改数据时,操作系统才会真正复制一份物理页。
这叫:
写时拷贝 Copy-On-Write,COW好处:
减少不必要的内存拷贝,提高 fork 效率。Linux 中常见进程状态如下:
R 状态不一定表示进程正在 CPU 上运行。
更准确地说:
R 状态表示进程正在运行,或者已经准备好运行,正在运行队列中等待 CPU 调度。例如计算密集型程序:
while (1){ int a = 1 + 1;}这种程序通常容易处于 R 状态。
S 状态表示可中断睡眠。
常见于进程正在等待某种事件,例如:
sleep(1);read(fd, buf, size);例如:
while (1){ printf("hello\n"); sleep(1);}这个程序大部分时间都在 sleep,所以通常是 S 状态。
D 状态表示不可中断睡眠。
通常发生在进程等待底层 I/O,例如磁盘 I/O、网络文件系统 I/O 等。
特点:
D 状态进程一般不能被 kill -9 立即杀死。原因是它正在等待内核态的关键 I/O 操作完成。
T 状态表示暂停。
可以使用:
kill -19 pid暂停进程。
使用:
kill -18 pid恢复进程。
僵尸进程是指:
子进程已经退出,但是父进程还没有读取它的退出状态。子进程退出后,操作系统不会立即删除它的全部信息,因为父进程可能需要知道:
1. 子进程是否正常退出2. 子进程的退出码是多少因此,子进程退出后会保留一部分 PCB 信息,等待父进程调用:
wait();waitpid();进行回收。
如果父进程一直不回收,就会产生僵尸进程。
总结:
僵尸进程不是正在运行的进程。它已经退出,只是 PCB 残留,等待父进程回收。孤儿进程是指:
父进程先退出,子进程还在运行。此时子进程会被 1 号进程或者系统中的 init/systemd 进程领养。
所以:
孤儿进程最终会被系统接管。僵尸进程需要父进程 wait/waitpid 回收。进程优先级决定进程被调度的倾向。
注意区分:
优先级:谁先运行、谁后运行的问题。权限:能不能做某件事的问题。Linux 中可以通过 ps -l 查看进程优先级相关字段:
nice 值范围通常是:
[-20, 19]规律:
nice 值越小,优先级越高。nice 值越大,优先级越低。普通用户一般只能调低自己的进程优先级,也就是增大 nice 值。
系统资源有限,多个进程想运行,就需要竞争 CPU、内存、磁盘、网络等资源。
资源少,进程多,所以需要调度。进程之间具有独立性。
例如:
QQ 崩溃了,不影响微信继续运行。这是因为每个进程都有自己独立的地址空间。
并发是指:
多个进程在一段时间内都在推进。单核 CPU 上,某一时刻只能运行一个进程,但由于 CPU 切换速度非常快,看起来像多个进程同时运行。
并行是指:
多个进程在同一时刻真正同时运行。通常需要多核 CPU 支持。
区别:
CPU 在运行一个进程时,会使用寄存器保存当前进程的临时数据,例如:
但是 CPU 寄存器硬件只有一套,所有进程轮流使用。
当操作系统要从进程 A 切换到进程 B 时,需要:
1. 保存进程 A 的上下文2. 恢复进程 B 的上下文3. 让 CPU 继续执行进程 B上下文主要包括:
所以:
进程切换的本质是上下文保存和上下文恢复。环境变量是 Linux 中保存运行环境信息的键值对。
形式:
KEY=VALUE常见环境变量:
查看环境变量:
envprintenvecho $PATHecho $HOME设置环境变量:
export MYVAL=123删除环境变量:
unset MYVAL当你输入:
lsshell 会根据 PATH 环境变量中的路径依次查找 ls 这个可执行程序。
例如:
echo $PATH可能输出:
/usr/local/bin:/usr/bin:/binshell 会在这些目录中查找命令。
所以:
which 命令本质上就是根据 PATH 查找可执行程序。定义本地变量:
aaa=123这个变量只在当前 shell 内有效,子进程不能继承。
导出为环境变量:
export aaa或者:
export aaa=123这样子进程才能继承。
总结:
本地变量:只在当前 shell 内部有效。环境变量:可以被子进程继承。C/C++ 程序可以通过 main 函数接收命令行参数和环境变量。
int main(int argc, char* argv[], char* env[]){ return 0;}含义:
例如:
./a.out -a -b对应:
argc = 3argv[0] = "./a.out"argv[1] = "-a"argv[2] = "-b"程序运行时,进程看到的地址不是物理地址,而是虚拟地址。
一个典型进程地址空间可以分为:
高地址----------------命令行参数和环境变量栈区共享库映射区堆区未初始化数据区 bss已初始化数据区 data代码区 text----------------低地址不同区域的作用:
虚拟地址空间有三个重要作用:
进程不能直接访问物理内存,必须经过页表映射。
如果访问非法地址,操作系统可以检测到,并触发段错误。
虚拟地址 + 页表 = 内存访问保护每个进程都有自己的虚拟地址空间。
即使两个进程打印出来的虚拟地址相同,它们映射到的物理内存也可能不同。
这就是为什么 fork 后父子进程可以拥有相同地址,但数据互不影响。
编译器在编译程序时,不需要关心程序最终被加载到物理内存的哪个位置。
它只需要按照统一的虚拟地址空间布局进行编译。
这样程序的编译、链接、加载都会更方便。
虚拟地址不能直接访问物理内存,需要通过页表进行转换。
虚拟地址 ↓页表映射 ↓物理地址页表不仅负责地址转换,还负责权限检查。
例如:
所以页表的作用可以总结为:
1. 虚拟地址到物理地址的映射2. 内存访问权限检查3. 支持进程独立性4. 支持写时拷贝你这章笔记可以浓缩成一条主线:
CPU 只和内存直接打交道 ↓程序必须加载到内存才能运行 ↓程序运行起来就是进程 ↓操作系统通过 PCB 描述进程 ↓通过数据结构组织 PCB ↓进程运行时有状态、优先级、地址空间、环境变量等属性 ↓进程切换本质是上下文保存和恢复 ↓虚拟地址空间保证进程独立性和系统安全1. 程序和进程的区别2. PCB 是什么3. fork 的返回值4. fork 后父子进程如何分流5. 写时拷贝是什么6. 僵尸进程和孤儿进程区别7. R/S/D/T/Z 状态含义8. 进程优先级和 nice 值9. 环境变量 PATH/HOME/PWD/USER 的作用10. 虚拟地址空间的作用11. 页表的作用12. 进程切换为什么要保存上下文进程是程序运行起来后的动态实体。在 Linux 中,操作系统通过 task_struct 描述一个进程,其中包含 pid、状态、优先级、地址空间、打开文件、父子关系、上下文等信息。操作系统管理进程,本质上是先用 PCB 描述进程,再用链表、运行队列、等待队列等数据结构组织 PCB。fork 用于创建子进程。fork 之后父子进程代码共享,但执行流独立。父进程返回子进程 pid,子进程返回 0。父子进程拥有独立的虚拟地址空间,修改数据时会触发写时拷贝。进程状态包括 R、S、D、T、Z 等。R 表示正在运行或在运行队列中;S 表示可中断睡眠;D 表示不可中断睡眠;T 表示暂停;Z 表示僵尸状态。虚拟地址空间的作用是保护内存安全、保证进程独立性,并为编译器和程序提供统一的地址视角。建议改成:
进程 = PCB + 地址空间 + 代码和数据 + 打开的文件 + 信号信息 + 调度信息等资源。这样更准确。
应该理解为:
R 状态 = 正在运行或者已经准备好运行。只要在运行队列中,也属于 R 状态。
可以完善为:
Linux 中通常没有一个统一的阻塞队列。进程等待什么资源,就挂到对应资源的等待队列上。例如:
等待键盘输入 → 挂到终端相关等待队列等待磁盘 I/O → 挂到磁盘 I/O 相关等待队列等待 socket 数据 → 挂到网络相关等待队列建议区分:
shell 本地变量:只在当前 shell 中有效环境变量:可以被子进程继承例如:
aaa=123 # 本地变量export aaa # 变成环境变量这章的核心不是死记命令,而是理解:
操作系统通过“先描述,后组织”的方式管理进程;进程本质上是被操作系统管理起来的运行实体;PCB 描述进程,队列组织进程,调度器选择进程;虚拟地址空间保证进程独立,环境变量影响进程行为,上下文切换实现多进程并发。