一、os 模块简介
os(Operating System)模块是 Python 的标准库,提供了与操作系统交互的接口。它允许你:
- • 处理路径(虽然
os.path 更推荐用 pathlib 替代,但 os.path 依然广泛使用)
import os
二、路径操作 —— os.path 的核心用法
2.1 获取当前工作目录
import os
# 获取当前工作目录
cwd = os.getcwd()
print(f"当前工作目录: {cwd}")
# 输出示例: C:\Users\username\Documents\project
办公场景:批量处理文件时,先确认当前目录位置,避免路径错误导致文件找不到。
2.2 拼接路径
import os
# 安全的跨平台路径拼接
file_path = os.path.join("data", "reports", "2024", "report.xlsx")
print(file_path)
# Windows 输出: data\reports\2024\report.xlsx
# Linux/Mac 输出: data/reports/2024/report.xlsx
为什么用 os.path.join 而不是字符串拼接?
- • 自动处理不同操作系统的路径分隔符(Windows 用
\,Linux/Mac 用 /)
2.3 拆分路径
import os
path = "D:\\reports\\2024\\summary.xlsx"
# 获取目录部分
directory = os.path.dirname(path)
print(f"目录: {directory}") # D:\reports\2024
# 获取文件名
filename = os.path.basename(path)
print(f"文件名: {filename}") # summary.xlsx
# 同时获取目录和文件名
dir_name, file_name = os.path.split(path)
print(f"目录: {dir_name}, 文件名: {file_name}")
# 分离文件名和扩展名
name, ext = os.path.splitext("summary.xlsx")
print(f"文件名: {name}, 扩展名: {ext}") # summary, .xlsx
办公场景:批量重命名文件时,需要保留扩展名只修改文件名部分。
2.4 获取绝对路径
import os
# 相对路径转绝对路径
relative = "./data/report.xlsx"
absolute = os.path.abspath(relative)
print(f"绝对路径: {absolute}")
# 判断是否为绝对路径
print(os.path.isabs("data/file.txt")) # False
print(os.path.isabs("D:/data/file.txt")) # True
三、文件和目录操作
3.1 判断文件或目录是否存在
import os
# 判断路径是否存在
print(os.path.exists("data/report.xlsx")) # True 或 False
print(os.path.exists("D:/reports/")) # True 或 False
# 判断是否为文件
print(os.path.isfile("data/report.xlsx")) # True
print(os.path.isfile("D:/reports/")) # False
# 判断是否为目录
print(os.path.isdir("D:/reports/")) # True
print(os.path.isdir("data/report.xlsx")) # False
办公场景:在读写文件前先检查文件是否存在,避免 FileNotFoundError 报错。
3.2 创建目录
import os
# 创建单层目录(父目录必须已存在)
os.mkdir("new_folder")
# 创建多层嵌套目录(推荐,父目录不存在时自动创建)
os.makedirs("reports/2024/Q1", exist_ok=True)
exist_ok=True 的作用:目录已存在时不报错,适合幂等操作。
办公场景:按年月自动创建归档目录结构。
import os
from datetime import datetime
# 自动创建当月归档目录
today = datetime.now()
archive_path = f"archive/{today.year}/{today.month:02d}"
os.makedirs(archive_path, exist_ok=True)
print(f"归档目录已创建: {archive_path}")
3.3 删除文件和目录
import os
# 删除文件
os.remove("temp_report.xlsx")
# 删除空目录
os.rmdir("empty_folder")
# 删除非空目录树(需要 shutil 配合)
import shutil
shutil.rmtree("old_reports")
安全提醒:删除操作不可恢复,建议删除前先备份或移到回收站。
3.4 重命名和移动文件
import os
# 重命名文件
os.rename("old_name.xlsx", "new_name.xlsx")
# 移动文件(本质是重命名路径)
os.rename("data/report.xlsx", "archive/2024/report.xlsx")
办公场景:批量给文件添加日期前缀。
import os
from datetime import datetime
today = datetime.now().strftime("%Y%m%d")
for filename in os.listdir("reports"):
if filename.endswith(".xlsx"):
old_path = os.path.join("reports", filename)
new_path = os.path.join("reports", f"{today}_{filename}")
os.rename(old_path, new_path)
print(f"已重命名: {filename} -> {today}_{filename}")
四、文件信息获取
4.1 获取文件大小
import os
file_path = "data/report.xlsx"
size_bytes = os.path.getsize(file_path)
print(f"文件大小: {size_bytes} 字节")
# 转换为人类可读的格式
defformat_size(size_bytes):
for unit in ['B', 'KB', 'MB', 'GB']:
if size_bytes < 1024:
returnf"{size_bytes:.2f}{unit}"
size_bytes /= 1024
returnf"{size_bytes:.2f} TB"
print(f"文件大小: {format_size(os.path.getsize(file_path))}")
4.2 获取文件修改时间
import os
from datetime import datetime
file_path = "data/report.xlsx"
# 获取最后修改时间(返回时间戳)
mtime = os.path.getmtime(file_path)
print(f"最后修改时间: {datetime.fromtimestamp(mtime)}")
# 获取创建时间(Windows 有效)
ctime = os.path.getctime(file_path)
print(f"创建时间: {datetime.fromtimestamp(ctime)}")
# 获取最后访问时间
atime = os.path.getatime(file_path)
print(f"最后访问时间: {datetime.fromtimestamp(atime)}")
办公场景:找出超过 30 天未修改的文件进行清理。
import os
from datetime import datetime, timedelta
cutoff = datetime.now() - timedelta(days=30)
for filename in os.listdir("temp_files"):
file_path = os.path.join("temp_files", filename)
if os.path.isfile(file_path):
mtime = datetime.fromtimestamp(os.path.getmtime(file_path))
if mtime < cutoff:
print(f"可清理: {filename} (最后修改: {mtime})")
# os.remove(file_path) # 取消注释后实际删除
五、目录遍历 —— os.listdir 与 os.walk
5.1 列出目录内容 —— os.listdir
import os
# 列出当前目录下所有文件和子目录
items = os.listdir(".")
print(items)
# 输出: ['data', 'report.xlsx', 'summary.pdf', 'scripts']
# 列出指定目录
items = os.listdir("D:/reports")
for item in items:
print(item)
办公场景:统计某目录下 Excel 文件的数量。
import os
count = 0
for item in os.listdir("reports"):
if item.endswith(('.xlsx', '.xls')):
count += 1
print(f"共有 {count} 个 Excel 文件")
5.2 递归遍历目录树 —— os.walk(核心高频用法)
os.walk() 是办公自动化中最常用的函数之一,它能递归遍历目录树。
import os
# 基本用法
for dirpath, dirnames, filenames in os.walk("D:/project"):
print(f"当前目录: {dirpath}")
print(f"子目录: {dirnames}")
print(f"文件: {filenames}")
print("---")
返回值说明:
- •
dirpath:当前遍历到的目录路径(字符串) - •
dirnames:当前目录下的子目录列表(字符串列表) - •
filenames:当前目录下的文件列表(字符串列表)
5.3 实战:搜集所有 Excel 文件
import os
deffind_excel_files(root_dir):
"""递归查找目录下所有 Excel 文件"""
excel_files = []
for dirpath, dirnames, filenames in os.walk(root_dir):
for filename in filenames:
if filename.endswith(('.xlsx', '.xls')):
full_path = os.path.join(dirpath, filename)
excel_files.append(full_path)
return excel_files
# 使用示例
files = find_excel_files("D:/work/reports")
print(f"共找到 {len(files)} 个 Excel 文件:")
for f in files:
print(f" {f}")
5.4 实战:统计各类型文件数量和总大小
import os
defanalyze_directory(root_dir):
"""分析目录下各类型文件的数量和大小"""
stats = {} # {扩展名: {'count': 数量, 'size': 总大小}}
for dirpath, dirnames, filenames in os.walk(root_dir):
# 跳过隐藏目录
dirnames[:] = [d for d in dirnames ifnot d.startswith('.')]
for filename in filenames:
if filename.startswith('.'):
continue
ext = os.path.splitext(filename)[1].lower() or'无扩展名'
file_path = os.path.join(dirpath, filename)
try:
size = os.path.getsize(file_path)
except OSError:
size = 0
if ext notin stats:
stats[ext] = {'count': 0, 'size': 0}
stats[ext]['count'] += 1
stats[ext]['size'] += size
return stats
# 使用示例
stats = analyze_directory("D:/work")
for ext, info insorted(stats.items()):
print(f"{ext}: {info['count']} 个文件, 总计 {info['size'] / 1024 / 1024:.2f} MB")
5.5 实战:批量给文件名添加序号
import os
defbatch_rename_with_counter(directory, prefix="文档"):
"""批量给目录下文件添加序号前缀"""
files = [f for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
for idx, filename inenumerate(files, start=1):
old_path = os.path.join(directory, filename)
name, ext = os.path.splitext(filename)
new_name = f"{prefix}_{idx:03d}{ext}"
new_path = os.path.join(directory, new_name)
os.rename(old_path, new_path)
print(f"已重命名: {filename} -> {new_name}")
# 使用示例
# batch_rename_with_counter("D:/work/documents", "报告")
六、环境变量操作
6.1 读取环境变量
import os
# 读取环境变量
username = os.environ.get("USERNAME") # Windows
print(f"当前用户: {username}")
# 读取 PATH 环境变量
path = os.environ.get("PATH")
print(f"PATH: {path}")
# 安全读取(带默认值)
api_key = os.environ.get("API_KEY", "default_key")
6.2 设置环境变量
import os
# 设置环境变量(仅在当前 Python 进程及其子进程中有效)
os.environ["MY_APP_ENV"] = "production"
os.environ["OUTPUT_DIR"] = "D:/output"
print(os.environ.get("MY_APP_ENV")) # production
办公场景:在自动化脚本中使用环境变量管理配置(如数据库连接、输出路径),避免硬编码。
七、系统命令执行
7.1 os.system(简单但不推荐)
import os
# 执行系统命令(返回值是命令的退出码)
exit_code = os.system("dir") # Windows 列出目录
exit_code = os.system("ls -la") # Linux/Mac
缺点:无法获取命令输出内容,安全性较差。
7.2 os.popen(获取命令输出)
import os
# 执行命令并获取输出
result = os.popen("dir").read()
print(result)
7.3 推荐使用 subprocess(替代方案)
虽然不属于 os 模块,但现代 Python 更推荐使用 subprocess:
import subprocess
# 执行命令并获取输出
result = subprocess.run(["dir"], shell=True, capture_output=True, text=True)
print(result.stdout)
八、权限和属性操作
8.1 修改文件权限
import os
import stat
file_path = "report.xlsx"
# 设置为只读(Windows 效果有限,Linux 上更常用)
os.chmod(file_path, stat.S_IRUSR | stat.S_IRGRP | stat.S_IROTH)
# 设置为可读写
os.chmod(file_path, stat.S_IRUSR | stat.S_IWUSR)
8.2 检查文件权限
import os
import stat
file_path = "report.xlsx"
mode = os.stat(file_path).st_mode
# 检查是否可读
is_readable = bool(mode & stat.S_IRUSR)
print(f"可读: {is_readable}")
九、临时文件和特殊目录
9.1 获取系统临时目录
import os
temp_dir = os.path.normpath(os.environ.get("TEMP") or os.environ.get("TMP"))
print(f"临时目录: {temp_dir}")
# 或者使用 tempfile 模块(更推荐)
import tempfile
print(f"临时目录: {tempfile.gettempdir()}")
9.2 获取用户主目录
import os
home = os.path.expanduser("~")
print(f"用户主目录: {home}")
# 拼接用户特定路径
config_path = os.path.join(home, ".config", "myapp")
print(f"配置目录: {config_path}")
十、综合实战项目
10.1 项目一:自动整理下载文件夹
import os
import shutil
from datetime import datetime
deforganize_downloads(download_dir):
"""按文件类型自动整理下载文件夹"""
# 定义分类规则
categories = {
"Images": [".jpg", ".jpeg", ".png", ".gif", ".bmp", ".svg", ".webp"],
"Documents": [".pdf", ".doc", ".docx", ".txt", ".xls", ".xlsx", ".ppt", ".pptx"],
"Archives": [".zip", ".rar", ".7z", ".tar", ".gz"],
"Videos": [".mp4", ".avi", ".mkv", ".mov", ".wmv", ".flv"],
"Audio": [".mp3", ".wav", ".flac", ".aac", ".ogg"],
"Programs": [".exe", ".msi", ".dmg", ".apk"],
}
# 创建分类目录
for category in categories:
os.makedirs(os.path.join(download_dir, category), exist_ok=True)
# 遍历并移动文件
for filename in os.listdir(download_dir):
file_path = os.path.join(download_dir, filename)
# 跳过目录和已分类的文件夹
if os.path.isdir(file_path) or filename.startswith("."):
continue
ext = os.path.splitext(filename)[1].lower()
# 找到对应分类
target_category = None
for category, extensions in categories.items():
if ext in extensions:
target_category = category
break
if target_category:
dest_path = os.path.join(download_dir, target_category, filename)
# 处理同名文件
if os.path.exists(dest_path):
name, ext = os.path.splitext(filename)
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
dest_path = os.path.join(download_dir, target_category, f"{name}_{timestamp}{ext}")
shutil.move(file_path, dest_path)
print(f"已移动: {filename} -> {target_category}/")
# 使用示例
# organize_downloads("C:/Users/username/Downloads")
10.2 项目二:查找重复文件
import os
import hashlib
deffind_duplicate_files(root_dir):
"""查找目录下的重复文件(基于 MD5)"""
deffile_md5(file_path):
"""计算文件 MD5 值"""
hasher = hashlib.md5()
withopen(file_path, 'rb') as f:
while chunk := f.read(8192):
hasher.update(chunk)
return hasher.hexdigest()
# 按文件大小初步分组
size_groups = {}
for dirpath, dirnames, filenames in os.walk(root_dir):
for filename in filenames:
file_path = os.path.join(dirpath, filename)
try:
size = os.path.getsize(file_path)
if size notin size_groups:
size_groups[size] = []
size_groups[size].append(file_path)
except OSError:
continue
# 对大小相同的文件计算 MD5
duplicates = {}
for size, paths in size_groups.items():
iflen(paths) < 2:
continue
md5_groups = {}
for path in paths:
md5 = file_md5(path)
if md5 notin md5_groups:
md5_groups[md5] = []
md5_groups[md5].append(path)
for md5, paths in md5_groups.items():
iflen(paths) > 1:
duplicates[md5] = paths
return duplicates
# 使用示例
duplicates = find_duplicate_files("D:/work")
for md5, paths in duplicates.items():
print(f"\n重复文件 (MD5: {md5}):")
for p in paths:
size = os.path.getsize(p) / 1024
print(f" {p} ({size:.1f} KB)")
10.3 项目三:生成文件目录索引
import os
defgenerate_file_index(root_dir, output_file="file_index.md"):
"""生成目录下所有文件的 Markdown 索引"""
defget_tree(dirpath, prefix=""):
lines = []
items = sorted(os.listdir(dirpath))
# 过滤隐藏文件
items = [i for i in items ifnot i.startswith('.')]
for idx, item inenumerate(items):
item_path = os.path.join(dirpath, item)
is_last = (idx == len(items) - 1)
connector = "└── "if is_last else"├── "
lines.append(f"{prefix}{connector}{item}")
if os.path.isdir(item_path):
extension = " "if is_last else"│ "
lines.extend(get_tree(item_path, prefix + extension))
return lines
withopen(output_file, 'w', encoding='utf-8') as f:
f.write(f"# 📁 {os.path.basename(root_dir)} 目录索引\n\n")
f.write(f"**生成时间**: {__import__('datetime').datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n\n")
f.write("```text\n")
f.write(f"{os.path.basename(root_dir)}\n")
tree_lines = get_tree(root_dir)
f.write('\n'.join(tree_lines))
f.write("\n```\n")
print(f"索引已生成: {output_file}")
# 使用示例
# generate_file_index("D:/project", "project_index.md")
10.4 项目四:批量检测空目录
import os
deffind_empty_directories(root_dir):
"""查找所有空目录(不含任何文件和子目录)"""
empty_dirs = []
for dirpath, dirnames, filenames in os.walk(root_dir, topdown=False):
# topdown=False 从最深层目录开始遍历
ifnot dirnames andnot filenames:
empty_dirs.append(dirpath)
return empty_dirs
# 使用示例
empty = find_empty_directories("D:/project")
if empty:
print(f"找到 {len(empty)} 个空目录:")
for d in empty:
print(f" {d}")
else:
print("没有找到空目录")
十一、os 模块与 pathlib 的对比
虽然 os 模块功能强大,Python 3.4+ 引入了更现代的 pathlib 模块。两者的对比:
| os | pathlib |
| os.getcwd() | Path.cwd() |
| os.path.join("a", "b") | Path("a") / "b" |
| os.path.exists(path) | Path(path).exists() |
| os.path.isfile(path) | Path(path).is_file() |
| os.path.basename(path) | Path(path).name |
| os.path.splitext(path)[1] | Path(path).suffix |
| os.path.dirname(path) | Path(path).parent |
| os.listdir(path) | Path(path).iterdir() |
建议:新项目优先使用 pathlib,但 os 模块在以下场景仍不可替代:
- • 系统命令执行(
os.system、os.popen)
十二、常见错误与避坑指南
12.1 路径中的反斜杠问题
# ❌ 错误写法(\t 会被解释为制表符)
path = "C:\temp\report.xlsx"
# ✅ 正确写法一:原始字符串
path = r"C:\temp\report.xlsx"
# ✅ 正确写法二:双反斜杠
path = "C:\\temp\\report.xlsx"
# ✅ 正确写法三:正斜杠(Windows 也支持)
path = "C:/temp/report.xlsx"
# ✅ 正确写法四:os.path.join(推荐)
path = os.path.join("C:", "temp", "report.xlsx")
12.2 相对路径的不确定性
# ❌ 问题:相对路径依赖当前工作目录,不同运行方式结果不同
os.listdir("data")
# ✅ 解决:使用脚本所在目录作为基准
script_dir = os.path.dirname(os.path.abspath(__file__))
data_dir = os.path.join(script_dir, "data")
os.listdir(data_dir)
12.3 遍历时的隐藏文件
# os.walk 会遍历隐藏目录,os.listdir 会列出隐藏文件
# 如果需要过滤,需要手动处理
for dirpath, dirnames, filenames in os.walk(root):
# 跳过隐藏目录(原地修改 dirnames 列表)
dirnames[:] = [d for d in dirnames ifnot d.startswith('.')]
for filename in filenames:
ifnot filename.startswith('.'):
# 处理文件
pass
12.4 权限不足
# 某些系统目录或正在使用的文件可能无法读取/删除
try:
os.remove("important_file.xlsx")
except PermissionError:
print("权限不足,文件可能正在被其他程序使用")
except FileNotFoundError:
print("文件不存在")
十三、速查表
| | |
| os.getcwd() | |
| os.chdir(path) | |
| os.listdir(path) | |
| os.makedirs(path) | |
| os.remove(path) | |
| os.rmdir(path) | |
| os.rename(src, dst) | |
| os.path.exists(path) | |
| os.path.isfile(path) | |
| os.path.isdir(path) | |
| os.path.getsize(path) | |
| os.path.getmtime(path) | |
| os.path.join(a, b) | |
| os.path.splitext(path) | |
| os.walk(top) | |
| os.system(cmd) | |
| os.environ.get(key) | |
| os.environ[key] = value | |
| os.path.abspath(path) | |
| os.path.expanduser("~") | |
十四、总结
os 模块是 Python 办公自动化不可或缺的基础工具。本文覆盖了从路径处理、文件操作、目录遍历到环境变量、系统命令等核心功能,并结合实际办公场景给出了多个可复用的代码示例。
关键要点回顾:
- 1. 路径操作:始终使用
os.path.join 拼接路径,避免手写分隔符 - 2. 目录遍历:
os.walk 是批量处理文件的核心武器 - 3. 安全检查:文件读写前先判断存在性,操作时捕获异常
- 4. 环境变量:用
os.environ 管理配置,避免硬编码 - 5. 与 pathlib 互补:
os 和 pathlib 各有优势,合理搭配使用
希望本文能帮助你在日常办公中更高效地使用 Python 的 os 模块,提升文件管理的自动化水平。
延伸阅读:
- • Python 官方文档 - os.path 模块
- • Python 官方文档 - pathlib 模块
- • Python 官方文档 - shutil 模块