🐍 os 与 pathlib — 文件目录操作一把梭
🕐 预计用时:2-3 小时 | 🎯 目标:掌握文件/目录操作、路径处理、遍历目录、环境变量
📖 今日目录
- os.path 路径处理 — 拼接、判断、获取大小
- 遍历目录 — os.walk 与 os.scandir
- pathlib 常用操作 — exists/glob/mkdir/rename
- pathlib 读写文件 — read_text/write_text
- 环境变量 — os.environ 与 os.getenv
1. os 模块基础 — 系统信息与当前目录
os 模块是 Python 与操作系统交互的桥梁——文件、目录、环境变量、进程,全靠它。
import os
# 操作系统类型
print(os.name) # 'posix' (Linux/Mac) 或 'nt' (Windows)
# 当前工作目录
print(os.getcwd()) # /root/.openclaw/workspace
# 列出当前目录下的文件和文件夹
print(os.listdir()) # ['students.csv', 'config.json', 'output.csv', ...]
# 列出指定目录
print(os.listdir("/tmp")) # ['openclaw', 'video.mp4', ...]
系统信息
import os
# 环境变量中的路径
print(os.environ.get("HOME")) # /root
print(os.environ.get("PATH")) # /usr/local/sbin:/usr/local/bin:...
# 当前用户名
print(os.getlogin()) # root
# 当前进程 ID
print(os.getpid()) # 12345
# 路径分隔符(Windows 是 \,Linux/Mac 是 /)
print(os.sep) # /
# 路径分隔符(Windows 是 ;,Linux/Mac 是 :)
print(os.pathsep) # :
💡 os.name vs platform 模块:
os.name 只返回 'posix'/'nt'/'java',更详细的系统信息用 platform 模块:
import platform; print(platform.system()) → 'Linux'/'Windows'/'Darwin'
2. 文件操作 — 重命名、删除、获取信息
重命名与删除
import os
# 先创建一个测试文件
with open("test_file.txt", "w") as f:
f.write("Hello, os module!")
# 重命名文件
os.rename("test_file.txt", "renamed.txt")
print("重命名完成") # test_file.txt → renamed.txt
# 删除文件
os.remove("renamed.txt") # 或 os.unlink("renamed.txt")
print("删除完成")
# ⚠️ 删除不存在的文件会报 FileNotFoundError
# os.remove("not_exist.txt") # FileNotFoundError
安全删除(先检查再删)
import os
def safe_remove(filepath):
"""安全删除文件"""
if os.path.exists(filepath):
os.remove(filepath)
print(f"✅ 已删除: {filepath}")
else:
print(f"⚠️ 文件不存在: {filepath}")
safe_remove("not_exist.txt") # ⚠️ 文件不存在: not_exist.txt
safe_remove("some_file.txt") # ✅ 已删除: some_file.txt
获取文件信息
import os
from datetime import datetime
# 创建测试文件
with open("info_test.txt", "w") as f:
f.write("Hello World!")
# 获取文件状态信息
stat = os.stat("info_test.txt")
print(f"文件大小: {stat.st_size} 字节") # 12
print(f"创建时间: {datetime.fromtimestamp(stat.st_ctime)}")
print(f"修改时间: {datetime.fromtimestamp(stat.st_mtime)}")
print(f"访问时间: {datetime.fromtimestamp(stat.st_atime)}")
# 简写:只获取大小
print(f"大小: {os.path.getsize('info_test.txt')} 字节") # 12
# 判断类型
print(os.path.isfile("info_test.txt")) # True(是文件)
print(os.path.isdir("info_test.txt")) # False(不是目录)
os.remove("info_test.txt")
3. 目录操作 — 创建、删除、切换
创建目录
import os
# 创建单层目录
os.mkdir("test_dir")
print("创建目录 test_dir")
# 创建多层嵌套目录
os.makedirs("parent/child/grandchild", exist_ok=True)
print("创建嵌套目录 parent/child/grandchild")
# exist_ok=True 表示目录已存在时不报错
os.makedirs("parent/child/grandchild", exist_ok=True) # 不报错
# ❌ 不加 exist_ok,目录已存在会报错
# os.makedirs("parent/child/grandchild") # FileExistsError
删除目录
import os
# 删除空目录
os.rmdir("test_dir")
print("删除空目录 test_dir")
# 删除多层空目录(从内到外)
os.removedirs("parent/child/grandchild")
print("删除嵌套目录")
# ⚠️ rmdir 只能删空目录,目录非空会报错
# os.rmdir("some_dir_with_files") # OSError: Directory not empty
切换与创建临时目录
import os
import tempfile
# 切换工作目录
original_dir = os.getcwd()
os.chdir("/tmp")
print(f"切换到: {os.getcwd()}")
os.chdir(original_dir) # 切回来
# 获取用户的 home 目录
home = os.path.expanduser("~")
print(f"Home: {home}") # /root
# 创建临时目录
tmp_dir = tempfile.mkdtemp()
print(f"临时目录: {tmp_dir}") # /tmp/tmpXXXXXX
# 用完清理
os.rmdir(tmp_dir)
4. os.path 路径处理 — 拼接、判断、获取大小
os.path 是路径处理的瑞士军刀——拼接、拆分、判断存在性,全在这。
路径拼接
import os
# ❌ 错误做法:字符串拼接(跨平台会出问题)
path = "/home/user" + "/" + "file.txt" # Linux 可以,Windows 不行
# ✅ 正确做法:os.path.join
path = os.path.join("/home", "user", "file.txt")
print(path) # /home/user/file.txt
# Windows 上会自动用反斜杠:
# C:\Users\user\file.txt
路径拆分
import os
path = "/home/user/documents/report.pdf"
# 获取目录部分
print(os.path.dirname(path)) # /home/user/documents
# 获取文件名部分
print(os.path.basename(path)) # report.pdf
# 同时获取目录和文件名
dir_part, file_part = os.path.split(path)
print(f"目录: {dir_part}") # 目录: /home/user/documents
print(f"文件: {file_part}") # 文件: report.pdf
# 分离扩展名
name, ext = os.path.splitext("report.pdf")
print(f"名称: {name}") # 名称: report
print(f"扩展名: {ext}") # 扩展名: .pdf
# 获取文件名不含扩展名
print(os.path.splitext(os.path.basename(path))[0]) # report
路径判断
import os
# 判断路径是否存在
print(os.path.exists("/root")) # True
print(os.path.exists("/not_exist")) # False
# 判断是文件还是目录
print(os.path.isfile("/root/.bashrc")) # True(文件)
print(os.path.isdir("/root")) # True(目录)
# 判断是否是绝对路径
print(os.path.isabs("/home/user")) # True
print(os.path.isabs("relative/path")) # False
# 获取绝对路径
print(os.path.abspath(".")) # /root/.openclaw/workspace
print(os.path.abspath("test.txt")) # /root/.openclaw/workspace/test.txt
文件大小
import os
def get_size(path):
"""获取文件或目录的大小"""
if os.path.isfile(path):
size = os.path.getsize(path)
elif os.path.isdir(path):
size = sum(
os.path.getsize(os.path.join(dirpath, f))
for dirpath, dirnames, filenames in os.walk(path)
for f in filenames
)
else:
return 0
# 人类友好的大小
for unit in ['B', 'KB', 'MB', 'GB']:
if size < 1024:
return f"{size:.1f} {unit}"
size /= 1024
return f"{size:.1f} TB"
print(get_size("/root/.openclaw/workspace")) # 例如: 15.3 MB
💡 os.path 速查表:
join(a, b)→ 拼接路径
dirname(path)→ 目录部分
basename(path)→ 文件名部分
splitext(path)→ (名称, 扩展名)
exists(path)→ 是否存在
isfile(path)→ 是否是文件
isdir(path)→ 是否是目录
getsize(path) → 文件大小(字节)
5. 遍历目录 — os.walk 与 os.scandir
遍历目录是最常用的操作之一——统计文件、搜索特定文件、批量处理。
os.walk — 递归遍历(最常用)
import os
# os.walk 生成三元组: (当前目录路径, 子目录列表, 文件列表)
for dirpath, dirnames, filenames in os.walk("/root/.openclaw/workspace"):
print(f"\n📂 {dirpath}")
for dirname in dirnames:
print(f" 📁 [目录] {dirname}")
for filename in filenames:
filepath = os.path.join(dirpath, filename)
size = os.path.getsize(filepath)
print(f" 📄 {filename} ({size} bytes)")
# 只遍历前2层(防止输出太多)
if dirpath.count(os.sep) - "/root/.openclaw/workspace".count(os.sep) >= 2:
break
实战:统计目录中的文件类型
import os
from collections import Counter
def count_file_types(root_dir):
"""统计目录下各类型的文件数量"""
ext_counter = Counter()
total_size = 0
for dirpath, dirnames, filenames in os.walk(root_dir):
for f in filenames:
filepath = os.path.join(dirpath, f)
name, ext = os.path.splitext(f)
ext_counter[ext.lower()] += 1
total_size += os.path.getsize(filepath)
print(f"📊 目录统计: {root_dir}")
print(f" 总文件数: {sum(ext_counter.values())}")
print(f" 总大小: {total_size / 1024 / 1024:.2f} MB")
print(f" 文件类型分布:")
for ext, count in ext_counter.most_common(10):
print(f" {ext or '(无扩展名)'}: {count} 个")
count_file_types("/root/.openclaw/workspace")
os.scandir — 非递归扫描(更快)
import os
# scandir 比 listdir 更高效(减少系统调用)
with os.scandir("/root/.openclaw/workspace") as entries:
for entry in entries:
if entry.is_file():
print(f"📄 {entry.name} ({entry.stat().st_size} bytes)")
elif entry.is_dir():
print(f"📁 {entry.name}/")
⚠️ os.walk vs os.scandir:
• os.walk → 递归遍历所有子目录(找所有文件)
• os.scandir → 只看当前一层(速度快,不递归)
• 只需当前目录 → scandir;需要所有子目录 → walk
6. pathlib 入门 — 现代路径操作
pathlib 是 Python 3.4+ 引入的现代路径库——用面向对象的方式操作路径,比 os.path 更优雅。
from pathlib import Path
# 创建 Path 对象
p = Path("/home/user/documents/report.pdf")
# 属性访问(比 os.path 更直观)
print(p.name) # report.pdf(文件名)
print(p.stem) # report(不含扩展名)
print(p.suffix) # .pdf(扩展名)
print(p.parent) # /home/user/documents(父目录)
print(p.parents[0]) # /home/user/documents
print(p.parents[1]) # /home/user
print(p.parts) # ('/', 'home', 'user', 'documents', 'report.pdf')
# 当前目录和 home 目录
print(Path.cwd()) # /root/.openclaw/workspace
print(Path.home()) # /root
路径拼接 — 用 / 运算符
from pathlib import Path
# ✅ 用 / 拼接路径(比 os.path.join 更优雅)
base = Path("/home/user")
filepath = base / "documents" / "report.pdf"
print(filepath) # /home/user/documents/report.pdf
# 也可以用 /
doc_dir = Path.home() / "Documents"
print(doc_dir) # /root/Documents
# 拼接文件名
project = Path("/project")
for name in ["main.py", "utils.py", "config.json"]:
print(project / "src" / name)
# /project/src/main.py
# /project/src/utils.py
# /project/src/config.json
💡 pathlib 的最大优势:用 / 运算符拼接路径,比 os.path.join() 更直观、更 Pythonic!
7. pathlib 常用操作 — exists/glob/mkdir/rename
判断与查询
from pathlib import Path
p = Path("/root/.bashrc")
# 判断存在性
print(p.exists()) # True
print(p.is_file()) # True
print(p.is_dir()) # False
print(p.is_absolute()) # True
# 文件大小
print(p.stat().st_size) # 文件大小(字节)
# 获取匹配的文件
py_files = list(Path("/root/.openclaw/workspace").glob("*.py"))
print(f"Python 文件: {py_files}")
glob 模式匹配
from pathlib import Path
workspace = Path("/root/.openclaw/workspace")
# glob() — 当前目录匹配
for p in workspace.glob("*.md"):
print(f"📄 {p.name}")
# 📄 MEMORY.md
# 📄 USER.md
# 📄 SOUL.md
# ...
# rglob() — 递归匹配所有子目录
for p in workspace.rglob("*.html"):
print(f"📄 {p.relative_to(workspace)}")
# Python-100天/day01.html
# Python-100天/day02.html
# ...
# 通配符模式
for p in workspace.glob("**/*.py"): # 等价于 rglob
print(p)
# 匹配特定模式
for p in workspace.glob("day[0-9]*.html"):
print(p.name)
创建与重命名
from pathlib import Path
# 创建目录
Path("new_dir").mkdir(exist_ok=True)
# 创建多层目录
Path("a/b/c").mkdir(parents=True, exist_ok=True)
# 创建文件
Path("new_file.txt").touch()
# 重命名
Path("new_file.txt").rename("renamed_file.txt")
# 删除文件
Path("renamed_file.txt").unlink() # unlink() = remove()
# 删除空目录
Path("new_dir").rmdir()
# 删除目录树(递归删除,危险!)
import shutil
shutil.rmtree("a") # 删除整个 a/ 目录
8. pathlib 读写文件 — read_text/write_text
pathlib 可以直接读写文件,不需要 open()——简洁到令人发指。
from pathlib import Path
# 写入文本文件
p = Path("demo.txt")
p.write_text("Hello, pathlib!", encoding="utf-8")
# 读取文本文件
content = p.read_text(encoding="utf-8")
print(content) # Hello, pathlib!
# 写入二进制文件
p_bin = Path("demo.bin")
p_bin.write_bytes(b"\x00\x01\x02\x03")
# 读取二进制文件
data = p_bin.read_bytes()
print(data) # b'\x00\x01\x02\x03'
# 追加内容(pathlib 没有 append 方法,用 open)
with p.open("a", encoding="utf-8") as f:
f.write("\nAppended line!")
# 清理
p.unlink()
p_bin.unlink()
对比:pathlib vs os.path 读写文件
from pathlib import Path
# ---- 旧方式 (os.path) ----
import os
filepath = os.path.join("/tmp", "test.txt")
with open(filepath, "w", encoding="utf-8") as f:
f.write("Hello")
with open(filepath, "r", encoding="utf-8") as f:
content = f.read()
# ---- 新方式 (pathlib) ----
filepath = Path("/tmp") / "test.txt"
filepath.write_text("Hello", encoding="utf-8")
content = filepath.read_text(encoding="utf-8")
# pathlib 少了 3 行代码!
💡 pathlib 读写适合小文件,大文件还是用 open() + with 语句,因为 pathlib 的 read_text() 会一次性加载全部内容到内存。
9. 环境变量 — os.environ 与 os.getenv
环境变量是程序配置的重要来源——数据库密码、API Key、运行环境等敏感信息不写死在代码里。
import os
# 获取所有环境变量
for key, value in os.environ.items():
if key.startswith("HOME") or key.startswith("PATH"):
print(f"{key} = {value[:80]}...") # 只显示前80字符
# 获取单个环境变量
home = os.environ.get("HOME") # 不存在返回 None
path = os.environ.get("PATH") # PATH 环境变量
shell = os.environ.get("SHELL") # /bin/bash
# 获取环境变量(带默认值)
db_host = os.environ.get("DB_HOST", "localhost")
db_port = int(os.environ.get("DB_PORT", "3306"))
debug = os.environ.get("DEBUG", "false").lower() == "true"
print(f"DB: {db_host}:{db_port}, Debug: {debug}")
设置环境变量
import os
# 在当前进程中设置环境变量
os.environ["MY_APP_MODE"] = "development"
os.environ["MY_APP_PORT"] = "8080"
# 验证
print(os.environ["MY_APP_MODE"]) # development
# 删除环境变量
del os.environ["MY_APP_MODE"]
# 检查是否存在
print("MY_APP_MODE" in os.environ) # False
实战:配置管理
import os
class Config:
"""从环境变量读取配置"""
def __init__(self):
self.DEBUG = os.getenv("DEBUG", "false").lower() == "true"
self.DATABASE_URL = os.getenv("DATABASE_URL", "sqlite:///app.db")
self.SECRET_KEY = os.getenv("SECRET_KEY", "dev-secret-key")
self.PORT = int(os.getenv("PORT", "5000"))
self.LOG_LEVEL = os.getenv("LOG_LEVEL", "INFO")
def __repr__(self):
return f"Config(debug={self.DEBUG}, port={self.PORT})"
config = Config()
print(config) # Config(debug=False, port=5000)
⚠️ 安全提示:不要把 API Key、数据库密码等硬编码在代码中!用环境变量或 .env 文件管理敏感配置。
推荐用 python-dotenv 库从 .env 文件加载环境变量。
10. 实战:批量文件统计工具 + 目录清理器
批量文件统计工具
import os
from pathlib import Path
from collections import Counter, defaultdict
from datetime import datetime
def file_stats(root_dir):
"""生成目录的详细统计报告"""
root = Path(root_dir)
if not root.exists():
print(f"❌ 目录不存在: {root_dir}")
return
ext_counter = Counter()
ext_sizes = defaultdict(int)
total_files = 0
total_dirs = 0
total_size = 0
oldest_file = None
newest_file = None
for dirpath, dirnames, filenames in os.walk(root):
total_dirs += len(dirnames)
for f in filenames:
filepath = Path(dirpath) / f
try:
stat = filepath.stat()
size = stat.st_size
mtime = stat.st_mtime
except (OSError, PermissionError):
continue
total_files += 1
total_size += size
ext = filepath.suffix.lower()
ext_counter[ext] += 1
ext_sizes[ext] += size
if oldest_file is None or mtime < oldest_file[1]:
oldest_file = (str(filepath), mtime)
if newest_file is None or mtime > newest_file[1]:
newest_file = (str(filepath), mtime)
# 输出报告
print("=" * 50)
print(f"📊 目录统计报告: {root_dir}")
print("=" * 50)
print(f"📁 目录总数: {total_dirs}")
print(f"📄 文件总数: {total_files}")
print(f"💾 总大小: {total_size / 1024 / 1024:.2f} MB")
if oldest_file:
print(f"📅 最旧文件: {oldest_file[0]} ({datetime.fromtimestamp(oldest_file[1])})")
if newest_file:
print(f"📅 最新文件: {newest_file[0]} ({datetime.fromtimestamp(newest_file[1])})")
print(f"\n📋 文件类型 TOP 10:")
for ext, count in ext_counter.most_common(10):
size_mb = ext_sizes[ext] / 1024 / 1024
print(f" {ext or '(无扩展名)':12s} {count:4d} 个 {size_mb:8.2f} MB")
# 使用
file_stats("/root/.openclaw/workspace")
目录清理器
import os
import time
from pathlib import Path
def cleanup_old_files(directory, days=30, dry_run=True):
"""清理超过指定天数的文件"""
target = Path(directory)
cutoff = time.time() - (days * 86400)
removed = []
for filepath in target.rglob("*"):
if not filepath.is_file():
continue
mtime = filepath.stat().st_mtime
if mtime < cutoff:
size = filepath.stat().st_size
age_days = int((time.time() - mtime) / 86400)
if dry_run:
print(f"🔍 [模拟] 将删除: {filepath.name} ({age_days}天前, {size}B)")
else:
filepath.unlink()
print(f"🗑️ 已删除: {filepath.name}")
removed.append(str(filepath))
print(f"\n{'模拟' if dry_run else '实际'}清理: {len(removed)} 个文件")
return removed
# 先模拟运行(不实际删除)
cleanup_old_files("/tmp", days=7, dry_run=True)
# 确认后实际删除
# cleanup_old_files("/tmp", days=7, dry_run=False)
11. os vs pathlib 对比与选型
| | |
|---|
| os.getcwd() | Path.cwd() |
| os.path.expanduser("~") | Path.home() |
| os.path.join(a, b) | Path(a) / b |
| os.path.basename(p) | Path(p).name |
| os.path.dirname(p) | Path(p).parent |
| os.path.splitext(p)[1] | Path(p).suffix |
| os.path.exists(p) | Path(p).exists() |
| os.makedirs(p) | Path(p).mkdir(parents=True) |
| os.walk(p) | Path(p).rglob("*") |
| open(p).read() | Path(p).read_text() |
| open(p, "w").write(s) | Path(p).write_text(s) |
| os.remove(p) | Path(p).unlink() |
💡 选型建议:
• 新项目 → 用 pathlib(更 Pythonic)
• 维护旧代码 → 继续用 os(保持一致性)
• 需要 os.walk 递归遍历 → os 更方便
• 简单路径操作 → pathlib 更简洁
• 两者可以混用:Path(os.getcwd())
12. 今日小结
os 模块核心
- ✅
os.getcwd() 当前目录,os.listdir() 列出文件 - ✅
os.mkdir/makedirs 创建目录,os.rmdir/removedirs 删除 - ✅
os.rename/remove 重命名/删除文件 - ✅
os.path.join 拼接路径,os.path.exists 判断存在 - ✅
os.walk 递归遍历,os.scandir 快速扫描 - ✅
os.environ.get("KEY", "default") 读取环境变量
pathlib 核心
- ✅
Path(p) / "子路径" 用 / 拼接路径 - ✅
.name/.stem/.suffix/.parent 路径属性 - ✅
.exists()/.is_file()/.is_dir() 判断 - ✅
.read_text()/.write_text() 直接读写 - ✅
.mkdir(parents=True, exist_ok=True) 创建目录
🎯 练习建议:
1. 写一个函数,递归统计某个目录下各类型文件的数量和大小
2. 写一个"文件查找器":按扩展名、大小范围、修改时间筛选文件
3. 写一个"目录同步器":比较两个目录的差异,找出新增/删除/修改的文件
📚 Day31 完成!明天进入综合练习 — 批量文件重命名工具 + 日志分析器