
作为Python开发者,可能经常为了某个功能花费大量时间编写底层代码。然而,Python标准库早已准备了大量成熟、高效且经过严格测试的模块,覆盖了日常开发的绝大多数需求。盲目“重复造轮子”不仅浪费时间和精力,还可能引入难以察觉的错误和性能问题。本文介绍15个特别实用且能大幅提升代码质量的内置模块。掌握它们代码将变得更加精简、专业和易于维护。
往期阅读>>>
Python 自动化管理Jenkins的15个实用脚本,提升效率
App2Docker:如何无需编写Dockerfile也可以创建容器镜像
Python 自动化识别Nginx配置并导出为excel文件,提升Nginx管理效率
使用说明: 一个完善的日志系统是项目专业化的基石。 logging 模块提供了灵活的日志记录、分级、输出和格式化功能,是替代 print 进行调试和生产环境监控的绝佳选择。
场景: 任何需要记录运行状态、错误、警告或信息的小脚本、Web服务、定时任务等。
代码示例:
import logging# 基本配置:将INFO及以上级别日志输出到控制台logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')logger = logging.getLogger('MyApp')def process_data(data): logger.info(f'开始处理数据,大小:{len(data)}') try: # ... 业务逻辑 ... logger.debug('数据处理步骤1完成') # DEBUG级别可能需要额外配置level except Exception as e: logger.error(f'数据处理失败:{e}', exc_info=True) logger.info('数据处理完毕')process_data([1, 2, 3])
优点: 轻松实现日志分级(DEBUG, INFO, WARNING, ERROR, CRITICAL)、输出到不同目的地(文件/控制台/网络)、在配置层面统一管理格式,无需改动核心代码。
使用说明: 提供一个面向对象的API来处理文件系统路径,告别繁琐且容易出错的字符串拼接( os.path.join )。
场景: 构建、检索、检查和操作文件和目录路径。
代码示例:
from pathlib import Path# 优雅地拼接路径(跨平台兼容)project_root = Path.home() / 'projects' / 'my_app'config_file = project_root / 'config' / 'settings.yaml'# 检查路径和文件属性if config_file.exists() and config_file.is_file(): print(f"配置文件大小:{config_file.stat().st_size} 字节")# 遍历目录for py_file in project_root.rglob('*.py'): # 递归查找所有.py文件 print(py_file.relative_to(project_root)) # 输出相对路径# 创建新目录及其父目录log_dir = project_root / 'logs' / '2024'log_dir.mkdir(parents=True, exist_ok=True)
优点: 语法直观(使用 / 拼接),路径操作更像对象方法,自带大量便捷属性( .name , .stem , .suffix , .parent )。
使用说明: 轻松地为你的Python脚本创建专业、用户友好的命令行界面,自动生成帮助信息并进行参数验证。
场景: 任何可以通过命令行参数控制的工具,如数据处理脚本、批量重命名工具、定时任务触发器。
代码示例:
import argparsedef create_parser(): parser = argparse.ArgumentParser(description='一个文件处理工具示例') # 必需的位置参数 parser.add_argument('input_dir', type=str, help='输入目录的路径') # 可选参数 parser.add_argument('-o', '--output', default='./output', help='输出目录路径(默认:./output)') parser.add_argument('-r', '--recursive', action='store_true', help='是否递归处理子目录') # 带类型验证和选择的参数 parser.add_argument('--mode', choices=['copy', 'move', 'link'], default='copy', help='处理模式') parser.add_argument('--threads', type=int, default=1, help='并发线程数') return parserif __name__ == '__main__': parser = create_parser() args = parser.parse_args() print(f"将处理目录:{args.input_dir}") print(f"输出到:{args.output},模式:{args.mode}") if args.recursive: print("启用递归模式")
优点: 自动生成 –help 文档,支持参数类型检查、默认值、互斥参数组等高级功能,让脚本瞬间变得“正式”。
使用说明: 用于JSON(JavaScript Object Notation)格式数据的编码(序列化)和解码(反序列化)。JSON是现代应用中最常见的数据交换格式之一。
场景: Web API交互、配置文件读写、进程间通信。
代码示例:
import json# 序列化Python对象到JSON字符串data = { 'project': 'Demo', 'authors': ['Alice', 'Bob'], 'version': 1.2, 'config': {'debug': True}}json_str = json.dumps(data, indent=2, ensure_ascii=False) # 美化输出,支持中文print(json_str)# 将JSON字符串写文件config_path = Path('config.json')config_path.write_text(json_str, encoding='utf-8')# 从字符串或文件反序列化loaded_data = json.loads(json_str)loaded_from_file = json.loads(config_path.read_text(encoding='utf-8'))assert data == loaded_data
使用说明: 提供日期、时间、时间间隔等相关的类,是处理一切时间相关操作的官方标准。
场景: 日志时间戳、任务调度、时长计算、生日提醒、数据分析中的时间维度。
代码示例:
from datetime import datetime, date, timedelta# 获取当前时间(本地)和UTC时间now_local = datetime.now()now_utc = datetime.utcnow()print(f'本地时间: {now_local}')print(f'UTC时间: {now_utc}')# 时间的创建与格式化birthday = date(1990, 8, 15)appointment = datetime(2024, 10, 1, 14, 30)formatted = appointment.strftime('%Y年%m月%d日 %H:%M')print(f'预约时间: {formatted}')# 时间间隔计算new_date = appointment + timedelta(days=7, hours=3)time_diff = new_date - appointmentprint(f'七天三小时后的时间: {new_date}')print(f'时间差为: {time_diff}, 总计 {time_diff.total_seconds()} 秒')# 解析字符串为时间对象parsed_time = datetime.strptime('2024-01-01 12:00', '%Y-%m-%d %H:%M')
关键提醒: 处理时区时,考虑使用Python 3.9+内置的 zoneinfo 模块。
使用说明: 提供了一系列特殊用途的、高性能的容器数据类型,作为对内置列表、字典、元组和集合的补充。
场景:
defaultdict: 需要为不存在的键提供默认值的字典。想象一个分类汇总的场景。
Counter: 快速统计可哈希对象(如列表元素、单词)的出现次数。
deque: 高效的双端队列,适合频繁从两端添加或删除元素的场景。
namedtuple: 创建带有字段名的轻量级元组,提升代码可读性。
代码示例:
from collections import defaultdict, Counter, deque, namedtuple# 1. defaultdict - 分组统计dept_employees = defaultdict(list)employees = [('研发部', '张三'), ('市场部', '李四'), ('研发部', '王五')]for dept, name in employees: dept_employees[dept].append(name) # 无需判断key是否存在!print(dict(dept_employees))# 2. Counter - 词频统计words = ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']word_counts = Counter(words)print(f'最常见的两个词: {word_counts.most_common(2)}')# 3. deque - 维护最近十条记录recent_logs = deque(maxlen=10)for i in range(15): recent_logs.append(f'Log_{i}')print(f'最新的10条日志: {list(recent_logs)}') # Log_5 到 Log_14# 4. namedtuple - 清晰的坐标点Point = namedtuple('Point', ['x', 'y'])p = Point(10, 20)print(f'点坐标: ({p.x}, {p.y})') # 比 p[0], p[1] 清晰得多
使用说明: 提供了一系列用于创建和操作迭代器的函数,可以高效地处理数据流,实现无限序列、组合排列、分组等复杂逻辑。
场景: 惰性处理大型数据集、拆分批次、生成排列组合、实现滑动窗口。
代码示例:
import itertools# 1. 无限序列生成器counter = itertools.count(start=10, step=2) # 从10开始,步长为2的无限计数器print(list(next(counter) for _ in range(5))) # [10, 12, 14, 16, 18]# 2. 连接多个可迭代对象chained = itertools.chain([1, 2], 'AB', (i for i in range(3)))print(list(chained)) # [1, 2, 'A', 'B', 0, 1, 2]# 3. 分组操作(需先排序)data = sorted([('A', 1), ('B', 2), ('A', 3), ('B', 4)], key=lambda x: x[0](@ref)for key, group in itertools.groupby(data, key=lambda x: x[0](@ref): print(f'Key: {key}, Items: {list(group)}')# Key: A, Items: [('A', 1), ('A', 3)]# Key: B, Items: [('B', 2), ('B', 4)]# 4. 组合与排列print('所有两两组合:', list(itertools.combinations('ABC', 2))) # [('A','B'), ('A','C'), ('B','C')]print('所有排列:', list(itertools.permutations('AB', 2))) # [('A','B'), ('B','A')]
使用说明: 提供用于高阶函数(即操作或返回其他函数的函数)的工具,常用于函数装饰、缓存和部分参数应用。
场景:
lru_cache: 函数结果缓存,用于优化昂贵且被频繁调用的纯函数。
partial: “冻结”函数的部分参数,创建新函数。
wraps: 在编写装饰器时,保留原函数的元信息。
代码示例:
from functools import lru_cache, partial, wrapsimport time# 1. lru_cache - 缓存昂贵的函数调用@lru_cache(maxsize=32) # 最多缓存32个不同参数的结果def expensive_computation(n): print(f'计算 {n} ... (很慢)') time.sleep(1) return n * nprint(expensive_computation(5)) # 第一次慢print(expensive_computation(5)) # 第二次直接从缓存返回,快!print(expensive_computation.cache_info()) # 查看缓存命中情况# 2. partial - 创建预设部分参数的新函数def power(base, exponent): return base ** exponentsquare = partial(power, exponent=2) # 固定指数为2,即平方函数cube = partial(power, exponent=3) # 固定指数为3,即立方函数print(f'5的平方: {square(5)}')print(f'5的立方: {cube(5)}')# 3. wraps - 编写更好的装饰器def my_decorator(func): @wraps(func) # 将原函数的 __name__, __doc__ 等属性复制到包装函数 def wrapper(*args, **kwargs): print(f'调用函数: {func.__name__}') return func(*args, **kwargs) return wrapper@my_decoratordef say_hello(): """这是一个打招呼的函数。""" print('Hello!')print(say_hello.__name__) # 输出 'say_hello' 而不是 'wrapper'print(say_hello.__doc__) # 输出原文档字符串
使用说明: 提供了 ThreadPoolExecutor 和 ProcessPoolExecutor 高级接口,能以极简的代码实现线程池和进程池,进行并发任务处理。
场景:
ThreadPoolExecutor: I/O密集型任务,如网络请求、文件读写。
ProcessPoolExecutor: CPU密集型任务,如图像处理、数学计算。
代码示例:
from concurrent.futures import ThreadPoolExecutor, as_completedimport requestsdef fetch_url(url): try: resp = requests.get(url, timeout=5) return url, len(resp.content), resp.status_code except Exception as e: return url, 0, str(e)urls = [' https://www.python.org', ' https://httpbin.org/get', ' https://www.github.com' ]# 使用线程池并发获取with ThreadPoolExecutor(max_workers=3) as executor: future_to_url = {executor.submit(fetch_url, url): url for url in urls} for future in as_completed(future_to_url): url, length, status = future.result() print(f'{url} -> 长度: {length}, 状态: {status}')
核心优势: submit 提交任务、 as_completed 按完成顺序获取结果、 map 简化操作,使并发编程的门槛大大降低。
使用说明: 通过一个装饰器,自动为你生成 init 、 repr 、 eq 等特殊方法,用于创建主要目的是存储数据的类。
场景: 配置文件对象、API返回的数据模型、数据库ORM的映射类。
代码示例:
from dataclasses import dataclass, field, asdict, astuplefrom typing import Listfrom datetime import datetime@dataclass(order=True) # order=True 会生成比较方法,用于排序class Product: id: int name: str price: float tags: List[str] = field(default_factory=list) # 默认值为空列表的推荐写法 created_at: datetime = field(default_factory=datetime.now) # 隐藏一个内部字段,不在 __repr__ 中显示 _internal_id: str = field(default='', repr=False)# 自动生成构造函数!p1 = Product(id=101, name='笔记本电脑', price=6999.99, tags=['电子', '电脑'])p2 = Product(id=102, name='鼠标', price=99.5)print(p1) # Product(id=101, name='笔记本电脑', price=6999.99, tags=['电子', '电脑'], created_at=...)print(p1 == p2) # False (自动生成的 __eq__)# 转换为字典或元组(便于序列化)print(asdict(p1))print(astuple(p1))
使用说明: pathlib 的完美搭档,提供了对文件和目录集合进行高级操作的接口,如复制、移动、删除、归档。
场景: 批量文件处理、备份脚本、打包发布。
代码示例:
import shutilfrom pathlib import Pathsrc = Path('/tmp/src_dir')dst = Path('/tmp/dst_dir')# 递归复制整个目录树(保持文件元数据)shutil.copytree(src, dst / 'backup')# 创建归档(支持zip, tar等格式)archive_name = shutil.make_archive('/tmp/my_backup', 'zip', root_dir=dst / 'backup')# 递归删除目录shutil.rmtree('/tmp/to_be_deleted', ignore_errors=True)
使用说明: 虽然Python是动态语言,但 typing 模块支持为变量、函数参数和返回值添加类型提示,可大幅提升代码可读性、可维护性,并借助IDE获得更好的代码补全和错误检查。
场景: 所有希望代码更清晰、减少类型相关Bug的项目,尤其适合团队协作和大型项目。
代码示例:
from typing import List, Dict, Optional, Union, Callabledef process_users(users: List[Dict[str, Union[str, int]]], callback: Optional[Callable[[Dict], bool]] = None) -> int: """处理用户列表,返回成功处理的用户数。""" count = 0 for user in users: if callback is None or callback(user): # ... 处理逻辑 ... count += 1 return count# 使用 TypedDict 定义字典结构 (Python 3.8+)from typing import TypedDictclass UserData(TypedDict): id: int name: str email: strdef send_email(user: UserData) -> None: print(f"发送邮件给 {user['name']} 到 {user['email']}") # IDE可以提供补全
使用说明: Python的正则表达式模块,功能强大,用于复杂的字符串匹配、查找、替换和分割。
场景: 日志解析、数据清洗、URL/邮箱验证、模板引擎。
代码示例:
import retext = "联系电话: 张三 138-0013-8000, 李四 (021) 8765-4321 分机 123"# 查找所有手机号模式phone_pattern = r'1[3-9]\d{9}|\d{3}-\d{4}-\d{4}' # 简易示例phones = re.findall(phone_pattern, text)print(f'找到的电话号码: {phones}')# 替换文本new_text = re.sub(r'\d{4}$', 'XXXX', text) # 将末尾四位数字替换为XXXXprint(new_text)# 使用预编译模式提高效率(多次使用同一模式时)pattern = re.compile(r'\b[A-Z][a-z]+\b') # 匹配首字母大写的单词matches = pattern.findall("Hello World from Python!")print(matches)
这两个模块通常是搭配使用的底层工具集。
sys : 访问与Python解释器及其环境交互的变量和函数。
import sysprint(f'Python版本: {sys.version}')print(f'命令行参数: {sys.argv}')sys.exit(1) # 退出程序并返回错误码
os : 提供了丰富的函数来与操作系统(尤其是文件系统)进行交互,是 pathlib 和 shutil 部分功能的底层实现。
import osprint(f'当前工作目录: {os.getcwd()}')os.chdir('/tmp') # 改变当前工作目录# 环境变量api_key = os.environ.get('MY_API_KEY')if api_key: print('找到API密钥')# 执行系统命令(谨慎使用)os.system('echo Hello from OS')
这两个模块让你无需安装第三方库就能处理常见的数据存储需求。
csv : 读写CSV(逗号分隔值)文件。
import csvfrom pathlib import Pathdata = [['姓名', '年龄', '城市'], ['张三', 25, '北京'], ['李四', 30, '上海']]csv_file = Path('people.csv')# 写with csv_file.open('w', newline='', encoding='utf-8-sig') as f: writer = csv.writer(f) writer.writerows(data)# 读with csv_file.open('r', encoding='utf-8-sig') as f: reader = csv.DictReader(f) # 按字典读取,键为标题行 for row in reader: print(row)
sqlite3 : 内置的嵌入式SQL数据库,零配置、无服务器。
import sqlite3# 连接数据库(不存在则创建)conn = sqlite3.connect('my_app.db')cursor = conn.cursor()# 创建表cursor.execute('''CREATE TABLE IF NOT EXISTS users ( id INTEGER PRIMARY KEY AUTOINCREMENT, username TEXT NOT NULL UNIQUE, email TEXT)''')# 插入数据cursor.execute("INSERT INTO users (username, email) VALUES (?, ?)", ('alice', 'alice@example.com'))conn.commit() # 提交事务# 查询数据cursor.execute("SELECT * FROM users")for row in cursor.fetchall(): print(row)conn.close()
15个模块覆盖了开发中最常见的需求:日志、文件、命令行、数据、时间、并发、类型、文本处理和简单存储。养成“先查标准库”的习惯,当准备解决一个问题时,先打开浏览器,搜索一下 python standard library for [需求] ,很可能一个完美的轮子可以直接调用:
1、更高的效率:直接使用成熟方案,节省大量开发时间。
2、更少的错误:标准库经过广泛测试,比自造轮子更稳定。
3、更专业的代码:使用公认的、最佳实践的库,提升代码质量。
4、更好的可维护性:标准库的API广为人知,便于他人理解和接手。

想高效学习Python?下面三本精选好书满足你的不同需求!
《流畅的Python(第2版)》——Python进阶必读!深入讲解高级特性与最佳实践,适合想精进的开发者。
《Python从新手到高手》:初学者首选,系统学习全栈技能。
《Python数据分析:从零基础入门到案例实战》——数据科学利器!手把手教你用Python处理数据,实战案例学完就能用。
三本书均支持先用后付、运费险和7天无理由退货,放心购买!点击“购买”按钮,立即开启你的Python学习之旅吧!
https://ima.qq.com/wiki/?shareId=f2628818f0874da17b71ffa0e5e8408114e7dbad46f1745bbd1cc1365277631c