—— 替代 Pandas 的正确姿势
本文是《DuckDB:从上手到内核》系列的第 3 篇。如果你是 Python 数据工程师,这篇是为你量身写的——DuckDB 怎么跟 Pandas、Polars、Jupyter 配合,以及什么时候该用它替代 Pandas。
Pandas 用了这么多年,为什么要换?
先说清楚:我们不是要"干掉"Pandas,而是在 Pandas 力不从心的地方找帮手。
Pandas 的三个经典痛点:
1.内存杀手:读一个 2GB 的 CSV,Pandas 可能吃掉 6GB 内存(因为类型推断和 object 列的开销)2.大数据 JOIN 慢:两个百万行 DataFrame 做 merge,卡半天3.表达能力受限:窗口函数、复杂子查询——用 Pandas 的链式调用写出来像天书
DuckDB 在这三个场景上都有明显优势。更重要的是,它不需要你放弃 Pandas——两者可以在同一个脚本里无缝配合。
DuckDB Python API 全景
根据 DuckDB Python API 文档[1],核心 API 就这几个:
import duckdb# 1. 连接(默认是内存数据库)con = duckdb.connect() # 内存数据库con = duckdb.connect('my.duckdb') # 持久化数据库# 2. 执行查询(两种写法)result = duckdb.sql("SELECT 42") # 模块级(用全局连接)result = con.sql("SELECT 42") # 连接级# 3. 获取结果(多种格式)result.show() # 直接打印表格result.fetchall() # 返回 Python listresult.df() # 返回 Pandas DataFrameresult.pl() # 返回 Polars DataFrameresult.arrow() # 返回 Arrow Tableresult.fetchnumpy() # 返回 NumPy 字典# 4. 直接读文件duckdb.read_csv('data.csv')duckdb.read_parquet('data.parquet')duckdb.read_json('data.json')
图 1:DuckDB Python API 数据交互架构
┌───────────────────────────────────────────────────┐│ 你的 Python 脚本 ││ ││ ┌──────────┐ ┌──────────┐ ┌──────────┐ ││ │ Pandas │ │ Polars │ │ Arrow │ ││ │ DataFrame │ │DataFrame │ │ Table │ ││ └─────┬────┘ └────┬─────┘ └────┬─────┘ ││ │ │ │ ││ └──────┬──────┘──────────────┘ ││ │ (零拷贝 / 自动检测) ││ ▼ ││ ┌────────────────┐ ││ │ DuckDB SQL │ ←── SQL 查询 ││ │ Engine │ ││ └───────┬────────┘ ││ │ ││ ┌────────┼─────────┐ ││ ▼ ▼ ▼ ││ .csv .parquet .json ← 直接查文件 │└───────────────────────────────────────────────────┘
几个要点:
•duckdb.sql() 返回的是一个 Relation 对象,不是立即执行——它是"懒"的。只有当你调用 .show()、.df() 等方法时才真正计算。•模块级方法(duckdb.sql())用的是一个全局共享连接。如果你在开发库或包,建议用 con = duckdb.connect() 创建独立连接。
核心场景 1:直接查询 Pandas DataFrame
这是 DuckDB 最让人惊喜的能力——Python 变量名就是 SQL 表名。
import duckdbimport pandas as pd# 创建两个 DataFrameorders = pd.DataFrame({ 'order_id': [1, 2, 3, 4, 5], 'customer_id': [101, 102, 101, 103, 102], 'amount': [250, 130, 80, 420, 310], 'status': ['shipped', 'pending', 'shipped', 'shipped', 'cancelled']})customers = pd.DataFrame({ 'id': [101, 102, 103], 'name': ['Alice', 'Bob', 'Charlie'], 'city': ['Beijing', 'Shanghai', 'Shenzhen']})# 直接用 SQL 查询 DataFrame!result = duckdb.sql(""" SELECT c.name, c.city, COUNT(*) AS order_count, SUM(o.amount) AS total_spent FROM orders o JOIN customers c ON o.customer_id = c.id WHERE o.status = 'shipped' GROUP BY c.name, c.city ORDER BY total_spent DESC""").df()print(result)
输出:
name city order_count total_spent0 Charlie Shenzhen 1 4201 Alice Beijing 2 330
注意:不需要 CREATE TABLE,不需要 register。DuckDB 直接从 Python 的命名空间里找到了 orders 和 customers 这两个变量。
这种"SQL 查 DataFrame"的模式在几个场景下特别有用:
•两个 DataFrame 做 JOIN(Pandas 的 merge 语法不直观,尤其是多表 JOIN)•复杂的 GROUP BY + 窗口函数(SQL 写起来比 Pandas 链式调用清晰得多)•数据清洗中的条件过滤和转换
核心场景 2:大文件处理——Pandas 内存爆了?
问题:你有一个 2GB 的 CSV 文件,Pandas read_csv 直接把内存吃到 8GB,然后 OOM(Out of Memory)。
DuckDB 方案:DuckDB 不需要把整个文件加载到内存。它可以流式处理,内存占用远低于 Pandas。
import duckdbimport time# ---- DuckDB 方式 ----start = time.time()result = duckdb.sql(""" SELECT DATE_TRUNC('month', event_date::DATE) AS month, event_type, COUNT(*) AS event_count, COUNT(DISTINCT user_id) AS unique_users FROM 'large_events.csv' GROUP BY ALL ORDER BY month, event_count DESC""").df()print(f"DuckDB: {time.time() - start:.2f}s, 结果 {len(result)} 行")# ---- Pandas 方式(对比) ----import pandas as pdstart = time.time()df = pd.read_csv('large_events.csv', parse_dates=['event_date'])result2 = (df.groupby([df.event_date.dt.to_period('M'), 'event_type']) .agg(event_count=('event_type', 'count'), unique_users=('user_id', 'nunique')) .sort_values(['event_date', 'event_count'], ascending=[True, False]) .reset_index())print(f"Pandas: {time.time() - start:.2f}s, 结果 {len(result2)} 行")
在我的测试环境(M2 MacBook Pro, 16GB RAM, Python 3.11, DuckDB 1.5.0, Pandas 2.2)上,处理一个 1.5GB 的 CSV 文件(约 2000 万行):
DuckDB 快了约 9 倍,内存只用了不到 1/10。 而且 SQL 写法比 Pandas 的链式调用更容易读懂(这个见仁见智,但对复杂逻辑来说 SQL 通常更清晰)。
核心场景 3:窗口函数——Pandas 写不出的分析逻辑
有些分析需求,用 Pandas 写起来极其别扭,但用 SQL 的窗口函数几行就搞定。
需求:计算每个用户的订单金额排名,以及与前一笔订单的时间间隔。
import duckdbresult = duckdb.sql(""" SELECT user_id, order_date, amount, -- 每个用户内部按金额排名 RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS amount_rank, -- 与该用户上一笔订单的天数间隔 DATEDIFF('day', LAG(order_date) OVER (PARTITION BY user_id ORDER BY order_date), order_date ) AS days_since_last_order, -- 该用户的累计消费 SUM(amount) OVER (PARTITION BY user_id ORDER BY order_date) AS cumulative_spent FROM 'orders.csv' ORDER BY user_id, order_date""").df()print(result.head(10))
如果你试过用 Pandas 写这个需求——groupby + rank + shift + cumsum——你就知道 SQL 窗口函数有多香了。
核心场景 4:与 Jupyter Notebook 的集成
在 Jupyter 里用 DuckDB,体验可以非常丝滑:
# Cell 1: 初始化import duckdbcon = duckdb.connect()# Cell 2: 查看数据概览con.sql(""" SELECT * FROM 'sales_data.parquet' USING SAMPLE 5 ROWS""")# Jupyter 会自动把 Relation 渲染成漂亮的表格# Cell 3: 分析monthly = con.sql(""" SELECT DATE_TRUNC('month', sale_date) AS month, SUM(revenue) AS total_revenue, COUNT(DISTINCT customer_id) AS unique_customers FROM 'sales_data.parquet' GROUP BY 1 ORDER BY 1""").df()# Cell 4: 可视化(用回 Pandas/Matplotlib)import matplotlib.pyplot as pltmonthly.plot(x='month', y='total_revenue', kind='bar', figsize=(12, 5))plt.title('Monthly Revenue')plt.tight_layout()plt.show()
最佳实践:DuckDB 负责数据处理(查询、聚合、过滤),Pandas + Matplotlib/Plotly 负责可视化。各做各擅长的事。
DuckDB vs Pandas:性能对比实验
我们做一个更系统的对比。测试内容:对不同大小的数据集做 GROUP BY 聚合。
测试环境:M2 MacBook Pro, 16GB RAM, Python 3.11, DuckDB 1.5.0, Pandas 2.2
测试代码(生成测试数据 + 分别用 DuckDB 和 Pandas 聚合):
import duckdbimport pandas as pdimport numpy as npimport timedef benchmark(n_rows): """生成 n_rows 行数据,对比 DuckDB vs Pandas 的聚合性能""" # 生成测试数据 np.random.seed(42) df = pd.DataFrame({ 'category': np.random.choice(['A','B','C','D','E'], n_rows), 'region': np.random.choice(['East','West','North','South'], n_rows), 'value': np.random.randn(n_rows) * 100, 'count': np.random.randint(1, 100, n_rows) }) # DuckDB start = time.time() duckdb.sql(""" SELECT category, region, SUM(value), AVG(value), COUNT(*), MAX(count) FROM df GROUP BY category, region """).df() t_duck = time.time() - start # Pandas start = time.time() df.groupby(['category', 'region']).agg({ 'value': ['sum', 'mean', 'count'], 'count': 'max' }).reset_index() t_pandas = time.time() - start return t_duck, t_pandas# 运行测试for n in [100_000, 1_000_000, 10_000_000]: t_duck, t_pandas = benchmark(n) speedup = t_pandas / t_duck print(f"{n:>12,} 行 | DuckDB: {t_duck:.3f}s | Pandas: {t_pandas:.3f}s | 加速比: {speedup:.1f}x")
图 2:DuckDB vs Pandas 聚合性能对比
注:以上数据来自我的本地测试(M2 MacBook Pro, 16GB RAM),你的结果可能略有不同。
几个观察:
•数据量越大,DuckDB 的优势越明显(列式向量化的红利)•在 10 万行以下,两者差距不大——如果你的数据这么小,用啥都行•DuckDB 的内存峰值约为 Pandas 的 1/3~1/5(因为不需要把全部数据加载到 Python 对象中)
什么时候用 DuckDB,什么时候留在 Pandas?
最佳实践:DuckDB 和 Pandas 不是二选一,而是组合使用。 DuckDB 做重活(查询、聚合、JOIN),Pandas 做细活(可视化、特征工程、交互式修改)。
小结
1.DuckDB Python API 很简单:duckdb.sql() + .df() 就够应付 80% 的场景2.Python 变量即 SQL 表:直接在 SQL 里查 Pandas/Polars DataFrame3.大文件处理:DuckDB 比 Pandas 快 3–9 倍,内存省 3–5 倍(据我的测试)4.窗口函数是杀手锏:SQL 写复杂分析比 Pandas 链式调用清晰得多5.两者不矛盾:DuckDB 做计算,Pandas 做展示,各司其职
下一篇我们转向原理:DuckDB 的核心架构全景图——它是怎么设计的,一条 SQL 从输入到输出经历了什么。
延伸阅读
•DuckDB Python API 文档:https://duckdb.org/docs/api/python/overview[2]•DuckDB + Pandas 集成:https://duckdb.org/docs/guides/python/sql_on_pandas[3]•DuckDB + Polars:https://duckdb.org/docs/guides/python/polars[4]•DuckDB + Jupyter:https://duckdb.org/docs/guides/python/jupyter[5]
References
[1] DuckDB Python API 文档: https://duckdb.org/docs/api/python/overview
[2]: https://duckdb.org/docs/api/python/overview
[3]: https://duckdb.org/docs/guides/python/sql_on_pandas
[4]: https://duckdb.org/docs/guides/python/polars
[5]: https://duckdb.org/docs/guides/python/jupyter