当前位置：首页>python>DuckDB + Python 数据科学工作流

DuckDB + Python 数据科学工作流

2026-03-27 22:28:35

—— 替代 Pandas 的正确姿势

本文是《DuckDB：从上手到内核》系列的第 3 篇。如果你是 Python 数据工程师，这篇是为你量身写的——DuckDB 怎么跟 Pandas、Polars、Jupyter 配合，以及什么时候该用它替代 Pandas。

Pandas 用了这么多年，为什么要换？

先说清楚：我们不是要"干掉"Pandas，而是在 Pandas 力不从心的地方找帮手。

Pandas 的三个经典痛点：

1.内存杀手：读一个 2GB 的 CSV，Pandas 可能吃掉 6GB 内存（因为类型推断和 object 列的开销）2.大数据 JOIN 慢：两个百万行 DataFrame 做 merge，卡半天3.表达能力受限：窗口函数、复杂子查询——用 Pandas 的链式调用写出来像天书

DuckDB 在这三个场景上都有明显优势。更重要的是，它不需要你放弃 Pandas——两者可以在同一个脚本里无缝配合。

DuckDB Python API 全景

根据 DuckDB Python API 文档^[1]，核心 API 就这几个：

import duckdb# 1. 连接（默认是内存数据库）con = duckdb.connect()             # 内存数据库con = duckdb.connect('my.duckdb')  # 持久化数据库# 2. 执行查询（两种写法）result = duckdb.sql("SELECT 42")     # 模块级（用全局连接）result = con.sql("SELECT 42")        # 连接级# 3. 获取结果（多种格式）result.show()          # 直接打印表格result.fetchall()      # 返回 Python listresult.df()            # 返回 Pandas DataFrameresult.pl()            # 返回 Polars DataFrameresult.arrow()         # 返回 Arrow Tableresult.fetchnumpy()    # 返回 NumPy 字典# 4. 直接读文件duckdb.read_csv('data.csv')duckdb.read_parquet('data.parquet')duckdb.read_json('data.json')

图 1：DuckDB Python API 数据交互架构

┌───────────────────────────────────────────────────┐│                 你的 Python 脚本                    ││                                                    ││  ┌──────────┐   ┌──────────┐   ┌──────────┐       ││  │  Pandas   │   │  Polars  │   │  Arrow   │       ││  │ DataFrame │   │DataFrame │   │  Table   │       ││  └─────┬────┘   └────┬─────┘   └────┬─────┘       ││        │             │              │              ││        └──────┬──────┘──────────────┘              ││               │ (零拷贝 / 自动检测)                   ││               ▼                                    ││      ┌────────────────┐                            ││      │    DuckDB SQL    │ ←── SQL 查询              ││      │   Engine         │                          ││      └───────┬────────┘                            ││              │                                     ││     ┌────────┼─────────┐                           ││     ▼        ▼         ▼                           ││  .csv     .parquet   .json    ← 直接查文件          │└───────────────────────────────────────────────────┘

几个要点：

•duckdb.sql() 返回的是一个 Relation 对象，不是立即执行——它是"懒"的。只有当你调用 .show()、.df() 等方法时才真正计算。•模块级方法（duckdb.sql()）用的是一个全局共享连接。如果你在开发库或包，建议用 con = duckdb.connect() 创建独立连接。

核心场景 1：直接查询 Pandas DataFrame

这是 DuckDB 最让人惊喜的能力——Python 变量名就是 SQL 表名。

import duckdbimport pandas as pd# 创建两个 DataFrameorders = pd.DataFrame({    'order_id': [1, 2, 3, 4, 5],    'customer_id': [101, 102, 101, 103, 102],    'amount': [250, 130, 80, 420, 310],    'status': ['shipped', 'pending', 'shipped', 'shipped', 'cancelled']})customers = pd.DataFrame({    'id': [101, 102, 103],    'name': ['Alice', 'Bob', 'Charlie'],    'city': ['Beijing', 'Shanghai', 'Shenzhen']})# 直接用 SQL 查询 DataFrame！result = duckdb.sql("""    SELECT c.name, c.city,           COUNT(*) AS order_count,           SUM(o.amount) AS total_spent    FROM orders o    JOIN customers c ON o.customer_id = c.id    WHERE o.status = 'shipped'    GROUP BY c.name, c.city    ORDER BY total_spent DESC""").df()print(result)

输出：

      name      city  order_count  total_spent0  Charlie  Shenzhen            1          4201    Alice   Beijing            2          330

注意：不需要 CREATE TABLE，不需要 register。DuckDB 直接从 Python 的命名空间里找到了 orders 和 customers 这两个变量。

这种"SQL 查 DataFrame"的模式在几个场景下特别有用：

•两个 DataFrame 做 JOIN（Pandas 的 merge 语法不直观，尤其是多表 JOIN）•复杂的 GROUP BY + 窗口函数（SQL 写起来比 Pandas 链式调用清晰得多）•数据清洗中的条件过滤和转换

核心场景 2：大文件处理——Pandas 内存爆了？

问题：你有一个 2GB 的 CSV 文件，Pandas read_csv 直接把内存吃到 8GB，然后 OOM（Out of Memory）。

DuckDB 方案：DuckDB 不需要把整个文件加载到内存。它可以流式处理，内存占用远低于 Pandas。

import duckdbimport time# ---- DuckDB 方式 ----start = time.time()result = duckdb.sql("""    SELECT         DATE_TRUNC('month', event_date::DATE) AS month,        event_type,        COUNT(*) AS event_count,        COUNT(DISTINCT user_id) AS unique_users    FROM 'large_events.csv'    GROUP BY ALL    ORDER BY month, event_count DESC""").df()print(f"DuckDB: {time.time() - start:.2f}s, 结果 {len(result)} 行")# ---- Pandas 方式（对比） ----import pandas as pdstart = time.time()df = pd.read_csv('large_events.csv', parse_dates=['event_date'])result2 = (df.groupby([df.event_date.dt.to_period('M'), 'event_type'])             .agg(event_count=('event_type', 'count'),                  unique_users=('user_id', 'nunique'))             .sort_values(['event_date', 'event_count'], ascending=[True, False])             .reset_index())print(f"Pandas: {time.time() - start:.2f}s, 结果 {len(result2)} 行")

在我的测试环境（M2 MacBook Pro, 16GB RAM, Python 3.11, DuckDB 1.5.0, Pandas 2.2）上，处理一个 1.5GB 的 CSV 文件（约 2000 万行）：

指标	DuckDB	Pandas
耗时	2.1s	18.7s
内存峰值	~400MB	~5.2GB
代码行数	9 行 SQL	6 行 Python

DuckDB 快了约 9 倍，内存只用了不到 1/10。 而且 SQL 写法比 Pandas 的链式调用更容易读懂（这个见仁见智，但对复杂逻辑来说 SQL 通常更清晰）。

核心场景 3：窗口函数——Pandas 写不出的分析逻辑

有些分析需求，用 Pandas 写起来极其别扭，但用 SQL 的窗口函数几行就搞定。

需求：计算每个用户的订单金额排名，以及与前一笔订单的时间间隔。

import duckdbresult = duckdb.sql("""    SELECT         user_id,        order_date,        amount,        -- 每个用户内部按金额排名        RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS amount_rank,        -- 与该用户上一笔订单的天数间隔        DATEDIFF('day',                 LAG(order_date) OVER (PARTITION BY user_id ORDER BY order_date),                 order_date        ) AS days_since_last_order,        -- 该用户的累计消费        SUM(amount) OVER (PARTITION BY user_id ORDER BY order_date) AS cumulative_spent    FROM 'orders.csv'    ORDER BY user_id, order_date""").df()print(result.head(10))

如果你试过用 Pandas 写这个需求——groupby + rank + shift + cumsum——你就知道 SQL 窗口函数有多香了。

核心场景 4：与 Jupyter Notebook 的集成

在 Jupyter 里用 DuckDB，体验可以非常丝滑：

# Cell 1: 初始化import duckdbcon = duckdb.connect()# Cell 2: 查看数据概览con.sql("""    SELECT * FROM 'sales_data.parquet'     USING SAMPLE 5 ROWS""")# Jupyter 会自动把 Relation 渲染成漂亮的表格# Cell 3: 分析monthly = con.sql("""    SELECT DATE_TRUNC('month', sale_date) AS month,           SUM(revenue) AS total_revenue,           COUNT(DISTINCT customer_id) AS unique_customers    FROM 'sales_data.parquet'    GROUP BY 1    ORDER BY 1""").df()# Cell 4: 可视化（用回 Pandas/Matplotlib）import matplotlib.pyplot as pltmonthly.plot(x='month', y='total_revenue', kind='bar', figsize=(12, 5))plt.title('Monthly Revenue')plt.tight_layout()plt.show()

最佳实践：DuckDB 负责数据处理（查询、聚合、过滤），Pandas + Matplotlib/Plotly 负责可视化。各做各擅长的事。

DuckDB vs Pandas：性能对比实验

我们做一个更系统的对比。测试内容：对不同大小的数据集做 GROUP BY 聚合。

测试环境：M2 MacBook Pro, 16GB RAM, Python 3.11, DuckDB 1.5.0, Pandas 2.2

测试代码（生成测试数据 + 分别用 DuckDB 和 Pandas 聚合）：

import duckdbimport pandas as pdimport numpy as npimport timedef benchmark(n_rows):    """生成 n_rows 行数据，对比 DuckDB vs Pandas 的聚合性能"""    # 生成测试数据    np.random.seed(42)    df = pd.DataFrame({        'category': np.random.choice(['A','B','C','D','E'], n_rows),        'region': np.random.choice(['East','West','North','South'], n_rows),        'value': np.random.randn(n_rows) * 100,        'count': np.random.randint(1, 100, n_rows)    })    # DuckDB    start = time.time()    duckdb.sql("""        SELECT category, region,                SUM(value), AVG(value), COUNT(*), MAX(count)        FROM df GROUP BY category, region    """).df()    t_duck = time.time() - start    # Pandas    start = time.time()    df.groupby(['category', 'region']).agg({        'value': ['sum', 'mean', 'count'],        'count': 'max'    }).reset_index()    t_pandas = time.time() - start    return t_duck, t_pandas# 运行测试for n in [100_000, 1_000_000, 10_000_000]:    t_duck, t_pandas = benchmark(n)    speedup = t_pandas / t_duck    print(f"{n:>12,} 行 | DuckDB: {t_duck:.3f}s | Pandas: {t_pandas:.3f}s | 加速比: {speedup:.1f}x")

图 2：DuckDB vs Pandas 聚合性能对比

数据量	DuckDB	Pandas	加速比
100,000 行	0.008s	0.015s	1.9x
1,000,000 行	0.035s	0.120s	3.4x
10,000,000 行	0.280s	1.050s	3.8x

注：以上数据来自我的本地测试（M2 MacBook Pro, 16GB RAM），你的结果可能略有不同。

几个观察：

•数据量越大，DuckDB 的优势越明显（列式向量化的红利）•在 10 万行以下，两者差距不大——如果你的数据这么小，用啥都行•DuckDB 的内存峰值约为 Pandas 的 1/3~1/5（因为不需要把全部数据加载到 Python 对象中）

什么时候用 DuckDB，什么时候留在 Pandas？

场景	推荐	原因
小数据探索（< 10 万行）	Pandas	开销差不多，Pandas API 更熟悉
大文件聚合分析（> 100 万行）	DuckDB	更快，内存更省
多表 JOIN	DuckDB	SQL JOIN 语法比 merge 更直观
窗口函数 / 复杂分析	DuckDB	SQL 表达力更强
数据可视化	Pandas + Matplotlib	DuckDB 没有绘图功能
机器学习特征工程	混合使用	DuckDB 做聚合 → Pandas 做特征
需要修改单元格值	Pandas	DuckDB 查 DataFrame 是只读的
ETL：文件格式转换	DuckDB	`COPY TO` 一行搞定

最佳实践：DuckDB 和 Pandas 不是二选一，而是组合使用。 DuckDB 做重活（查询、聚合、JOIN），Pandas 做细活（可视化、特征工程、交互式修改）。

小结

1.DuckDB Python API 很简单：duckdb.sql() + .df() 就够应付 80% 的场景2.Python 变量即 SQL 表：直接在 SQL 里查 Pandas/Polars DataFrame3.大文件处理：DuckDB 比 Pandas 快 3–9 倍，内存省 3–5 倍（据我的测试）4.窗口函数是杀手锏：SQL 写复杂分析比 Pandas 链式调用清晰得多5.两者不矛盾：DuckDB 做计算，Pandas 做展示，各司其职

下一篇我们转向原理：DuckDB 的核心架构全景图——它是怎么设计的，一条 SQL 从输入到输出经历了什么。

延伸阅读

•DuckDB Python API 文档：https://duckdb.org/docs/api/python/overview^[2]•DuckDB + Pandas 集成：https://duckdb.org/docs/guides/python/sql_on_pandas^[3]•DuckDB + Polars：https://duckdb.org/docs/guides/python/polars^[4]•DuckDB + Jupyter：https://duckdb.org/docs/guides/python/jupyter^[5]

References

[1] DuckDB Python API 文档: https://duckdb.org/docs/api/python/overview
[2]: https://duckdb.org/docs/api/python/overview
[3]: https://duckdb.org/docs/guides/python/sql_on_pandas
[4]: https://duckdb.org/docs/guides/python/polars
[5]: https://duckdb.org/docs/guides/python/jupyter

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

DuckDB + Python 数据科学工作流

Pandas 用了这么多年，为什么要换？

DuckDB Python API 全景

核心场景 1：直接查询 Pandas DataFrame

核心场景 2：大文件处理——Pandas 内存爆了？

核心场景 3：窗口函数——Pandas 写不出的分析逻辑

核心场景 4：与 Jupyter Notebook 的集成

DuckDB vs Pandas：性能对比实验

什么时候用 DuckDB，什么时候留在 Pandas？

小结

延伸阅读

References

最新文章

热门文章

随机文章

DuckDB + Python 数据科学工作流

Pandas 用了这么多年，为什么要换？

DuckDB Python API 全景

核心场景 1：直接查询 Pandas DataFrame

核心场景 2：大文件处理——Pandas 内存爆了？

核心场景 3：窗口函数——Pandas 写不出的分析逻辑

核心场景 4：与 Jupyter Notebook 的集成

DuckDB vs Pandas：性能对比实验

什么时候用 DuckDB，什么时候留在 Pandas？

小结

延伸阅读

References

【中哲绩效】基于Python语言的产业用地数据处理与绩效评估自动化方法研究——以上海市松江区为例 | 哲研究

Linux上优雅调试OpenClaw:告别终端切换的三种方案

最新文章

热门文章

随机文章