当前位置：首页>python>Python 处理 ORC 文件指南:从入门到实战

Python 处理 ORC 文件指南:从入门到实战

2026-01-22 15:05:06

在大数据领域，ORC (Optimized Row Columnar) 是一种极其高效的列式存储格式。本文将带你深入了解 ORC，并演示如何在 Python 中利用 PyArrow 库进行读写和操作。

什么是 ORC 文件格式？

ORC (Optimized Row Columnar) 是一种为 Hadoop 工作负载设计的列式存储文件格式。与 CSV 等传统的行式格式不同，ORC 按列存储数据，这使得它在分析查询方面非常高效。

为什么选择 ORC？

高压缩率
：通常比文本文件小 75%。
列式存储
：只需读取查询所需的列，减少 I/O。
Schema Evolution
：可以在不重写数据的情况下添加或删除列。
内置索引
：包含轻量级索引，加速查询。
生态兼容
：与 Apache Hive, Spark, Presto 等大数据工具完美配合。

准备工作

在开始之前，请确保你已经安装了 Python 3.10 或更高版本，并了解基本的 DataFrame 操作。

我们需要安装以下库：

pip install pyarrow pandas

为什么需要 PyArrow？PyArrow 是 Apache Arrow 的 Python 实现，它为 ORC 和 Parquet 等列式格式提供了极佳的支持。它速度快、内存效率高，并且维护活跃。

在 Python 中读写 ORC 文件

1. 创建一个示例 ORC 文件

首先，我们创建一个包含员工数据的简单 ORC 文件。

import pandas as pd
import pyarrow as pa
import pyarrow.orc as orc

# 创建示例员工数据
data = {
    'employee_id': [101, 102, 103, 104, 105],
    'name': ['Alice Johnson', 'Bob Smith', 'Carol White', 'David Brown', 'Eve Davis'],
    'department': ['Engineering', 'Sales', 'Engineering', 'HR', 'Sales'],
    'salary': [95000, 65000, 88000, 72000, 71000],
    'years_experience': [5, 3, 7, 4, 3]
}

df = pd.DataFrame(data)

# 将 DataFrame 转换为 PyArrow Table 并写入 ORC
table = pa.Table.from_pandas(df)
orc.write_table(table, 'employees.orc')

print("ORC 文件创建成功！")

解析：我们首先创建一个 pandas DataFrame，然后将其转换为 PyArrow Table（这是 PyArrow 对列式数据的内存表示）。最后，使用 orc.write_table() 将其作为 ORC 格式写入磁盘。

2. 读取 ORC 文件

现在我们把刚才生成的文件读回来：

# 读取 ORC 文件
table = orc.read_table('employees.orc')

# 转换为 pandas DataFrame 以便查看
df_read = table.to_pandas()

print(df_read)
print(f"\n数据类型:\n{df_read.dtypes}")

注意：ORC 保留了 Schema 信息，所以你的整数依然是整数，字符串依然是字符串，不需要重新推断类型。

3. 读取特定列（列裁剪）

这是 ORC 真正发光的地方。当处理大型数据集时，你往往不需要所有列。ORC 允许你只读取所需的列：

# 只读取特定列
table_subset = orc.read_table('employees.orc', columns=['name', 'salary'])
df_subset = table_subset.to_pandas()

print(df_subset)

这被称为列裁剪（Column Pruning），是一种巨大的性能优化。如果你的 ORC 文件有 50 列，但你只需要 3 列，你实际上只读取了一小部分数据，这意味着更快的加载速度和更低的内存占用。

进阶技巧

1. 使用压缩

ORC 支持多种压缩编解码器。不同的编解码器有不同的权衡：

ZLIB
：压缩率更高，但速度较慢。
SNAPPY
：速度更快，但文件稍大。
ZSTD
：强烈推荐，在压缩率和速度之间取得了很好的平衡。

import os

# 生成较大的模拟数据
large_data = {
    'id': range(10000),
    'value': [f"data_{i}" for i in range(10000)],
    'category': ['A', 'B', 'C', 'D'] * 2500
}
df_large = pd.DataFrame(large_data)
table_large = pa.Table.from_pandas(df_large)

# 使用不同压缩方式写入
orc.write_table(table_large, 'data_zlib.orc', compression='ZLIB')
orc.write_table(table_large, 'data_snappy.orc', compression='SNAPPY')
orc.write_table(table_large, 'data_zstd.orc', compression='ZSTD')

# 比较文件大小
print(f"ZLIB 大小: {os.path.getsize('data_zlib.orc'):,} bytes")
print(f"SNAPPY 大小: {os.path.getsize('data_snappy.orc'):,} bytes")
print(f"ZSTD 大小: {os.path.getsize('data_zstd.orc'):,} bytes")

2. 处理复杂数据类型

ORC 能够很好地处理嵌套数据结构（如列表），这对于存储 JSON 样式的日志数据非常有用。

complex_data = {
    'user_id': [1, 2, 3],
    'name': ['Alice', 'Bob', 'Carol'],
    'purchases': [
        ['laptop', 'mouse'],
        ['keyboard'],
        ['monitor', 'cable', 'stand']
    ],
    'ratings': [
        [4.5, 5.0],
        [3.5],
        [4.0, 4.5, 5.0]
    ]
}

df_complex = pd.DataFrame(complex_data)
table_complex = pa.Table.from_pandas(df_complex)
orc.write_table(table_complex, 'complex_data.orc')

# 读取并验证
table_read = orc.read_table('complex_data.orc')
df_read = table_read.to_pandas()

print(df_read)
print(f"\n'purchases' 列的类型: {type(df_read['purchases'][0])}")

3. 实战案例：处理日志数据

让我们把这些放在一起，模拟一个处理 Web 服务器日志的场景：

from datetime import datetime, timedelta
import random

# 生成模拟日志数据
log_data = []
start_date = datetime(2025, 1, 1)

for i in range(1000):
    log_data.append({
        'timestamp': start_date + timedelta(minutes=i),
        'user_id': random.randint(1000, 9999),
        'endpoint': random.choice(['/api/users', '/api/products', '/api/orders']),
        'status_code': random.choice([200, 200, 200, 404, 500]),
        'response_time_ms': random.randint(50, 2000)
    })

df_logs = pd.DataFrame(log_data)
table_logs = pa.Table.from_pandas(df_logs)

# 使用 ZSTD 压缩写入 ORC
orc.write_table(table_logs, 'server_logs.orc', compression='ZSTD')

# 查询场景：只分析失败的请求
# 仅读取需要的列，然后进行过滤
table_subset = orc.read_table('server_logs.orc')
df_subset = table_subset.to_pandas()

errors = df_subset[df_subset['status_code'] >= 400]

print(f"错误总数: {len(errors)}")
print(f"\n错误分布:\n{errors['status_code'].value_counts()}")
print(f"\n最慢的错误响应: {errors['response_time_ms'].max()}ms")

什么时候该用 ORC？

✅ 适用场景：

与大数据平台（Hadoop, Spark, Hive）交互时。
需要高效存储分析型工作负载时。
拥有超宽表（列很多），但查询通常只涉及少数几列时。
需要内置压缩和索引时。

❌ 不适用场景：

需要逐行处理数据（此时 Avro 是更好的选择）。
处理小数据集（CSV 更简单通用）。
需要人类可读的文件格式（使用 JSON）。

总结

ORC 是数据工程和分析的强大工具。借助 PyArrow，在 Python 中处理 ORC 文件既直观又高效。通过利用列式存储和压缩，你可以显著降低存储成本并提升查询性能。

笔者锐评

在大数据生态中，文件格式的选择往往决定了系统的上限。虽然 CSV 和 JSON 简单易用，但在处理 TB 级数据时，它们的性能瓶颈会非常明显。

ORC 和 Parquet 是列式存储的双子星。虽然 Parquet 在 Spark 生态中更为流行，但 ORC 在 Hive 和 Presto 环境中往往表现更好。对于 Python 开发者来说，掌握 PyArrow 操作 ORC 的能力，意味着你可以更无缝地对接大数据平台，进行高效的数据预处理或后分析，而无需完全依赖庞大的 Java/Scala 栈。

求点赞 👍 求关注 ❤️ 求收藏 ⭐️你的支持是我更新的最大动力！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Python 处理 ORC 文件指南:从入门到实战

什么是 ORC 文件格式？

准备工作

在 Python 中读写 ORC 文件

1. 创建一个示例 ORC 文件

2. 读取 ORC 文件

3. 读取特定列（列裁剪）

进阶技巧

1. 使用压缩

2. 处理复杂数据类型

3. 实战案例：处理日志数据

什么时候该用 ORC？

总结

笔者锐评

最新文章

热门文章

随机文章

Python 处理 ORC 文件指南:从入门到实战

什么是 ORC 文件格式？

准备工作

在 Python 中读写 ORC 文件

1. 创建一个示例 ORC 文件

2. 读取 ORC 文件

3. 读取特定列（列裁剪）

进阶技巧

1. 使用压缩

2. 处理复杂数据类型

3. 实战案例：处理日志数据

什么时候该用 ORC？

总结

笔者锐评

科创课程 | Python基础(四)

Linux:不是程序员也能懂

最新文章

热门文章

随机文章