Pandas具有NumPy的ndarray所不具有的很多功能,比如集成时间序列、按轴对齐数据、处理缺失数据等常用功能。它提供了Series和DataFrame两种核心数据结构,能够高效完成数据清洗、转换、合并与重塑操作。
Pandas包含两个主要的数据结构:Series和DataFrame。其中最常用的是DataFrame,下面我们先来看一下DataFrame。
01 DataFrame入门
DataFrame是一个表格型的数据结构。每列都可以是不同的数据类型(数值、字符串、布尔值等)。
DataFrame的行列索引本质相同,列索引常作数据标签。其结构类似SQL表或Excel表,可方便相互转换。
DataFrame是Pandas的核心,掌握创建、筛选、修改、清洗、分组、合并这六大类操作,就能处理90%以上的数据分析任务。多练习,多查官方文档,慢慢就会熟练。
02 Series
Series类似于一维数组,由一组数据以及相关的数据标签(索引)组成。DataFrame是一张表,每一列就是一个Series。
Series是Pandas的“一列”,善于处理带标签的一维数据,是学习DataFrame的前置基础。掌握Series的创建、索引、清洗、运算,就能轻松驾驭表格数据处理。
Pandas最初是针对金融分析而开发的,现在被运用到了很多领域,尤其擅长处理日期与时间索引、滚动窗口计算等任务,非常适合用于量化投资中的因子计算、回测分析和实盘策略落地。掌握Pandas,是进入金融数据分析领域的关键一步。