原始字段不足以支撑分析,基于已有数据运算生成新指标,快速丰富数据维度。场景:依托销量、单价、成本数据,计算销售额、利润、利润率新增字段。核心知识点:列间运算、批量生成新列、数值保留小数、指标联动计算。① 生成测试数据
import pandas as pdimport numpy as npdf = pd.DataFrame({ "product_id": range(1, 81), "price": np.random.randint(200, 3000, 80), "cost": np.random.randint(80, 1200, 80), "sale_qty": np.random.randint(10, 200, 80)})df.to_excel("calc_col.xlsx", index=False)print("字段计算测试数据生成完成")
② 核心代码
import pandas as pddf = pd.read_excel("calc_col.xlsx")# 批量计算衍生字段df["total_sale"] = df["price"] * df["sale_qty"]df["profit"] = (df["price"] - df["cost"]) * df["sale_qty"]df["profit_rate"] = (df["price"] - df["cost"]) / df["price"]df["profit_rate"] = df["profit_rate"].round(3)print("新增指标后数据预览:")print(df[["product_id","total_sale","profit","profit_rate"]].head())
结果展示
总结
字段间运算快速拓展数据维度,衍生指标直观体现经营效益,是数据分析前期常用加工手段。