当前位置：首页>python>Python数据清洗入门:用 pandas 告别脏数据

Python数据清洗入门:用 pandas 告别脏数据

2026-07-03 14:10:04

在数据分析和机器学习项目中，数据清洗是一个关键步骤。脏数据（dirty data）可能导致分析结果偏差或模型性能下降。Python 提供了强大的工具如 pandas 和 numpy 来处理这些问题。本文将手把手教你如何使用 Python 处理数据清洗中的三个主要问题：缺失值、重复值和格式不一致问题。

1. 数据清洗的重要性

在开始编码之前，我们先了解为什么数据清洗如此重要：

缺失值：数据集中某些记录缺少必要信息。
重复值：数据集中存在完全相同的记录。
格式不一致：数据在存储或输入过程中格式混乱。

这些问题会导致分析结果偏差或模型性能下降。因此，在进行数据分析之前，必须对数据进行清洗。

2. 缺失值处理

什么是缺失值？

缺失值是指某些记录缺少必要信息的情况。例如，某人在调查表中未填写“年龄”字段。

如何检测缺失值？

我们可以使用 pandas 中的 isnull() 或 notna() 方法来检测缺失值：

# 检测并统计每个特征的缺失数量print(df.isnull().sum())# 示例输出：# Column1    5# Column2    3# ...

如何处理缺失值？

根据具体情况，我们可以选择以下方法：

方法 1：删除含有缺失值的行

# 删除所有含有缺失值的行df_dropped=df.dropna()# 或者指定某些列进行删除（可选）df_dropped_subset=df.dropna(subset=['Column1', 'Column2'])

方法 2：填充缺失值

对于数值型数据，可以使用均值或中位数填充；对于分类数据，可以使用众数填充。

# 使用均值填充数值列numeric_cols=df.select_dtypes(include=[np.number]).columnsmean_imputed=df[numeric_cols].fillna(df[numeric_cols].mean())# 使用众数填充分类列categorical_cols=df.select_dtypes(exclude=[np.number]).columnsmode_imputed=df[categorical_cols].fillna(df[categorical_cols].mode().iloc[0])

3. 重复值处理

什么是重复值？

重复值是指数据集中存在完全相同的记录。例如，某电商平台上同一订单被记录了两次。

如何检测重复值？

我们可以使用 pandas 中的 duplicated() 方法来检测重复值：

# 检测并返回布尔序列（True 表示重复）print(df.duplicated())# 示例输出：# 0    False# 1     True# 2    False# ...# 统计重复行的数量print(df.duplicated().sum())

如何处理重复值？

我们可以选择删除重复值或保留部分重复值（根据业务需求）：

# 删除所有重复行，只保留第一个出现的记录df_unique=df.drop_duplicates(keep='first')# 或者指定某些列进行去重df_subset_unique=df.drop_duplicates(subset=['Column1', 'Column2'])

4. 格式不一致问题

什么是格式不一致？

格式不一致是指数据在存储或输入过程中格式混乱。例如，日期格式为 dd/mm/yyyy 和 mm/dd/yyyy 的混杂。

如何检测格式不一致？

我们可以使用以下方法：

方法 1：检查字符串列的唯一值数量

# 检查字符串列的唯一值数量print(df['Column'].value_counts())# 示例输出：# value1    10# value2     5# ...

方法 2：检查数据格式

# 使用 apply() 函数对特定列进行检查df.apply(lambdax: str(x).lower(), axis=0)

如何处理格式不一致问题？

我们可以使用以下方法统一格式：

示例 1：统一字符串大小写

# 统一字符串列的大小写（全部转为小写）df['Column'] =df['Column'].apply(lambdax: str(x).lower())

示例 2：统一日期格式

# 转换日期格式defconvert_date(date_str):try:date_obj=datetime.strptime(date_str, '%d/%m/%Y')returndate_obj.strftime('%Y-%m-%d')exceptValueError:returnnp.nandf['Date'] =df['Date'].apply(convert_date)

示例 3：统一货币格式

# 统一货币格式（全部转为大写）df['Currency'] =df['Currency'].str.upper()

5. 完整数据清洗流程

以下是一个完整的数据清洗流程示例：

importpandasaspdimportnumpyasnpfromdatetimeimportdatetime# 加载数据集file_path='data.csv'df=pd.read_csv(file_path)# 处理缺失值defhandle_missing_values(df):# 统计每个特征的缺失数量missing_counts=df.isnull().sum()# 删除含有缺失值的行（可选）df_dropped=df.dropna()# 使用均值填充数值列（可选）numeric_cols=df.select_dtypes(include=[np.number]).columnsmean_imputed=df[numeric_cols].fillna(df[numeric_cols].mean())# 使用众数填充分类列（可选）categorical_cols=df.select_dtypes(exclude=[np.number]).columnsmode_imputed=df[categorical_cols].fillna(df[categorical_cols].mode().iloc[0])returndf_dropped, mean_imputed, mode_imputed# 调用函数处理缺失值df_dropped, mean_imputed_df, mode_imputed_df=handle_missing_values(df)# 处理重复值defremove_duplicates(df):# 检测并删除重复行df_unique=df.drop_duplicates(keep='first')returndf_unique# 调用函数处理重复值df_without_dups=remove_duplicates(df)# 处理格式不一致问题defhandle_inconsistent_formats(df):# 统一字符串列的大小写df['Column'] =df['Column'].apply(lambdax: str(x).lower())# 转换日期格式（示例）if'Date'indf.columns:defconvert_date(date_str):try:date_obj=datetime.strptime(date_str, '%d/%m/%Y')returndate_obj.strftime('%Y-%m-%d')exceptValueError:returnnp.nandf['Date'] =df['Date'].apply(convert_date)# 统一货币格式（示例）if'Currency'indf.columns:df['Currency'] =df['Currency'].str.upper()returndf# 调用函数处理格式不一致问题df_cleaned_formats=handle_inconsistent_formats(df)# 保存清洗后的数据集cleaned_file_path='cleaned_data.csv'df_cleaned.to_csv(cleaned_file_path, index=False)

6. 总结

通过上述步骤，我们可以系统地处理缺失值、重复值和格式不一致的问题。使用 pandas 和 numpy 的组合能够高效地进行数据清洗工作，确保数据质量，为后续分析奠定基础。

希望这篇入门指南能帮助你快速掌握 Python 数据清洗的基本方法！如果你有任何问题或需要进一步的帮助，请随时留言讨论。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Python数据清洗入门:用 pandas 告别脏数据

1. 数据清洗的重要性

2. 缺失值处理

什么是缺失值？

如何检测缺失值？

如何处理缺失值？

方法 1：删除含有缺失值的行

方法 2：填充缺失值

3. 重复值处理

什么是重复值？

如何检测重复值？

如何处理重复值？

4. 格式不一致问题

什么是格式不一致？

如何检测格式不一致？

方法 1：检查字符串列的唯一值数量

方法 2：检查数据格式

如何处理格式不一致问题？

示例 1：统一字符串大小写

示例 2：统一日期格式

示例 3：统一货币格式

5. 完整数据清洗流程

6. 总结

最新文章

热门文章

随机文章

Python数据清洗入门:用 pandas 告别脏数据

1. 数据清洗的重要性

2. 缺失值处理

什么是缺失值？

如何检测缺失值？

如何处理缺失值？

方法 1：删除含有缺失值的行

方法 2：填充缺失值

3. 重复值处理

什么是重复值？

如何检测重复值？

如何处理重复值？

4. 格式不一致问题

什么是格式不一致？

如何检测格式不一致？

方法 1：检查字符串列的唯一值数量

方法 2：检查数据格式

如何处理格式不一致问题？

示例 1：统一字符串大小写

示例 2：统一日期格式

示例 3：统一货币格式

5. 完整数据清洗流程

6. 总结

从零开始学Python:input 输入函数

Linux上通过罗技鼠标侧键实现截图

最新文章

热门文章

随机文章