还在为繁琐的数据清洗和探索环节头疼?
DataPrep正是终结这种痛苦的工具!
它是一个旨在简化、加速数据准备流程的智能Python库,通过极简API提供清洗、探索和报告功能。
🚀 一键安装与初识EDA
DataPrep可通过pip安装。
其dataprep.eda子模块用于自动化探索性数据分析。
from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset('titanic')
print(f'数据集形状: {df.shape}')
report = create_report(df)
report.show_browser()
运行结果: 数据集形状:(1309, 14) (交互式报告在浏览器打开)
🧼 智能数据清洗
dataprep.clean能自动识别数据质量问题并提供批量修复函数。
from dataprep.clean import clean_country
import pandas as pd
dirty_data = pd.DataFrame({'country': ['US', 'USA', 'U.S.A', 'United States']})
cleaned_df = clean_country(dirty_data, 'country', output_format='alpha-3')
print(cleaned_df)
运行结果: country_clean country_clean_code 0 USA USA 1 USA USA 2 USA USA 3 USA USA
🔗 数据连接与轮廓分析
connector模块可连接多种数据源。plot和plot_correlation提供灵活API用于深入分析。
from dataprep.eda import plot, plot_correlation
plot(df, 'age').show_browser()
plot_correlation(df).show_browser()
运行结果: (显示年龄分布图和高级相关性矩阵)
📈 性能对比:体验真正的“快”
DataPrep核心优势之一是速度。
它内部使用Dask等库优化,处理大型数据集时比同类工具快数倍。
import time
import pandas as pd
import numpy as np
from dataprep.eda import create_report as dp_report
large_df = pd.DataFrame(np.random.randn(100000, 10))
start_time = time.time()
dp_report(large_df, mode='basic')
dp_time = time.time() - start_time
print(f'耗时: {dp_time:.2f} 秒')
运行结果(示例): 耗时:3.45 秒
⚖️ 优势对比与使用建议
与pandas手动操作相比,DataPrep极大提升了效率。
与pandas-profiling相比,它在速度和交互体验上有优势。
建议在数据分析初始阶段优先使用。
💬 总结与互动
DataPrep将智能与自动化注入数据准备领域。
你的数据准备通常占项目多大比例? 欢迎在评论区分享!