不知道哪些特征相关?相关性热力图一键识别强关联特征,是数据分析与建模必做步骤。场景:用户多维度特征(年龄、收入、消费、活跃度)计算相关性并可视化。核心:corr() 相关系数、heatmap 热力图、annot 标注、cmap 配色。① 生成测试数据
import pandas as pdimport numpy as npdf = pd.DataFrame({ "age": np.random.randint(18,60,300), "income": np.random.normal(8000,2500,300).round(2), "consume": np.random.normal(3000,1000,300).round(2), "active": np.random.randint(1,31,300), "score": np.random.uniform(3.0,5.0,300).round(1)})df.to_excel("corr_data.xlsx", index=False)print(" corr_data.xlsx 生成完成")
② 核心代码
import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltplt.rcParams["font.sans-serif"] = ["SimHei"]plt.rcParams["axes.unicode_minus"] = Falsedf = pd.read_excel("corr_data.xlsx")corr = df.corr()plt.figure(figsize=(10,6))sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)plt.title("特征相关性热力图")plt.tight_layout()plt.show()
结果展示
输出带数值标注的彩色热力图,颜色越深表示相关性越强,可直观识别强相关特征。
总结
相关性热力图是特征筛选、降维、建模前必备分析图,专业度极高。