今天给大家分享一种非常实用的可视化图表 ——边缘散点图(Marginal Scatter Plot),并附上我自己写的 Python 代码,方便大家直接上手使用。
什么是边缘散点图?
在做数据分析时,我们经常需要同时观察两个变量的关系和各自的分布情况。传统的散点图虽然能很好地展示变量间的相关性,但无法直观地呈现每个变量的分布特征。
边缘散点图完美解决了这个问题:
- 核心区域:是一个标准的散点图,清晰展示两个变量(如图中的特征 A 和特征 B)的相关关系。
- 边缘区域:在图表的顶部和右侧,分别绘制了两个变量的密度分布图,直观展示了各自的分布形态。
这种 “1+2” 的组合图表,让我们在一张图里就能同时掌握相关性和分布两大关键信息,非常适合用于特征工程、数据探索和报告展示。
图表解读
以我绘制的这张图为例:
- 相关性:图中标注了相关系数
r = 0.340,样本量 n = 850,说明特征 A 和特征 B 之间存在中等强度的正相关关系。 - 分布形态:顶部和右侧的密度曲线显示,两个特征的数据都呈现出近似正态分布的单峰形态。
代码分享
为了方便大家复现和使用,我把绘制这张图的完整 Python 代码和示例数据都整理好了。
代码结构清晰,注释详细,你可以直接运行,也可以根据自己的数据进行修改。
获取方式:关注本公众号,在后台回复 「边缘散点图」,即可免费获取完整代码和示例数据。