Python数据分析可视化连载05:散点图+直方图入门,相关性与分布分析
前面我们已经掌握三大基础图表:
·柱状图:分类对比
·折线图:趋势涨跌
·饼图:占比份额
一、两种图表用途先分清
散点图 scatter
看两组数据有没有相关性
·比如:身高和体重、学习时长和分数、广告费和销售额
·点越集中、走势越明显,相关性越强
直方图 hist
·看数据落在哪个区间最多
·比如:学生成绩分数段分布、员工年龄分布、薪资区间分布
·统计人数/数量在各区间的频次
二、固定中文配置模板
三、零基础画散点图(相关性分析)
完整可直接运行:模拟「学习时长 — 考试分数」关系
参数说明:
·plt.scatter(x, y) 画散点图
·s=50 控制点的大小
·点从左下往右上走:正相关(时间越长分数越高)
四、散点图美化:不同颜色、大小
alpha 控制透明度,重叠点更好看。
五、零基础画直方图(数据分布统计)
案例:统计全班学生成绩分布,看哪个分数段人最多
参数解释:
·plt.hist(数据, bins=区间个数)
·bins=5 自动把数据分成5个区间统计频次
·柱子越高,代表这个分数段人数越多
六、本期核心知识点汇总
1.散点图 plt.scatter(x,y)
。用于分析两组数据相关性
。可控制点大小、颜色、透明度
2.直方图 plt.hist(数据, bins)
。用于数据分布、区间频次统计
。bins 设置划分区间数量
3.四大基础图表全部集齐:
柱状图、折线图、饼图、散点图、直方图
七、新手避坑
❌ 散点图 x、y 数据长度必须一致
❌ 直方图不需要y轴数据,只传一组原始数据
❌ bins不要设太大,太多区间反而看不出分布
❌ 忘记中文配置导致标题乱码
本期小结
1.散点图:分析数据相关性
2.直方图:统计数据区间分布、频次
3.学会参数配色、网格、透明度美化
4.至此五大基础绘图全部学完
小作业
1.自编一组「身高、体重」数据,画散点图看相关性
2.自编20个考试分数,画直方图统计成绩分布
下期预告
Python数据分析可视化连载06:Pandas读取Excel数据,自动生成图表不用手动输数据,直接读取Excel表格,一键自动分析、绘图,办公直接落地!