16天课程内容:
Day1:别再被统计学和Python劝退了!0基础30分钟上手,保姆级教学包会
Day2:一文搞懂数据集中趋势!均值/中位数/众数,Python一行代码就能算
Day3:数据散不散看这里!方差/标准差/分位数,小白也能秒懂的离散趋势
Day4:一眼看穿数据分布!偏度/峰度+箱线图可视化,Python实战教学
Day5:统计学最常用的正态分布!大白话讲原理+Python代码一键生成
Day6:三大抽样分布全解析!t/F/卡方分布,小白也能懂的底层逻辑
Day7:区间估计入门!手把手教你算总体均值的置信区间,附Python代码
Day8:比例区间估计实战!2个真实案例,搞定业务数据的区间估算
Day9:假设检验核心!单样本t检验,小白也能看懂的差异性分析
Day10:t检验进阶!独立样本&配对样本t检验,医学/业务场景全覆盖
Day11:假设检验拓展!单总体比例&方差检验,卡方检验入门
Day12:两总体差异分析!比例&方差的假设检验,Python全流程实战
Day13:多组数据比差异!单因素方差分析,从原理到代码手把手教
Day14:双因素方差分析!搞定两个变量对结果的影响,实战案例教学
Day15:变量之间有没有关系?全场景相关性分析,Python一行代码搞定
Day16:终极实战!AB测试全流程Python实现,把统计学用在真实业务里
Day1 别再被统计学和Python劝退了!0基础30分钟上手,保姆级教学包会
是不是一听到“统计学”就头大,满脑子都是复杂的公式和看不懂的术语?
是不是想入门Python做数据分析,结果刚打开软件就被一堆代码劝退?
是不是看了无数教程,还是从入门到放弃,觉得自己根本不是学这个的料?
别慌!今天起,零露老师会用16天的时间,用大白话+手把手的代码实操,带你从0基础小白,彻底搞懂Python统计学。不管你是医学生、护理从业者,还是运营、市场、职场人,都能听得懂、学得会、用得上!
先跟大家说句掏心窝子的话:绝大多数人学不会统计学和Python,根本不是你笨,而是教的人没说人话!上来就甩定义、堆公式,完全不管小白能不能听懂,不劝退才怪。
所以咱们这个系列,全程坚持2个原则:不说废话,只说人话;不搞虚的,只教实操。每天花30分钟,跟着做就能学会。今天第一天,咱们就搞定最核心的基础,迈出最关键的第一步!
一、大白话搞懂:统计学到底是个啥?
很多人觉得统计学高深莫测,其实它的本质超级简单:一堆数据太多了,你记不住、说不清楚,就用几个数字或者一张图,把这堆数据的特点说明白,这就是统计学。
举个最简单的例子:我给你一组数字【2,23,4,17,12,12,13,16】,你怎么跟别人描述这组数字?
你肯定会说:这组数最小是2,最大是23,平均下来大概12左右。
你看!你已经在用统计学了!用平均数、最大值、最小值这几个简单的数,就把8个数字的特点说清楚了,这就是统计学最核心的逻辑。
统计学就分两大块,咱们整个系列都会围绕这两块展开,先易后难,完全不用慌:
1、描述统计学:算出来的,用统计量描述已有的数据,比如咱们上面说的平均数、最大值;
2、推断统计学:猜出来的,用手里的样本数据,去推断整体的情况,比如抽查100包红糖的重量,去推断整批红糖够不够称。
二、数据分析的基石!4种数据类型,小白一次搞懂
不管你是做医学研究,还是做业务数据分析,首先要搞明白:你手里的数据,到底是什么类型?不同类型的数据,分析方法完全不一样,这一步错了,后面全白搭。
咱们先给数据分两大阵营:定性数据(给事物分类的)和定量数据(代表数量的),再往下各分2种,一共4种。零露老师用大白话+双场景例子,给你讲得明明白白,看完就能记住。
数据大类 | 细分类型 | 大白话核心定义 | 医学护理场景例子 | 非医学场景例子 |
定性数据(分类用,不能加减乘除) | 定类数据 | 只分类,不排序,数字只是代号,无大小之分 | 性别:1=男,2=女;血型:1=A型,2=B型,3=AB型,4=O型 | 用户手机品牌:1=苹果,2=华为,3=小米 |
定性数据(分类用,不能加减乘除) | 定序数据 | 既能分类,也能排顺序/分高低,但仍不能做四则运算 | 疼痛等级:0=无痛,1=轻度,2=中度,3=重度;护理分级:1=特级,2=一级,3=二级,4=三级 | 电商会员等级:1=普通,2=银卡,3=金卡,4=黑卡 |
定量数据(数值型,可计算) | 定距数据 | 实打实的数值,能做加减,不能做乘除,无绝对零点 | 患者体温:36.5℃和37.5℃能算1℃温差,但不能说38℃是19℃的2倍 | 年份:2024和2025能算差1年,不能算倍数关系 |
定量数据(数值型,可计算) | 定比数据 | 有绝对零点,加减乘除都能做,最常用的数值类型 | 患者住院天数、住院费用、身高体重、血压值 | 商品价格、用户消费金额、直播间观看时长 |
一句话总结帮你记忆:
(1)只能分类,不能排序:定类数据
(2)能分类,能排序,不能计算:定序数据
(3)能加减,不能乘除:定距数据
(4)加减乘除都能做:定比数据
这4种数据类型,是咱们整个统计学的地基,今天先把它记牢,后面所有的分析,都要先看数据类型!
三、手把手教你!Python环境一键搭建,小白5分钟搞定
很多小白一听到Python,就觉得要敲一堆复杂的代码,根本学不会。其实现在对新手最友好的方式,就是用Anaconda,一键安装所有需要的工具,不用你自己瞎折腾。跟着我的步骤来,全程点点鼠标,5分钟就能搞定!
咱们全程用Windows系统举例,Mac系统步骤几乎完全一致,有问题可以在评论区问我。
步骤1:下载Anaconda安装包(完全免费,不用注册)
1.打开浏览器,直接复制官网地址:https://www.anaconda.com/,避免大家找错网站
2.进入官网后,点击右上角的【Download】按钮,网站会自动识别你的电脑系统,匹配对应的安装包,直接点击下载即可
3.划重点:不用注册账号!不用花钱!个人使用完全免费,所有让你付费、注册的步骤,全部跳过!
步骤2:安装Anaconda,只需要注意1个关键点
1.下载完成后,双击打开安装包,弹出的界面点击【Next】
2.用户协议界面,点击【I Agree】,直接同意即可
3.安装用户选择,直接选【Just Me】,然后点【Next】
4.选择安装位置,默认装在C盘就可以;如果C盘空间不够,可以选其他盘,只要记住安装路径就行,然后点【Next】
5.最最关键的一步:高级选项界面,第一个勾选框「Add Anaconda3 to my PATH environment variable」一定要勾选上!(90%的小白装完用不了,都是因为没勾这个)第二个框默认勾选即可,然后点击【Install】
6.等待进度条走完,一直点【Next】,最后点击【Finish】,安装就完成了!
步骤3:打开代码神器Jupyter Notebook,新建你的第一个文件
1.安装完成后,按下电脑的【Win键】,在开始菜单里找到【Anaconda3】文件夹,点开后找到【Jupyter Notebook】,点击打开
2.点击后会弹出一个黑色的命令框(不用管它,绝对不要关掉!关了它程序就停了),然后会自动跳转到浏览器,打开Jupyter Notebook的界面,这就代表启动成功了
3.在浏览器的界面里,右上角有个【New】按钮,点击它,然后选择【Python3(ipykernel)】,就会新建一个空白的代码文件,咱们所有的代码都在这里写
步骤4:写下你的第一行Python代码,运行成功!
在界面里的灰色代码框中,输入下面这行代码,然后按下键盘的【Shift+Enter】,就能运行代码了:
Pythonprint("Hello 统计学!我终于迈出第一步啦!") |
如果你看到代码框下面,输出了「Hello 统计学!我终于迈出第一步啦!」这句话,恭喜你!你的Python环境已经完全搭建成功,已经能正常运行代码了!
四、第一次Python实战!双场景案例,手把手带你敲代码
光说不练假把式,接下来咱们就用2个真实案例,一个医学护理场景,一个通用业务场景,带着你用Python认识数据,计算最基础的统计量。
每一行代码我都会给你讲明白作用,你直接复制粘贴到你的代码框里,按【Shift+Enter】运行就行,保证你跟着做就能出结果!
案例一:医学护理场景-住院患者基本信息数据分析
咱们用临床最常见的住院患者信息数据,对应4种数据类型,同时用Python计算临床最关注的平均指标。
第一步:导入Python工具库
Python里有很多现成的计算工具,不用我们自己写复杂公式,先导入2个最核心的工具库,以后每次写代码,第一步都要先导入。
新建一个代码框,输入下面的代码,运行:
Python# 导入数值计算工具numpy,行业内都简称为np,咱们也跟着用import numpy as np# 导入表格处理工具pandas,行业内都简称为pdimport pandas as pd |
运行后没有报错,就代表导入成功了!
第二步:创建患者数据表格
咱们模拟10位住院患者的真实信息,包含4种数据类型,新建代码框,输入代码运行:
Python# 创建患者数据表格,每一行是1位患者,每一列是1个临床指标patient_data = pd.DataFrame({"患者编号": [1,2,3,4,5,6,7,8,9,10],"性别": [1,2,1,2,1,2,1,2,1,2], # 1=男,2=女,定类数据"疼痛等级": [0,1,2,1,0,3,2,1,0,2], # 0=无痛,1=轻度,2=中度,3=重度,定序数据"体温(℃)": [36.5,37.2,38.5,36.8,37.0,39.2,37.5,36.6,37.1,38.1], # 定距数据"住院天数": [5,7,12,4,3,15,9,6,4,8] # 定比数据})# 打印完整的患者信息表print("住院患者基本信息表:")print(patient_data) |
运行之后,你就能在界面里看到完整的10位患者表格,4种数据类型也全部对应上了。
第三步:一行代码计算临床核心指标
接下来咱们用Python,一秒算出这10位患者的平均体温、平均住院天数,新建代码框,输入代码运行:
Python# 计算10位患者的平均体温mean_temp = np.mean(patient_data["体温(℃)"])# 计算10位患者的平均住院天数mean_days = np.mean(patient_data["住院天数"])# 打印计算结果print(f"10位患者的平均体温为:{mean_temp}℃")print(f"10位患者的平均住院天数为:{mean_days}天") |
运行之后,你就能看到结果:10位患者的平均体温为37.45℃,平均住院天数为7.3天!
你看!咱们只用了一行核心代码,就完成了数据统计,不用自己按计算器一个个加,Python一秒钟就算完了,临床统计用这个方法,效率直接拉满!
案例二:非医学场景-电商用户消费数据分析
咱们再用一个电商运营的通用场景,再练一遍方法,不管你是什么行业,都能直接套用。
新建代码框,输入下面的代码,运行创建用户数据:
Python# 创建电商用户数据表格user_data = pd.DataFrame({"用户编号": [1,2,3,4,5,6,7,8,9,10],"性别": [1,2,1,2,1,2,1,2,1,2], # 1=男,2=女,定类数据"会员等级": [1,2,2,3,1,4,3,2,1,3], # 1=普通,2=银卡,3=金卡,4=黑卡,定序数据"浏览时长(分钟)": [5,12,8,20,6,25,15,10,7,18], # 定比数据"消费金额(元)": [59,199,99,359,29,599,299,159,89,259] # 定比数据})# 打印用户数据表格print("电商用户基本信息表:")print(user_data) |
运行后就能看到完整的用户数据,再新建代码框,计算运营核心指标:
Python# 计算用户平均浏览时长mean_time = np.mean(user_data["浏览时长(分钟)"])# 计算用户平均消费金额mean_money = np.mean(user_data["消费金额(元)"])# 打印计算结果print(f"10位用户的平均浏览时长为:{mean_time}分钟")print(f"10位用户的平均消费金额为:{mean_money}元") |
运行之后,就能看到结果:10位用户的平均浏览时长为12.6分钟,平均消费金额为215元!
第一天学习总结
恭喜你!今天第一天的内容就学完了!咱们今天搞定了3件大事:
1、搞懂了统计学的本质,再也不觉得它高深莫测了;
2、彻底分清了4种数据类型,打下了数据分析的核心地基;
3、成功搭建了Python环境,写出了第一行代码,还完成了2个真实场景的实战!
是不是发现,统计学和Python,根本没有你想的那么难?
下期预告
明天的Day2,咱们会深入学习描述统计学的核心——数据集中趋势,手把手教你用Python计算均值、中位数、众数,还会给大家带来更多临床和业务的真实案例,让你彻底搞懂:什么时候该用平均数,什么时候该用中位数,再也不会用错分析方法!
✨ 粉丝福利时间
(1)关注我的公众号,后续15天的教程会第一时间更新,不迷路!
(2)有任何不懂的地方,都可以在评论区留言,我会一一回复!
咱们明天见,带你继续解锁Python统计学的新技能!