1)安装 Python 环境,推荐使用3.11~3.13版本。
首先,需要在你的计算机上安装 Python。推荐使用3.11~3.13版本。具体安装过程我在这里就不详细说明,网上教程很多,小伙伴们可自行上网查找安装教程。不会的小伙伴可以寻求专业人士的帮忙。不同电脑安装过程出现的问题不同。
官网网址:https://www.python.org/downloads/
2)安装 Python编辑器
推荐使用PyCharm 、VS Code、Anaconda等编辑器,可根据喜好选择。编辑器安装也是需要去官网下载,可以去网上查找安装教程。
3)安装必要的库
你可以直接在终端(命令行)或代码编辑器的控制台中运行以下命令来进行批量安装:
pip install numpy pandas matplotlib seaborn scipy statsmodels openpyxl
如果你使用的是国内网络,下载速度比较慢,建议加上清华大学的镜像源,这样安装会快很多:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy pandas matplotlib seaborn scipy statsmodels openpyxl
4)准备数据
我们首先要整理好数据文件,通常以Excel格式存储。确保数据是数值型,且每一列代表一个变量。
第一行是特征变量的分组或者维度
第二行是特征/变量名称(注意要正式的名称)
其他行为特征/变量对应的数值(需要多行,也就是我们常说的样本量)。
注意:Excel数据文件需要和代码放在同一个文件内
示范数据如下:
5)替换您自己的Excel数据,点击运行。
选择适合Python编辑器使用的格式文件。我这里有两个格式的文件,包括:.ipynb 和.py
找到代码中输入文件路径的地方。输入你的Excel文件名+后缀。可以参考我的示范。
注意:不要删除双引号
输出内容包括PDF和png格式的图
自定义设置:
下面这里可以设置字体大小、颜色等内容。(可以自己设置,不会的就不用设置)
★代码运行常见报错问题:
1.出现:FileNotFoundError: [Errno 2] No such file or directory: '示例数据.xlsx'
原因是当前文件夹代码默认去找 示例数据.xlsx。而这个文件和代码不在同一个文件夹内。解决办法:你需要替换为你自己的数据,然后和代码放在一个文件夹内。
2.出现:ModuleNotFoundError: No module named 'shap'
或者:ModuleNotFoundError: No module named 'xgboost'
其他:ModuleNotFoundError: No module named ' '
解决办法就是补安装对应模型库:例如:
pip install shap
pip install xgboost
3.出现:警告:系统缺失中文字体 'SimSun',中文可能无法正常显示。
代码里设置了英文字体 Times New Roman,中文字体 SimSun,并且会先检查系统里有没有这些字体;如果缺失,会打印警告。
解决方法:改成您电脑里实际有的中文字体
5. 运行很慢,像“卡住了一样”
所以如果特征很多、样本很多,程序可能要跑很久,这不是死机,是正常现象。
出现其他运行问题可添加V详细咨询:zhouysh001(八宝粥加油)