
代码绘制成果展示










代码解释


第一部分

# =========================================================================================# ====================================== 1. 环境设置 =======================================# =========================================================================================import pandas as pdimport numpy as npimport xgboost as xgbimport shapimport matplotlib.pyplot as pltimport matplotlib.colors as mcolorsfrom matplotlib.gridspec import GridSpecfrom sklearn.model_selection import train_test_split, GridSearchCV

第二部分

# =========================================================================================# ======================================2.特征分组以及颜色库的设置=======================================# =========================================================================================# 对特征进行分组FEATURE_STRUCTURE = {'Landscape': ['NDVI', 'SVF', 'RG'],'3D': ['SDH', 'SCD', 'FAR', 'AWH', 'MBS', 'DEI'],'2D': ['FD', 'ISF', 'MD', 'BD']}#颜色库COLOR_SCHEMES = {40: {'Landscape': ['#263238', ['#37474F', '#455A64', '#546E7A']],'3D': ['#AD1457', ['#C2185B', '#D81B60', '#E91E63', '#EC407A', '#F06292', '#F48FB1']],'2D': ['#33691E', ['#558B2F', '#689F38', '#7CB342', '#8BC34A']],'gradient': ['#263238', '#ECEFF1', '#AD1457']}}SCHEME_ID = 40 #选择配色方案#中获取指定的配色方案_current_scheme = COLOR_SCHEMES.get(SCHEME_ID, COLOR_SCHEMES[1])#用于存储最终的特征、分组与颜色的映射关系FEATURE_CONFIG = {}# 遍历特征结构字典for _group, _feats in FEATURE_STRUCTURE.items():# 提取当前组的主色调,用于饼图外环_main_color = _current_scheme[_group][0]# 提取当前组对应的子颜色列表,用于各个具体特征的区分_sub_colors = _current_scheme[_group][1]# 将特征名称与其对应的子颜色按顺序一一绑定_feat_map = {name: _sub_colors[i] for i, name in enumerate(_feats)}# 将组主色和特征颜色映射表存入字典中FEATURE_CONFIG[_group] = {'group_color': _main_color, # 存储组主色'features': _feat_map # 存储组内各特征的颜色字典}#用于存储蜂群图所需的渐变色FEATURE_CONFIG['_meta_'] = {'beeswarm_gradient': _current_scheme.get('gradient')}print(f"当前使用的配色方案 ID: {SCHEME_ID}")

第三部分

# =========================================================================================# ======================================3.蜂群图辅助函数=======================================# =========================================================================================def simple_beeswarm(x_values, nbins=40, width=0.1):hist_range = (np.min(x_values), np.max(x_values)) #数据的最小值和最大值范围if hist_range[0] == hist_range[1]: # 如果最大值等于最小值hist_range = (hist_range[0] - 0.1, hist_range[1] + 0.1) #手动扩展范围counts, edges = np.histogram(x_values, bins=nbins, range=hist_range) #计算直方图,获取各区间的计数和边界bin_indices = np.digitize(x_values, edges) - 1 # 计算每个数据点所属的箱子索引bin_indices = np.clip(bin_indices, 0, nbins - 1) #索引范围y_values = np.zeros_like(x_values) #初始化Y轴抖动值max_count = counts.max() # 获取直方图中的最大计数值if max_count == 0: # 如果最大计数为0return np.random.uniform(-0.1, 0.1, len(x_values)) #返回随机噪声for i in range(len(counts)): #遍历每一个直方图箱子idxs = np.where(bin_indices == i)[0] #找到当前箱子内的所有数据点索引if len(idxs) == 0: #如果当前箱子为空continuecurrent_width = (counts[i] / max_count) * width # 根据当前箱子的密度计算抖动宽度ys = np.linspace(-current_width, current_width, len(idxs)) # 在宽度范围内生成均匀分布的Y值np.random.shuffle(ys) # 打乱Y值顺序y_values[idxs] = ys # 将计算好的Y值赋给对应的数据点return y_values # 返回计算好的Y轴抖动坐标

第四部分

# =========================================================================================# ====================================== 4.绘图函数 =========================================# =========================================================================================def plot_shap_composite(X, shap_values, feature_names, config_dict):colors_map = {} #特征颜色映射字典group_mapping = {} # 特征所属组映射字典group_colors = {} # 特征所属组颜色映射字典#计算每个特征 SHAP 值的绝对值均值mean_shap = np.abs(shap_values).mean(axis=0)# 计算每个特征的 SHAP 值总和,带正负号sum_shap = shap_values.sum(axis=0)#汇总SHAP分析结果feature_importance = pd.DataFrame({'feature': feature_names,#原始特征的名称'importance': mean_shap,#特征的绝对值均值'sum_importance': sum_shap,#特征在所有样本上的贡献总和'shap_idx': range(len(feature_names))#特征在原始矩阵中的索引位置})# 按重要性升序排序feature_importance_sorted = feature_importance.sort_values('importance', ascending=True)sorted_features = feature_importance_sorted['feature'].tolist() #排序后的特征名称列表sorted_indices = feature_importance_sorted['shap_idx'].tolist() #排序后的索引列表total_importance = feature_importance['importance'].sum() #所有特征重要性的总和bg_color = '#FAF9F5' #背景颜色# 创建画布fig = plt.figure(figsize=(16, 8), dpi=120)# 设置画布背景色fig.patch.set_facecolor( '#FAF9F5')# 定义网格布局gs = GridSpec(1, 2, width_ratios=[1.2, 0.8], wspace=0.2)ax_bar = fig.add_subplot(gs[0]) #在左侧网格创建子图,条形图ax_bee = fig.add_subplot(gs[1]) #在右侧网格创建子图,蜂群图ax_bar.set_facecolor(bg_color) # 设置条形图背景色ax_bee.set_facecolor(bg_color) # 设置蜂群图背景色

第五部分

#生成 Y 轴坐标位置y_pos = np.arange(len(sorted_features))# 获取每个条形的颜色bar_colors = [colors_map.get(f, '#999999') for f in sorted_features]# 绘制水平条形图bars = ax_bar.barh(y_pos, # Y 轴feature_importance_sorted['importance'], # 条形的长度color=bar_colors, #颜色height=0.6) #高度# 条形图文本ax_bar.text(width * 1.01,#xbar.get_y() + bar.get_height() / 2,#ylabel_text,#内容va='center',#垂直对齐ha='left',#水平对齐fontsize=13,#字体大小fontweight='bold',#粗细color='#333'#字体颜色)

第六部分

#清空y轴默认标签ax_bar.set_yticklabels([])#获取y轴变换对象y_trans = ax_bar.get_yaxis_transform()# 遍历排序后的特征列表for i, feature in enumerate(sorted_features):#绘制对应的正负影响数值ax_bar.text(-0.0985,#xi,#yf'({sign}{current_sum:.2f})', #内容transform=y_trans, #坐标变换ha='left', #水平对齐va='center', #垂直fontweight='bold', #加粗fontsize=14, #大小color=sum_color) #颜色# 隐藏边框ax_bar.spines['top'].set_visible(False)ax_bar.spines['right'].set_visible(False)# 设置边框线宽ax_bar.spines['left'].set_linewidth(1.5)ax_bar.spines['bottom'].set_linewidth(1.5)#关闭网格线ax_bar.grid(False)#隐藏Y轴刻度线ax_bar.tick_params(axis='y', length=0)# 设置 X 轴刻度样式ax_bar.tick_params(axis='x', length=6, width=1.5, labelsize=14)

第七部分

simple_beeswarm计算每个样本点的Y轴位置,绘制散点。添加垂直基准线,对Y轴范围,并添加虚线网格以增强可读性。# 创建自定义线性渐变色图cmap = mcolors.LinearSegmentedColormap.from_list("custom_shap", beeswarm_gradient)norm = plt.Normalize(vmin=-1, vmax=1) #设置颜色归一化范围f_vals_norm = (f_vals - f_vals.min()) / (f_vals.max() - f_vals.min() + 1e-8)# 将归一化值映射到 -1 到 1 之间f_vals_color = (f_vals_norm * 2) - 1#计算蜂群图的Y轴抖动偏移量y_offset = simple_beeswarm(s_vals, nbins=200, width=0.3)y_final = i + y_offset #最终的Y轴坐标# 绘制散点图ax_bee.scatter(s_vals,#Xy_final,#yc=f_vals_color, #点的颜色cmap=cmap, #使用的颜色映射表s=10, #点的大小alpha=0.8, #点的透明度edgecolors='none', #无边缘颜色norm=norm) #颜色归一化ax_bee.set_yticks(y_pos) #设置蜂群图Y轴刻度位置ax_bee.set_yticklabels([]) #隐藏蜂群图Y轴标签(ax_bee.set_ylim(ax_bar.get_ylim()) #设置蜂群图Y轴范围与条形图一致#x轴标题ax_bee.set_xlabel('SHAP value (Impact on Model Output)', #内容fontsize=16,#大小fontweight='bold')#粗细# 隐藏边框ax_bee.spines['top'].set_visible(False)ax_bee.spines['left'].set_visible(False)ax_bee.spines['right'].set_visible(False)#设置边框线宽ax_bee.spines['bottom'].set_linewidth(1.5)ax_bee.grid(False) # 关闭主网格线#去掉Y轴刻度线ax_bee.tick_params(axis='y', length=0)# X轴刻度参数ax_bee.tick_params(axis='x', #X轴length=6, #长度width=1.5, #宽度labelsize=14) #大小[label.set_fontweight('bold') for label in ax_bee.get_xticklabels()] # 遍历并设置 x 轴数值标注为加粗[label.set_fontweight('bold') for label in ax_bar.get_xticklabels()] # 遍历并设置 y 轴数值标注为加粗

第八部分

# 添加颜色条子图cbar_ax = fig.add_axes([0.92, #左底角的横坐标0.15, #左底角的纵坐标0.005, #宽度0.7 #高])# 在颜色条上方添加文本cbar_ax.text(0.5, #X1.02, #Y'High', #文本transform=cbar_ax.transAxes, #相对坐标系ha='center', #水平居中fontsize=13, #大小fontweight='bold') #加粗# 在颜色条下方添加文本cbar_ax.text(0.5, #X-0.05, #Y'Low', #文本transform=cbar_ax.transAxes, #相对坐标系ha='center', #水平居中fontsize=13, #大小fontweight='bold') #加粗

第九部分

donut_data = [] # 初始化甜甜圈图数据列表for feat in feature_names: # 遍历所有特征# 添加特征信息到列表donut_data.append({'feature': feat, # 特征名称'importance': feature_importance.loc[feature_importance['feature'] == feat, 'importance'].values[0],# 特征重要性'group': group_mapping.get(feat, 'Other'), # 特征所属组'color': colors_map.get(feat, '#999999') # 特征颜色})# 将列表转换为DataFramedf_donut = pd.DataFrame(donut_data)group_order = [k for k in config_dict.keys() if k != '_meta_'] #获取分组顺序# 遍历每个分组for grp in group_order:df_grp = df_donut[df_donut['group'] == grp].sort_values('importance', ascending=False) # 获取该组数据并按重要性排序outer_colors.append(group_colors.get(grp, '#999999'))pct = (grp_sum / total_importance) * 100 # 该组占比inner_sizes.extend(df_grp['importance'].tolist()) #该组内所有特征的重要性到内环inner_colors.extend(df_grp['color'].tolist()) #该组内所有特征的颜色到内环

第十部分

# =========================================================================================# ====================================== 5. 主程序执行部分 =======================================# =========================================================================================if __name__ == "__main__":print("-" * 50)print("1: 读取数据")print("-" * 50)excel_path = r'data.xlsx' #原始文件路径target_col = 'Target_Humidity' #目标变量print(f"读取文件: {excel_path}")df = pd.read_excel(excel_path) #读取数据feature_names = [] #初始化特征名列表# 遍历特征结构中的特征列表for grp_feats in FEATURE_STRUCTURE.values():feature_names.extend(grp_feats) # 将特征添加到总列表X = df[feature_names] #特征y = df[target_col] #目标print(f"样本量: {len(X)}, 特征数: {len(feature_names)}")

第十一部分

GridSearchCV对XGBoost回归模型进行超参数优化。使用 R2 分数在测试集上评估模型性能。使用TreeExplainer解释最佳模型,计算测试集的 SHAP 值。最后,调用函数,进行绘图并保存。print("-" * 50)print("2: 划分训练集和测试集")print("-" * 50)#划分训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)print(f"训练集: {X_train.shape}, 测试集: {X_test.shape}")print("-" * 50)print("3: 建立XGBoost模型并进行超参数寻优")print("-" * 50)# 初始化XGB回归模型xgb_reg = xgb.XGBRegressor(objective='reg:squarederror', random_state=42, n_jobs=-1)# 定义参数网格param_grid = {'n_estimators': [100, 200],'max_depth': [3, 4],'learning_rate': [0.05, 0.1]}print("开始网格搜索")# 初始化GridSearchCVgrid_search = GridSearchCV(estimator=xgb_reg, #模型param_grid=param_grid, #参数网格scoring='neg_mean_squared_error', #评分标准cv=3, #交叉验证verbose=0)grid_search.fit(X_train, y_train) #拟合best_model = grid_search.best_estimator_ #获取最佳估计器print(f"模型最佳参数: {grid_search.best_params_}")#使用最佳模型预测y_pred = best_model.predict(X_test)r2 = r2_score(y_test, y_pred) #R2print(f"测试集R2: {r2:.4f}")print("-" * 50)print("4: SHAP分析与绘图")print("-" * 50)explainer = shap.TreeExplainer(best_model) #初始化SHAP解释器shap_values = explainer.shap_values(X_test) #计算SHAP值# 调用绘图函数plot_shap_composite(X_test, #测试集特征shap_values, #SHAP值feature_names, #特征名称FEATURE_CONFIG, #特征配置)

如何应用到你自己的数据

1.设置特征分组:
FEATURE_STRUCTURE = { 'Landscape': ['NDVI', 'SVF', 'RG'], '3D': ['SDH', 'SCD', 'FAR', 'AWH', 'MBS', 'DEI'], '2D': ['FD', 'ISF', 'MD', 'BD']}2.设置要使用的颜色方法:
SCHEME_ID = 40 #选择配色方案3.设置绘图结果的保存地址:
plt.savefig(fr"{SCHEME_ID}.png", dpi=300,bbox_inches='tight')plt.savefig(fr"{SCHEME_ID}.pdf",bbox_inches='tight')
4.设置原始数据的保存路径:
excel_path = r'data.xlsx' #原始文件路径5.设置目标变量:
target_col = 'Target_Humidity' #目标变量6.设置模型的超参数网格:
param_grid = {'n_estimators': [100, 200],'max_depth': [3, 4],'learning_rate': [0.05, 0.1]}
7.配置网格搜索:
grid_search = GridSearchCV(estimator=xgb_reg, #模型param_grid=param_grid, #参数网格scoring='neg_mean_squared_error', #评分标准cv=3, #交叉验证verbose=0)

推荐


获取方式
