当前位置：首页>python>Python科研绘图复现|绘制多面板分组森林图展示生存分析风险比(HR)

Python科研绘图复现|绘制多面板分组森林图展示生存分析风险比(HR)

2026-07-04 00:51:59

前言

做过临床或流行病学研究的朋友都知道，“森林图（Forest Plot）”是展示回归分析结果（如 Hazard Ratio, Odds Ratio）的绝对霸主。它能在一张图里直观地把效应值、置信区间和显著性摆得清清楚楚。但痛点在于：当你需要在一个面板里同时展示多个疾病 outcome，每个 outcome 下又要对比 Model 1、Model 2、Model 3 的敏感性分析时，普通的绘图软件（SPSS/GraphPad）往往会把图画得像“乱炖”——间距失控、对齐困难、图例抢戏。

今天我们要复刻的这张来自 Nature Communications (2025) 的 Figure 4C，就是一张非常标准的多面板/分组森林图。它展示了吸烟相关的蛋白组学特征与多种疾病（肺癌、COPD、PAD等）发病风险的关联。作者非常聪明地利用了分面（Faceting）和颜色编码，清晰地展示了不同统计模型下的稳定性。

今天，我们就用 Python 的 Matplotlib，像搭积木一样，把这张图从底层逻辑到像素细节完整复现，并把每一步“为什么要这么画”讲得明明白白。拒绝手搓，我们要做的是一套“换个数据就能跑”的自动化代码。

原图解析

3.1 视觉解剖 (The Anatomy)

🦴 骨架 (Structure)：
这是一张水平分面（Horizontal Faceted）的图表。X轴代表 Hazard Ratio (HR) 值，Y轴虽然看起来没有刻度，但实际上隐藏了分类变量（不同的 Model）。每个子图代表一种疾病（Lung Cancer, COPD, etc.）。

难点：在于如何在每个子图里保持统一的 Y 轴位置，同时让 X 轴范围（xlim）根据数据自动适应，或者统一刻度以方便横向对比。

🍰 核心技巧 (The Trick)：
“三明治图层法”是关键。

底层：参考线（Reference Line，通常是 HR=1 的垂直虚线），必须放在最下面 (zorder=0)。
中层：误差棒（Error Bar），代表 95% CI。
顶层：散点（Scatter Point），代表 HR 点估计值。
如果顺序错了，参考线切过圆点，或者误差棒盖住了圆心，图就会显脏。

🎨 配色 (Palette)：
原图使用了经典的红蓝冷暖对比色或离散分类色来区分不同的 Model。

Model 1 (基础调整): 浅色/灰色
Model 2 (完全调整): 深色/高亮色（如红色/深蓝）
这种配色逻辑是在引导读者：“请重点关注深色点，那是我们最严谨的模型结果。”

论文原图

3.2 读懂神图 (Scientific Decoding)

别光顾着画，这图到底说了个啥？如果你看不懂图里的科学逻辑，画出来也是没有灵魂的躯壳。

这张图的核心逻辑是敏感性分析（Sensitivity Analysis）。

现象：你看每个疾病（如 Lung Cancer）下都有几行数据。通常 Model 1 只调整了年龄性别，Model 2 调整了更多混杂因素（如BMI、饮酒）。
趋势：如果从 Model 1 到 Model 3，点的位置（HR值）和误差范围（CI）没有剧烈跳变，说明结论很稳健（Robust）。
结论：作者想证明，哪怕排除掉以前吸过烟的人（Sensitivity analysis），这些蛋白标志物依然能预测疾病风险（HR 显著不为 1，且 CI 不跨过 1）。

代码复刻

Step 1: 全局配置

高手画图，都是先立规矩。在画任何具体图形前，先用 rcParams 统一字体和线条风格。这样可以避免在后面的绘图函数里重复写 fontsize=12 这种废话。

import matplotlib.pyplot as pltimport matplotlib.font_manager as fmimport warnings# 全局关闭非关键警告，保证绘图输出整洁，看着清爽warnings.filterwarnings('ignore')# --- 顶刊风格内核锁定 (Journal Aesthetics) ---# 字体设置：优先使用 Times New Roman，这是 SCI 的标配plt.rcParams['font.family'] = ['Times New Roman', 'Arial', 'SimHei']plt.rcParams['mathtext.fontset'] = 'stix'       # 公式字体使用 STIX (类似 LaTeX)# 基础字号与线条定义：线条要粗，字要大，这就是“高级感”的来源plt.rcParams['font.size'] = 16                  # 默认字号plt.rcParams['axes.linewidth'] = 1.5            # 坐标轴线宽 (Bold)plt.rcParams['lines.linewidth'] = 2.0           # 数据线宽plt.rcParams['xtick.direction'] = 'in'          # 刻度朝内，更紧凑plt.rcParams['ytick.direction'] = 'in'plt.rcParams['savefig.bbox'] = 'tight'          # 自动切除白边plt.rcParams['savefig.dpi'] = 600               # 印刷级分辨率

Step 2: 数据构造

为了让大家能运行，我构造了一组模拟数据，结构完全模仿原图：包含 Disease（子图分组）、Model（颜色分组）、HR（点位置）、Lower/Upper（误差棒范围）。

# --- 模拟数据生成 ---# 模拟 4 种疾病，每种疾病下有 3 个模型的结果diseases = ['Lung cancer', 'COPD', 'Peripheral artery\ndisease', 'All-cause\nmortality']models = ['Model 1', 'Model 2', 'Model 3']n_groups = len(diseases)n_models = len(models)data = []np.random.seed(42) # 固定随机种子for disease in diseases:    base_hr = np.random.uniform(1.2, 2.0) # 基础风险    for i, model in enumerate(models):        # 模拟不同模型的 HR 微小波动        hr = base_hr - (i * 0.1) + np.random.normal(0, 0.05)        # 模拟置信区间 CI        ci_width = np.random.uniform(0.1, 0.3)        data.append({            'Disease': disease,            'Model': model,            'HR': hr,            'Lower': hr - ci_width,            'Upper': hr + ci_width,            'P_val': np.random.uniform(0.001, 0.05)        })df = pd.DataFrame(data)# 简单的查看数据结构，确保没有 NaNprint("📊 数据预览 (前 5 行):")print(df.head())print(f"\n总数据行数: {len(df)}")

Step 3: 画布构建与网格布局

这里我们使用 plt.subplots 来创建多面板。

# --- 画布布局 ---# 1 行 4 列，共享 Y 轴（虽然我们可能隐藏 Y 轴标签）fig, axes = plt.subplots(nrows=1, ncols=4, figsize=(14, 4), sharey=True)# 调整子图间距，避免太挤plt.subplots_adjust(wspace=0.1)# 定义配色方案 (字典映射，保证稳健)color_map = {    'Model 1': '#8DA0CB', # 浅蓝    'Model 2': '#FC8D62', # 橙红    'Model 3': '#66C2A5'  # 绿}# Y轴的位置：我们手动指定位置，比如 0, 1, 2y_positions = np.arange(len(models))# 稍微倒序一下，让 Model 1 在最上面通常符合阅读习惯，或者按原图逻辑# 原图 Model 1 在上，Model 3 在下y_positions = y_positions[::-1] print("🎨 画布准备就绪，颜色映射已定义。")

Step 4: 核心绘图循环 (The Core Loop)

这是最关键的一步。我们需要遍历每个 Disease，在对应的 ax 上画线、画点。

Code Highlight: 注意 errorbar 函数的用法。

x: HR 值
y: 这里的 y 只是为了排版用的纵坐标（0, 1, 2）。
xerr: 误差棒长度。注意 Matplotlib 接受的是 [left_err, right_err] 数组，即 [HR - Lower, Upper - HR]。

# --- 循环绘图 ---for ax, disease_name in zip(axes, diseases):    # 筛选当前疾病的数据    sub_df = df[df['Disease'] == disease_name]    # 遍历该疾病下的每个模型    for idx, model_name in enumerate(models):        row = sub_df[sub_df['Model'] == model_name].iloc[0]        y_pos = y_positions[idx]        # 1. 计算误差棒长度 (左臂, 右臂)        xerr = [[row['HR'] - row['Lower']], [row['Upper'] - row['HR']]]        # 2. 绘制误差棒 + 散点        # zorder=10 确保点在参考线上方        ax.errorbar(x=row['HR'], y=y_pos, xerr=xerr,                     fmt='o',          # 点的形状                    color=color_map[model_name], # 颜色                    ecolor=color_map[model_name], # 误差棒颜色                    elinewidth=2,     # 误差棒线宽                    capsize=4,        # 误差棒帽子大小                    markersize=8,     # 点的大小                    zorder=10,                     label=model_name if disease_name == diseases[0] else"")                     # 只在第一个子图加 Label，防止图例重复    # 3. 添加参考线 (HR=1)    ax.axvline(x=1.0, color='gray', linestyle='--', linewidth=1, zorder=0)    # 4. 设置标题    ax.set_title(disease_name, fontsize=11, fontweight='bold', pad=12)    # 5. 设置 X 轴标签（只在底部）    ax.set_xlabel('Hazard Ratio (95% CI)')print("🖊️ 核心图形绘制完成。正在进行细节修饰...")

Step 5: 注入灵魂 (Fine-tuning)

只有数据还不够，我们需要去除非数据墨水（Data-Ink Ratio），让图表“呼吸”。

Why? 默认的 matplotlib 边框是封闭的盒子。我们要把上方和右侧的脊柱（spines）去掉，这叫“Despine”，瞬间提升高级感。同时，我们要美化 Y 轴的 tick labels。

# --- 细节美化 ---for ax in axes:    # 1. 去除上、右边框    ax.spines['top'].set_visible(False)    ax.spines['right'].set_visible(False)    # 2. Y 轴处理    # 设置 Y 刻度位置    ax.set_yticks(y_positions)    # 设置 Y 刻度标签 (Model 名称)    ax.set_yticklabels(models)    # 3. 去除 Y 轴的刻度线 (Ticks)，只保留文字    ax.tick_params(axis='y', length=0)    # 4. 统一 X 轴范围 (可选，根据数据调整)    # 如果数据差异大，可以不共享 X 轴；这里演示自动适应    ax.set_xlim(0.5, 2.5) # 添加图例 (只在第一个图或者单独放上面)# 这里的技巧是把图例放在整张图的上面，而不是某个子图里handles, labels = axes[0].get_legend_handles_labels()fig.legend(handles, labels, loc='upper center', bbox_to_anchor=(0.5, 1.05),            ncol=3, frameon=False, fontsize=11)plt.tight_layout()# 再次调整，给图例留出空间plt.subplots_adjust(top=0.85) # 最终展示（实际运行时可保存）# plt.savefig('forest_plot_replica.png', dpi=300, bbox_inches='tight')plt.show()print("✨ 绘图完成！一张顶刊风格的森林图诞生了。")