OpenAI 与长寿生物科技企业 Retro Biosciences 携手合作,借助专为蛋白质工程优化的 AI 模型 GPT-4b micro,成功设计出功能增强型山中因子变体,使iPSC重编程标志物表达量较野生型对照组提升超 50 倍,为再生医学与细胞年轻化研究开辟新路径。
核心技术:GPT-4b micro 模型
为突破传统生命科学研究效率瓶颈,双方研发了定制化 AI 模型 GPT-4b micro。该模型以 GPT-4o 精简版本为基础,不仅整合了蛋白质序列数据,还补充了生物文本、标记化 3D 结构数据及蛋白进化背景、功能描述、互作关系等上下文信息,首次实现蛋白质模型 64000 token 的长上下文处理能力,既提升了设计可控性,又能高效适配山中因子这类依赖柔性区域形成瞬时互作的无序结构蛋白。模型开发遵循缩放定律,通过小模型迭代优化再放大,大幅降低研发成本与时间。
实验背景:山中因子的优化
山中因子(OCT4、SOX2、KLF4、MYC,简称 OSKM)是再生生物学核心蛋白,可将成体细胞重编程为诱导多能干细胞(iPSC)。
但其存在显著短板:重编程效率不足 0.1%,耗时超 3 周,老年或患病供体来源细胞的效率更低。由于 SOX2(317 个氨基酸)和 KLF4(513 个氨基酸)的潜在变体数量达 10¹⁰⁰⁰量级,传统定向进化筛选仅能探索极小部分设计空间,此前顶尖团队筛选数千种 SOX2 突变体,仅获少数小幅增效的三重突变体。
实验过程与关键成果
1. AI 设计高效变体,命中率大幅超越传统方法
Retro 团队搭建人成纤维细胞湿实验筛选平台,借助 GPT-4b micro 生成多样化的 “RetroSOX”(SOX2 变体)和 “RetroKLF”(KLF4 变体)序列:
RetroSOX 筛选命中率超 30%,远高于传统方法的 10% 以下,且变体与野生型 SOX2 平均差异超 100 个氨基酸;
RetroKLF 变体命中率近 50%,14 种模型设计变体效果优于现有最优组合,而传统单氨基酸替换优化的命中率低于10%。
2. 重编程效率与稳定性双重验证
将最优 RetroSOX 与 RetroKLF 组合使用,取得显著突破:
成纤维细胞中,早期(SSEA4)和晚期(TRA-1-60、NANOG)多能性标志物表达量大幅提升,晚期标志物出现时间较野生型 “OSKM”提前数天;
经 mRNA 递送方式(替代传统病毒载体)验证,50 岁以上中老年供体的间充质干细胞(MSC)仅 7 天即有超 30% 表达关键标志物,12 天形成典型 iPSC 集落,超 85% 细胞激活核心干细胞标志物内源表达;
诱导的 iPSC 可分化为内、中、外三个胚层,多代传代后核型正常、基因组稳定,符合细胞治疗标准。
3. 增强 DNA 损伤修复,提升细胞年轻化潜力
进一步研究发现,该工程化因子组合还能显著增强细胞 DNA 损伤修复能力。经阿霉素诱导双链断裂后,RetroSOX/KLF 处理组的 γ-H2AX 荧光强度(DNA 损伤标志物)显著低于野生型 OSKM 组及对照組,为改善细胞衰老核心特征、优化年轻化方案提供了新可能。
成果意义
该研究首次证实,AI 引导的蛋白设计可高效突破传统蛋白质工程的局限,不仅大幅提升干细胞重编程效率,还验证了 AI 模型在多细胞类型、多递送方式下的稳定性。该成果已通过多供体、多场景重复验证,相关模型研发细节公开共享,为再生医学(如器官短缺缓解、疾病治疗)及长寿研究提供了高效工具,彰显了 AI 在加速生命科学创新中的核心价值。