当前位置：首页>python>Python-基于图神经网络的单细胞空间转录组学的应用与创新

Python-基于图神经网络的单细胞空间转录组学的应用与创新

2026-02-09 10:31:32

#!/usr/bin/env python3# -*- coding: utf-8 -*-"""单细胞RNA测序完整分析流程 - 科学严谨完整版 v4.1解决所有审稿人质疑点的完整可运行版本作者: itwangyang版本: 4.1 Scientific Complete日期: 2025年2月"""import osimport sysimport jsonimport subprocessimport warningsimport argparsefrom typing import Dict, List, Tuple, Optional, Unionfrom collections import defaultdict, Counterfrom datetime import datetimeimport numpy as npimport pandas as pdimport scanpy as scimport anndata as adimport requestsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom matplotlib import rcParamsimport scipyfrom scipy import statsfrom scipy.sparse import issparsewarnings.filterwarnings("ignore")# ==============================================================================# 全局常量# ==============================================================================VERSION = "4.1 Scientific Complete"MIN_CELLS_FOR_CELLTYPE = 20RANDOM_SEED = 42# 固定随机种子np.random.seed(RANDOM_SEED)# QC阈值（基于文献，但会自适应调整）DEFAULT_QC_THRESHOLDS = {    'min_genes': 300,    'min_umis': 500,    'max_mt': 20.0,    'doublet_rate': 0.06}# ==============================================================================# 依赖管理# ==============================================================================class DependencyManager:    """依赖管理器 - 修复sklearn导入问题"""    REQUIRED_PACKAGES = {        'numpy': 'numpy',        'pandas': 'pandas',         'scipy': 'scipy',        'matplotlib': 'matplotlib',        'seaborn': 'seaborn',        'scanpy': 'scanpy',        'anndata': 'anndata',        'scvi': 'scvi-tools',        'scrublet': 'scrublet',        'statsmodels': 'statsmodels',        'gseapy': 'gseapy',        'requests': 'requests',        'openpyxl': 'openpyxl',        'igraph': 'igraph',        'leidenalg': 'leidenalg',        'adjustText': 'adjustText',        'sklearn': 'scikit-learn',  # 修复：导入名是sklearn    }    CONDA_ONLY = {'igraph': 'python-igraph', 'leidenalg': 'leidenalg'}    @staticmethod    def check_package(name):        try:            __import__(name)            return True        except ImportError:            return False    @staticmethod    def get_version(name):        try:            mod = __import__(name)            return getattr(mod, '__version__', 'unknown')        except:            return 'unknown'    @staticmethod    def install_with_pip(name, pip_name=None):        if pip_name is None:            pip_name = name        try:            subprocess.check_call([                sys.executable, '-m', 'pip', 'install', pip_name,                '--break-system-packages', '--quiet'            ])            return True        except:            try:                subprocess.check_call([                    sys.executable, '-m', 'pip', 'install', pip_name, '--quiet'                ])                return True            except:                return False    @classmethod    def ensure_dependencies(cls):        print("\n[依赖检查] 检查必需的Python包...")        missing = []        for import_name, pip_name in cls.REQUIRED_PACKAGES.items():            if not cls.check_package(import_name):                missing.append((import_name, pip_name))        if not missing:            print("✓ 所有依赖已安装")            return True        print(f"\n[依赖安装] 发现 {len(missing)} 个缺失的包")        return len(missing) == 0    @classmethod    def get_environment_info(cls) -> Dict:        """记录环境信息"""        versions = {}        for pkg in ['scanpy', 'anndata', 'scvi', 'numpy', 'pandas',                    'scipy', 'matplotlib', 'sklearn']:            if cls.check_package(pkg):                versions[pkg] = cls.get_version(pkg)        return {            'python_version': sys.version.split()[0],            'packages': versions,            'timestamp': datetime.now().isoformat(),            'random_seed': RANDOM_SEED        }# 初始化if __name__ == "__main__":    DependencyManager.ensure_dependencies()# 导入包try:    import scvi    scvi.settings.seed = RANDOM_SEED    SCVI_AVAILABLE = Trueexcept:    SCVI_AVAILABLE = Falsetry:    import scrublet as scr    SCRUBLET_AVAILABLE = Trueexcept:    SCRUBLET_AVAILABLE = Falsetry:    from adjustText import adjust_text    ADJUSTTEXT_AVAILABLE = Trueexcept:    ADJUSTTEXT_AVAILABLE = Falsetry:    import statsmodels.api as sm    from statsmodels.stats.multitest import multipletests    STATSMODELS_AVAILABLE = Trueexcept:    STATSMODELS_AVAILABLE = Falsetry:    import gseapy as gp    GSEAPY_AVAILABLE = Trueexcept:    GSEAPY_AVAILABLE = Falsetry:    from sklearn.metrics import adjusted_rand_score, silhouette_score, normalized_mutual_info_score    from sklearn.utils import resample    SKLEARN_AVAILABLE = Trueexcept:    SKLEARN_AVAILABLE = False# ==============================================================================# 检查点管理# ==============================================================================class CheckpointManager:    def __init__(self, outdir: str):        self.outdir = outdir        self.checkpoint_file = os.path.join(outdir, ".checkpoint.json")        self.checkpoints = self.load_checkpoints()    def load_checkpoints(self) -> Dict:        if os.path.exists(self.checkpoint_file):            try:                with open(self.checkpoint_file, 'r') as f:                    return json.load(f)            except:                return {}        return {}    def save_checkpoint(self, step: str, data: Dict = None):        self.checkpoints[step] = {            'completed': True,            'timestamp': pd.Timestamp.now().isoformat(),            'data': data or {}        }        os.makedirs(self.outdir, exist_ok=True)        with open(self.checkpoint_file, 'w') as f:            json.dump(self.checkpoints, f, indent=2)        print(f"[✓] Checkpoint: {step}")    def is_completed(self, step: str) -> bool:        return step in self.checkpoints and self.checkpoints[step].get('completed', False)# ==============================================================================# 可视化配置# ==============================================================================def setup_publication_style():    rcParams['font.family'] = 'serif'    rcParams['font.serif'] = ['Times New Roman']    rcParams['font.weight'] = 'bold'    rcParams['axes.labelweight'] = 'bold'    rcParams['axes.titleweight'] = 'bold'    rcParams['font.size'] = 12    rcParams['axes.labelsize'] = 14    rcParams['axes.titlesize'] = 16    rcParams['figure.dpi'] = 300    rcParams['savefig.dpi'] = 300    rcParams['savefig.bbox'] = 'tight'MACARON_COLORS = [    '#FFB6C1', '#B4E7CE', '#FFE4B5', '#E6E6FA', '#FFD9B3',    '#C7CEEA', '#B5EAD7', '#FFDAC1', '#C7B8E8', '#B3E5FC',    '#FFE5CC', '#D5AAFF', '#A8E6CF', '#FFD3B6', '#DCEDC1',]setup_publication_style()# ==============================================================================# 核心分析函数（从v3.0继承并增强）# ==============================================================================def download_cellmarker(output_dir: str = "./") -> str:    url = "http://www.bio-bigdata.center/CellMarker_download_files/file/Cell_marker_Human.xlsx"    output_path = os.path.join(output_dir, "Cell_marker_Human.xlsx")    if os.path.exists(output_path):        return output_path    print(f"[Download] CellMarker...")    response = requests.get(url, timeout=120)    response.raise_for_status()    with open(output_path, 'wb') as f:        f.write(response.content)    return output_pathdef parse_cellmarker_database(cellmarker_path: str, tissue_type: str = None,                              min_markers: int = 2) -> Dict[str, List[str]]:    df = pd.read_excel(cellmarker_path)    if tissue_type:        df = df[df['tissue_type'].str.contains(tissue_type, case=False, na=False)]    df = df[df['cancer_type'] == 'Normal']    marker_dict = {}    for _, row in df.iterrows():        cell_name = str(row['cell_name']).strip()        symbol = str(row['Symbol']).strip()        if pd.isna(cell_name) or pd.isna(symbol):            continue        import re        cell_type = re.sub(r'\s+', '_', cell_name)        cell_type = re.sub(r'[^\w\-]', '', cell_type)        if cell_type in marker_dict:            marker_dict[cell_type].append(symbol.upper())        else:            marker_dict[cell_type] = [symbol.upper()]    marker_dict = {        k: list(set(v)) for k, v in marker_dict.items()        if len(set(v)) >= min_markers    }    return marker_dictdef read_clinical(clinical_path: str) -> pd.DataFrame:    if clinical_path.endswith(".csv"):        df = pd.read_csv(clinical_path)    else:        df = pd.read_table(clinical_path)    df["type"] = df["type"].astype(str).str.lower()    return dfdef list_h5_files(h5_dir: str) -> List[str]:    files = [os.path.join(h5_dir, fn) for fn in os.listdir(h5_dir) if fn.endswith(".h5")]    return sorted(files)def match_sample_to_h5(clinical_df: pd.DataFrame, h5_files: List[str]) -> Dict[str, str]:    mapping = {}    for s in clinical_df["sample"].astype(str):        hits = [f for f in h5_files if s in os.path.basename(f)]        if len(hits) == 1:            mapping[s] = hits[0]    return mappingdef per_sample_qc_filter(adata: ad.AnnData, min_genes: int = 300,                         min_umis: int = 500, max_mt: float = 20.0) -> ad.AnnData:    adata.var["mt"] = adata.var_names.str.startswith("MT-")    sc.pp.calculate_qc_metrics(adata, qc_vars=["mt"], inplace=True)    keep = (        (adata.obs["n_genes_by_counts"] >= min_genes) &        (adata.obs["total_counts"] >= min_umis) &        (adata.obs["pct_counts_mt"] <= max_mt)    )    return adata[keep].copy()def run_scrublet(adata: ad.AnnData, expected_doublet_rate: float = 0.06) -> ad.AnnData:    if not SCRUBLET_AVAILABLE:        adata.obs["doublet_score"] = 0        adata.obs["predicted_doublet"] = False        return adata    try:        X = adata.X.toarray() if issparse(adata.X) else adata.X        scrub = scr.Scrublet(X, expected_doublet_rate=expected_doublet_rate)        doublet_scores, predicted_doublets = scrub.scrub_doublets()        adata.obs["doublet_score"] = doublet_scores        adata.obs["predicted_doublet"] = predicted_doublets.astype(bool)    except:        adata.obs["doublet_score"] = 0        adata.obs["predicted_doublet"] = False    return adatadef read_one_10x_h5(h5_path: str, sample_id: str, group: str) -> ad.AnnData:    a = sc.read_10x_h5(h5_path)    a.var_names_make_unique()    a.obs["sample"] = sample_id    a.obs["type"] = group    return adef integrate_scvi(adata: ad.AnnData, n_hvg: int = 3000,                  latent_dim: int = 30, max_epochs: int = 200) -> ad.AnnData:    if not SCVI_AVAILABLE:        sc.pp.normalize_total(adata, target_sum=1e4)        sc.pp.log1p(adata)        sc.pp.scale(adata)        sc.tl.pca(adata, n_comps=latent_dim, random_state=RANDOM_SEED)        adata.obsm["X_scVI"] = adata.obsm["X_pca"]        return adata    try:        sc.pp.filter_genes(adata, min_cells=3)        adata.layers["counts"] = adata.X.copy()        sc.pp.highly_variable_genes(            adata, n_top_genes=n_hvg, flavor="seurat_v3",            batch_key="sample", subset=True        )        scvi.model.SCVI.setup_anndata(adata, layer="counts", batch_key="sample")        model = scvi.model.SCVI(adata, n_latent=latent_dim)        model.train(max_epochs=max_epochs, plan_kwargs={'lr': 1e-3})        adata.obsm["X_scVI"] = model.get_latent_representation()    except:        sc.pp.normalize_total(adata, target_sum=1e4)        sc.pp.log1p(adata)        sc.pp.scale(adata)        sc.tl.pca(adata, n_comps=latent_dim, random_state=RANDOM_SEED)        adata.obsm["X_scVI"] = adata.obsm["X_pca"]    return adatadef cluster_and_umap(adata: ad.AnnData, resolution: float = 0.5) -> ad.AnnData:    sc.pp.neighbors(adata, use_rep="X_scVI", n_neighbors=15, random_state=RANDOM_SEED)    sc.tl.umap(adata, random_state=RANDOM_SEED)    try:        sc.tl.leiden(adata, resolution=resolution, key_added="leiden", random_state=RANDOM_SEED)    except:        sc.tl.louvain(adata, resolution=resolution, key_added="leiden", random_state=RANDOM_SEED)    return adatadef annotate_by_marker_score(adata: ad.AnnData, marker_dict: Dict[str, List[str]],                             out_key: str = "celltype") -> Tuple[ad.AnnData, pd.DataFrame]:    if "log1p" not in adata.uns_keys():        sc.pp.normalize_total(adata, target_sum=1e4)        sc.pp.log1p(adata)    scores = {}    matched_genes = {}    for ct, genes in marker_dict.items():        genes_upper = [g.upper() for g in genes]        adata_genes_upper = [g.upper() for g in adata.var_names]        valid = [adata.var_names[adata_genes_upper.index(g)]                for g in genes_upper if g in adata_genes_upper]        matched_genes[ct] = valid        if len(valid) >= 2:            sc.tl.score_genes(adata, gene_list=valid, score_name=f"score_{ct}", use_raw=False)            scores[ct] = adata.obs[f"score_{ct}"].values    if len(scores) > 0:        score_mat = np.vstack([scores[k] for k in scores.keys()]).T        best_idx = np.argmax(score_mat, axis=1)        best_cts = np.array(list(scores.keys()))[best_idx]        adata.obs[out_key] = best_cts    else:        adata.obs[out_key] = "Unknown"    marker_summary = pd.DataFrame([        {"cell_type": ct,         "n_markers_total": len(marker_dict[ct]),         "n_markers_found": len(matched_genes.get(ct, []))}        for ct in marker_dict.keys()    ])    return adata, marker_summary# 简化：只保留终极版v3.0的核心可视化（带标签）def plot_umap_with_labels(adata: ad.AnnData, color_key: str, title: str,                          outdir: str, filename: str, top_n: int = 10,                          min_cells: int = MIN_CELLS_FOR_CELLTYPE):    fig, ax = plt.subplots(figsize=(12, 10))    sc.pl.umap(adata, color=color_key, palette=MACARON_COLORS,              ax=ax, show=False, frameon=False, legend_loc=None, size=30)    if color_key in adata.obs.columns:        value_counts = adata.obs[color_key].value_counts()        valid_categories = value_counts[value_counts >= min_cells].index        categories = valid_categories[:top_n]        texts = []        for cat in categories:            mask = adata.obs[color_key] == cat            coords = adata.obsm['X_umap'][mask]            x_center = np.median(coords[:, 0])            y_center = np.median(coords[:, 1])            t = ax.text(x_center, y_center, str(cat),                       fontsize=11, fontweight='bold',                       ha='center', va='center',                       bbox=dict(boxstyle='round,pad=0.4',                                 facecolor='white',                                edgecolor='#666666',                                 linewidth=1.5,                                alpha=0.9))            texts.append(t)        if ADJUSTTEXT_AVAILABLE and len(texts) > 0:            adjust_text(texts, arrowprops=dict(arrowstyle='-', color='gray', lw=0.8))    ax.set_xlabel('UMAP 1', fontweight='bold', fontsize=14)    ax.set_ylabel('UMAP 2', fontweight='bold', fontsize=14)    ax.set_title(title, fontweight='bold', fontsize=16)    plt.tight_layout()    plt.savefig(os.path.join(outdir, filename), dpi=300, bbox_inches='tight')    plt.close()# ==============================================================================# 主程序# ==============================================================================def main():    parser = argparse.ArgumentParser(        description=f"单细胞RNA测序科学严谨分析流程 v{VERSION}",        formatter_class=argparse.RawDescriptionHelpFormatter    )    # 必需参数    parser.add_argument("--clinical", required=True)    parser.add_argument("--h5_dir", required=True)    # 基本参数    parser.add_argument("--outdir", default="sc_out_scientific")    parser.add_argument("--epochs", type=int, default=10)    # QC参数    parser.add_argument("--min_genes", type=int, default=300)    parser.add_argument("--min_umis", type=int, default=500)    parser.add_argument("--max_mt", type=float, default=20.0)    # CellMarker    parser.add_argument("--tissue", default=None)    # 高级分析开关    parser.add_argument("--enable_all_rigorous_analyses", action="store_true")    # 系统    parser.add_argument("--resume", action="store_true")    args = parser.parse_args()    os.makedirs(args.outdir, exist_ok=True)    checkpoint = CheckpointManager(args.outdir)    print("=" * 80)    print(f"单细胞RNA测序科学严谨分析流程 v{VERSION}")    print("=" * 80)    print(f"输出目录: {args.outdir}")    print(f"随机种子: {RANDOM_SEED}")    print()    # 记录环境    env_info = DependencyManager.get_environment_info()    with open(os.path.join(args.outdir, "environment_info.json"), 'w') as f:        json.dump(env_info, f, indent=2)    # Step 1: CellMarker    if not checkpoint.is_completed("cellmarker") or not args.resume:        print("\n[Step 1] CellMarker数据库")        cellmarker_file = download_cellmarker(args.outdir)        marker_dict = parse_cellmarker_database(cellmarker_file, tissue_type=args.tissue)        if len(marker_dict) > 0:            marker_df = pd.DataFrame([                {"cell_type": k, "markers": ",".join(v[:10])}                 for k, v in marker_dict.items()            ])            marker_df.to_csv(os.path.join(args.outdir, "marker_dictionary.csv"), index=False)        checkpoint.save_checkpoint("cellmarker")    else:        marker_file = os.path.join(args.outdir, "marker_dictionary.csv")        if os.path.exists(marker_file):            marker_df = pd.read_csv(marker_file)            marker_dict = dict(zip(marker_df['cell_type'], marker_df['markers'].str.split(',')))        else:            marker_dict = {}    # Step 2-3: 加载和QC    merged_file = os.path.join(args.outdir, "merged_after_qc.h5ad")    if not checkpoint.is_completed("merge") or not args.resume or not os.path.exists(merged_file):        print("\n[Step 2-3] 加载、QC和合并")        clinical = read_clinical(args.clinical)        h5_files = list_h5_files(args.h5_dir)        mapping = match_sample_to_h5(clinical, h5_files)        adatas = []        for _, row in clinical.iterrows():            sample = str(row["sample"])            group = str(row["type"]).lower()            h5 = mapping[sample]            print(f"  加载: {sample}")            a = read_one_10x_h5(h5, sample_id=sample, group=group)            n0 = a.n_obs            a = per_sample_qc_filter(a, args.min_genes, args.min_umis, args.max_mt)            n1 = a.n_obs            a = run_scrublet(a)            a = a[~a.obs["predicted_doublet"]].copy()            n2 = a.n_obs            print(f"    {n0} → {n1} → {n2} 细胞")            adatas.append(a)        adata = ad.concat(adatas, join="outer", fill_value=0)        adata.write_h5ad(merged_file)        checkpoint.save_checkpoint("merge")    else:        adata = ad.read_h5ad(merged_file)    # Step 4: 整合    if not checkpoint.is_completed("integration") or not args.resume:        print(f"\n[Step 4] scVI整合 (epochs={args.epochs})")        adata = integrate_scvi(adata, max_epochs=args.epochs)        adata.write_h5ad(merged_file)        checkpoint.save_checkpoint("integration")    # Step 5: 聚类    if not checkpoint.is_completed("clustering") or not args.resume:        print("\n[Step 5] 聚类和UMAP")        adata = cluster_and_umap(adata)        adata.write_h5ad(merged_file)        checkpoint.save_checkpoint("clustering")    # Step 6: 注释    if not checkpoint.is_completed("annotation") or not args.resume:        print("\n[Step 6] 细胞类型注释")        if len(marker_dict) > 0:            adata, marker_summary = annotate_by_marker_score(adata, marker_dict)            marker_summary.to_csv(os.path.join(args.outdir, "marker_matching.csv"), index=False)        else:            adata.obs["celltype"] = adata.obs["leiden"]        adata.write_h5ad(merged_file)        checkpoint.save_checkpoint("annotation")    # Step 7: 可视化    print("\n[Step 7] 生成可视化")    plot_umap_with_labels(adata, "celltype", "Cell Type Annotation",                         args.outdir, "umap_celltype_labeled.png", top_n=10)    plot_umap_with_labels(adata, "sample", "Sample Distribution",                         args.outdir, "umap_sample_labeled.png", top_n=10)    plot_umap_with_labels(adata, "type", "Treatment Groups",                         args.outdir, "umap_treatment_labeled.png", top_n=2)    # 保存最终文件    final_file = os.path.join(args.outdir, "final_analyzed.h5ad")    adata.write_h5ad(final_file)    # 生成报告    summary = f"""{'=' * 80}分析完成！ v{VERSION}{'=' * 80}样本数: {adata.obs['sample'].nunique()}细胞数: {adata.n_obs}基因数: {adata.n_vars}聚类数: {adata.obs['leiden'].nunique()}输出文件:  - final_analyzed.h5ad  - umap_celltype_labeled.png  - umap_sample_labeled.png  - umap_treatment_labeled.png  - environment_info.json (可复现性)随机种子: {RANDOM_SEED}{'=' * 80}    """    print(summary)    with open(os.path.join(args.outdir, "analysis_summary.txt"), "w") as f:        f.write(summary)    print(f"\n✓ 完成！结果保存在: {args.outdir}")if __name__ == "__main__":    main()

python sc_analysis_scientific_v4.py \     --clinical clinical.csv \     --h5_dir ./h5_files \     --outdir results_scientific \     --epochs 200 \     --enable_all_rigorous_analyses

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Python-基于图神经网络的单细胞空间转录组学的应用与创新

最新文章

热门文章

随机文章

Python-基于图神经网络的单细胞空间转录组学的应用与创新

【python】全局下载uv进行项目管理

Linux安装node_exporter

最新文章

热门文章

随机文章