1)数据分析 1.1.数据质量校验 1.2.数据分布与趋势探查 2)数据清洗 2.1.数据融合、数据筛选、缺失值处理、数据矫正 2.2.结局变量提取、one-hot编码、数据合并 3)特征工程 3.1.RFE-SVM特征筛选、聚类算法、PCA、UMAP、岭回归与Lasso回归等 3.2.特征重要性:基于SHAP/eli5/LIME的模型可解释性分析等、自动化降维方法等 4)模型构建与评估 4.1.模型构建、超参数搜索运用 4.2.模型评估指标:Accuracy、Precision、F1 Score、ROC Curve、AUC、MSE、R-Squared等 4.3.集成学习与非集成学习模型构建与对比分析:Bagging、Boosting、HistGradientBoosting、CatBoost、XGBRF、XGBRF、LGBMC、DecisionTree、RandomForest、Logistic、SVC、MultiomialNB、BernoulliNB、GaussianNB、KNN等 5)机器学习生存模型框架实战 5.1.生存框架完整分析流程 5.2.模型性能评价、生存模型比较的AUC折线图表述、IBF折线图模型比较、特征选择、线性生存回归模型等 5.3.生存分析:KM分析、Log-Rank分析、COX分析等 5.4.深度学习生存框架分析 6)数据分析 6.1.类别比较图表、数据关系图表、数据分布图表 6.2.特征分析图、相关性分析 6.3.假设检验 临床案例实战: 1)融合乳腺癌生信数据、临床数据的生存预测(生存分析) 2)前列腺癌良恶性预测(分类问题) 3)糖尿病遗传风险预测(回归问题) 4)肺癌良恶性预测(分类问题) 5)基于机器学习的乳腺癌疾病风险预测 6)心脏病预测模型构建和模型可解释性分析 |