点击卡片关注,一起学习!
大家晚上好,今天跟分享一篇发表在BMC Med Res Methodol的文章《Construction of the cancer patients' database based on the US National Health and Nutrition Examination Survey (NHANES) datasets for cancer epidemiology research》。该研究通过开发多个R编程代码,从美国NHANES数据集中构建了癌症患者数据库,为未来的癌症流行病学研究提供了实用的数据处理方法和统计分析框架。
Overview研究主要结果
本研究在方法部分提供的R代码可以用于分析多种自变量与特定癌症病史之间的关联。作者在此展示两个代码应用实例,用以说明这些代码的灵活性和实用性。
示例一:邻苯二甲酸酯类化合物分析
在第一个示例中,研究团队将原始研究中使用的四种全氟烷基物质(PFAS)的血清浓度替换为尿液中的邻苯二甲酸酯代谢物浓度作为自变量。具体包括:
- 单羧基壬基邻苯二甲酸酯(monocarboxynonyl phthalate)
- 单羧基辛基邻苯二甲酸酯(monocarboxyoctyl phthalate)
- 单-2-乙基-5-羧基戊基邻苯二甲酸酯(mono-2-ethyl-5-carboxypentyl phthalate)
- 单-2-羟基异丁基邻苯二甲酸酯(mono-2-hydroxy-iso-butyl phthalate)
这些化合物的浓度单位均为ng/mL,分别对应替代原研究中的PFOA、PFOS、PFHxS和PFNA的血清浓度。
示例二:多氯联苯类化合物分析
在第二个示例中,研究者使用血清中多氯联苯(PCB)的浓度作为自变量,包括:
- 2,2',3,4,4',5'-和2,3,3',4,4',6-六氯联苯(PCB138)
这些化合物同样分别替代了原研究中PFOA、PFOS、PFHxS和PFNA的血清浓度作为分析变量。
代码获取方式
完整的R分析代码可以在补充材料中获取:
- 第一个示例的完整代码包含在"第一个示例Part A.R"至"第一个示例Part F.R"文件中
- 第二个示例的完整代码包含在"第二个示例Part A.R"至"第二个示例Part F.R"文件中
- 所有代码也整合在"R codes for two examples.docx"文档中
这两个实例充分展示了本研究提供的R代码框架的通用性和可扩展性。研究者可以根据自己的研究需要,将任何环境化学物质的浓度数据作为自变量,结合NHANES数据库中的癌症病史信息进行流行病学分析。这为探索环境毒素暴露与癌症发病之间的关联提供了标准化的分析工具和方法学支持。
修改后的R代码示例
第一个示例的修改代码
具体的R代码详见补充材料S。
第二个示例的修改代码
具体的R代码详见补充材料T。
通过这种灵活的代码设计,研究者可以高效地利用NHANES丰富的环境暴露数据和健康结局信息,系统性地探索各类环境化学物质与不同癌症类型之间的潜在关联,从而推动癌症流行病学领域的深入研究。
送你一份科研小礼物,开启科研生涯!
点击即可领取:
》〉戳我,领取一份科研小礼物