888.552.6760 安排一个咨询

生存比较统计方法

数据选择

本研究考虑了两个数据库。国家癌症研究所的监测、流行病学和最终结果(SEER)计划数据库和国家癌症数据库(NCDB)。

SEER数据库是一个权威的数据集,用来作为监测美国癌症发病率和死亡率的流行病学工具。SEER收集了全美17个地区的患者统计资料、肿瘤特征和生存数据,这些数据占美国人口的28%。

NCDB收集了来自美国和波多黎各癌症项目的癌症登记数据,捕获了这些地区大约75%的新诊断癌症。它包括患者特征、肿瘤分期、肿瘤组织学、首次治疗类型、疾病复发和使用标准化编码定义的生存数据。它通常用于指导质量改进和跟踪研究者发起的研究问题。NCDB提供了深入分析癌症诊断主要治疗.该数据的主要局限性是,队列不是基于人群的;它们是由病人就诊的医院确定的。

之所以选择SEER数据库进行分析,是因为它的内容全面,且可访问患者级数据(同时也因为NCDB数据库用于比较分析和外部报告的用途受到限制)。

SEER比较样本是根据美国癌症治疗中心的分类因素(如癌症分期)的类别选择的®(CTCA)癌症队列,并从CTCA中选择连续因素(如诊断时年龄)的重叠范围®癌症人群。这些因素影响生存结果。使用最新的SEER有限使用数据库(2016)选择SEER比较样本。最终生存分析仅包括来自CTCA和SEER数据库的患者,这些患者的癌症特征可从这两个数据库中获得:SEER总结分期、原发肿瘤部位、肿瘤组织学类型、初次诊断时的性别和年龄。例如,如果一个特定的SEER总结阶段只有一个数据库中的患者,那么这些患者都不会被用于分析。为了匹配初始诊断时的年龄,对每个样本计算了范围(即最小和最大年龄)。只有最初诊断时年龄属于CTCA和SEER样本的两个范围重叠的患者被纳入比较生存分析。

方法

对于CTCA和SEER样本,只对2000年至2015年首次诊断的癌症患者进行分析。由于无法计算这些患者的生存时间或审查时间,在CTCA数据库中删除了初次诊断日期或最后一次接触日期信息缺失的癌症病例。缺少SEER总结分期的癌症患者也被排除在分析之外。对于SEER和CTCA数据库中患有多种癌症的患者,只有第一次或原发癌症被诊断为生存比较。组织学编码(ICD-O-3)在9590和9989之间的患者被排除在分析之外,因为这些组织学类型通常不包括在任何非造血癌类型的SEER中。未接受CTCA治疗的患者也被排除在分析之外。

SEER数据库中的生存结果由SEER有限使用数据文件提供,作为完成的月数。这些数字然后通过将总月数除以12换算成年数。虽然最初诊断和死亡的确切日期可以在CTCA数据库中找到,但CTCA生存结果的计算方法与SEER数据库相同;完成月数的计算方法是:首先将最初诊断到死亡(或存活者的最后一次接触)的确切天数除以365.24 (SEER的方法),然后向下取整到完成月数,最后除以12。对于那些在进入数据库时仍活着或随访失败的患者,生存时间在最后一次接触日期和最初诊断日期之间进行统计审查。1

每一种癌症类型的生存曲线(定义为癌症患者从最初诊断开始的生存概率作为时间的函数)由Kaplan-Meier非参数积限估计器估计。1然后使用三种统计检验来比较CTCA数据库和SEER数据库之间的生存曲线。

其中两个检验,log rank检验和Wilcoxon检验是非参数的,因此,比较任何形状的生存曲线都是有效的。1然而,这些测试在检测生存差异的敏感度(或能力)上是不同的。日志等级测试通常是最敏感的或强大CTCA之间的风险或死亡的危险和预言家样本大约是成比例的,而Wilcoxon测试往往是更敏感的危害比早些时候死亡是高于在以后的。第三种检验,似然比检验,是三种检验中限制性最大的一种,因为它只适用于特殊的生存曲线(称为指数分布),这些曲线的死亡风险在时间上是恒定的。2

个体生存率的95%置信区间(95% CI)估计,以及诊断后特定时间点CTCA和SEER样本之间的生存率差异,是基于估计的生存曲线和相关的渐近正态分布。所有这些分析都是使用标准的SAS统计测试包(即SAS/PROC LIFETEST)实现的。3.调整分析也做了(结果未显示)使用日志等级分层测试和Wilcoxon测试以及Cox比例风险模型比较CTCA和预言家样本之间的生存结果调整后为诊断年龄的影响,性别(乳腺癌和前列腺癌除外)、种族、诊断时的婚姻状况,诊断时的保险状况和初次诊断年份。这些统计分析的技术细节可从CTCA获得。

限制

由于本网站引用的其他因素可能造成的混淆效应,直接统计比较癌症患者组之间的生存结果有局限性。因此,数据应该被认为是方向性的,而不是决定性的。

首先,尽管SEER项目在美国许多地理区域提供了大量的患者样本,但这两个样本,包括来自CTCA的样本,都是便利样本。这就排除了对统计推论作出因果解释的假设。其次,虽然如上文所述,采用了一些匹配类型来选择合适的SEER和CTCA比较样本,但重要协变量的分布,如初始诊断时的年龄、性别、种族、诊断时的婚姻状况、CTCA样本和SEER样本诊断时的保险状况和初始诊断年份并不完全相同。因此,即使调整了分析,也不能排除这些因素对分析和结果的混淆。此外,除分析中考虑到的因素和数据库中提供的因素外,还有许多因素(如家庭收入、流动性等)可能对实际的生存结果有贡献。由于这些因素,不能排除这些分析结果可能混淆的可能性。最后,生存分析是基于所有可能原因的死亡率的统计比较,而不仅仅是癌症特异性死亡。这些数据不包括在CTCA数据集中,因此无法进行统计比较。

访问我们的癌症治疗统计和结果页有关计算CTCA结果的方法学的更多信息,并阅读分析的局限性。

参考文献

1Kalbfleisch JD, Prentice RL。故障时间数据的统计分析。纽约:约翰·威利,1980年。

2无法无天的摩根富林明。统计方法和终生数据的方法,纽约:John Wiley & Sons, Inc, 1982。

3.SAS Institute Inc., SAS/STAT用户指南,卷2,版本6,1990。美国NC卡里。