关于发布医疗器械临床试验设计指导原则的通告(2018年食药监总局通告第6号)
六、样本量估算
临床试验收集受试人群中的疗效/安全性数据,用统计分析将基于主要评价指标的试验结论推断到与受试人群具有相同特征的目标人群。为实现样本(受试人群)代替总体(目标人群)的目的,临床试验需要一定的受试者数量(样本量)。样本量大小与主要评价指标的变异度呈正相关,与主要评价指标的组间差异呈负相关。
样本量一般以临床试验的主要评价指标进行估算。需在临床试验方案中说明样本量估算的相关要素及其确定依据、样本量的具体计算方法。附录2提供了样本量估算公式的样例,供参考。确定样本量的相关要素一般包括临床试验的设计类型和比较类型、主要评价指标的类型和定义、主要评价指标有临床实际意义的界值、主要评价指标的相关参数(如预期有效率、均值、标准差等)、Ⅰ类和Ⅱ类错误率以及预期的受试者脱落和方案违背的比例等。主要评价指标的相关参数根据已有临床数据和小样本可行性试验(如有)的结果来估算,需要在临床试验方案中明确这些估计值的确定依据。一般情况下,Ⅰ类错误概率α设定为双侧0.05或单侧0.025,Ⅱ类错误概率β设定为不大于0.2,预期受试者脱落和方案违背的比例不大于0.2,申请人可根据产品特征和试验设计的具体情形采用不同的取值,需充分论证其合理性。
七、临床试验设计需考虑的其他因素
由于器械的固有特征可能影响其临床试验设计,在进行器械临床试验设计时,需对以下因素予以考虑:
(一)器械的工作原理
器械的工作原理和作用机理可能与产品性能/安全性评价方法、临床试验设计是否恰当相关。
(二)使用者技术水平和培训
部分器械可能需要对使用者进行技能培训后才能被安全有效地使用,例如手术复杂的植入器械。在临床试验设计时,需考虑使用器械所必需的技能,研究者技能应能反映产品上市后在预期用途下的器械使用者的技能范围。
(三)学习曲线
部分器械使用方法新颖,存在一定的学习曲线。当临床试验过程中学习曲线明显时,试验方案中需考虑在学习曲线时间内收集的信息(例如明确定义哪些受试者是学习曲线时间段的一部分)以及在统计分析中报告这些结果。如果学习曲线陡峭,可能会影响产品说明书的相关内容和用户培训需求。
(四)人为因素
在器械设计开发过程中,对器械使用相关的人为因素的研究可能会指导器械的设计或使用说明书的制定,以使其更安全,更有效,或让受试者或医学专业人士更容易使用。
八、统计分析
(一)分析数据集的定义
意向性分析(Intention To Treat,简称ITT)原则是指主要分析应包括所有随机化的受试者,基于所有随机化受试者的分析集通常被称为ITT分析集。理论上需要对所有随机化受试者进行完整随访,但实际中很难实现。
临床试验常用的分析数据集包括全分析集(Full Analysis Set,FAS)、符合方案集(Per Protocol Set,PPS)和安全性数据集(Safety Set,SS)。需根据临床试验目的,遵循尽可能减少试验偏倚和防止Ⅰ类错误增加的原则,在临床试验方案中对上述数据集进行明确定义,规定不同数据集在有效性评价和安全性评价中的地位。全分析集为尽可能接近于包括所有随机化的受试者的分析集,通常应包括所有入组且使用过一次器械/接受过一次治疗的受试者,只有在非常有限的情形下才可剔除受试者,包括违反了重要的入组标准、入组后无任何观察数据的情形。符合方案集是全分析集的子集,包括已接受方案中规定的治疗、可获得主要评价指标的观察数据、对试验方案没有重大违背的受试者。若从全分析集和符合方案集中剔除受试者,一是需符合方案中的定义,二是需充分阐明剔除理由,需在盲态审核时阐明剔除理由。安全性数据集通常应包括所有入组且使用过一次器械/接受过一次治疗并进行过安全性评价的受试者。
需同时在全分析集、符合方案集中对试验结果进行统计分析。当二者结论一致时,可以增强试验结果的可信度。当二者结论不一致时,应对差异进行充分的讨论和解释。如果符合方案集中排除的受试者比例过大,或者因排除受试者导致试验结论的根本性变化(由全分析集中的试验失败变为符合方案集中的试验成功),将影响临床试验的可信度。
全分析集和符合方案集在优效性试验和等效性或非劣效性试验中所起作用不同。一般来说,在优效性试验中,应采用全分析集作为主要分析集,因为它包含了依从性差的受试者而可能低估了疗效,基于全分析集的分析结果是保守的。符合方案集显示试验器械按规定方案使用的效果,与上市后的疗效比较,可能高估疗效。在等效性或非劣效性试验中,用全分析集所分析的结果并不一定保守。
(二)缺失值和离群值
缺失值(临床试验观察指标的数据缺失)是临床试验结果偏倚的潜在来源,在临床试验方案的制定和执行过程中应采取充分的措施尽量减少数据缺失。对于缺失值的处理方法,特别是主要评价指标的缺失值,需根据具体情形,在方案中遵循保守原则规定恰当的处理方法,如末次观察值结转(Last Observation Carried Forward, LOCF)、基线观察值结转(Baseline Observation Carried Forward, BOCF)等。必要时,可考虑采用不同的缺失值处理方法进行敏感性分析。
不建议在统计分析中直接排除有缺失数据的受试者,因为该处理方式可能破坏入组的随机性、破坏受试人群的代表性、降低研究的把握度、增加Ⅰ类错误率。
对于离群值的处理,需要同时从医学和统计学两方面考虑,尤其是医学专业知识的判断。离群值的处理应在盲态审核时进行,如果试验方案中未预先规定处理方法,在实际资料分析时,需要进行敏感性分析,即比较包括和不包括离群值的两种试验结果,评估其对试验结果的影响。
(三)统计分析方法
1.统计描述
人口学指标、基线数据一般需选择合适的统计指标(如均数、标准差、中位数等)进行描述以比较组间的均衡性。
主要评价指标在进行统计推断时,需同时进行统计描述。值得注意的是,组间差异无统计学意义不能得出两组等效或非劣效的结论。
次要评价指标通常采用统计描述和差异检验进行统计分析。
2.假设检验和区间估计
在确定的检验水平(通常为双侧0.05)下,按照方案计算假设检验的检验统计量及其相应的P值,做出统计推断,完成假设检验。对于非劣效性试验,若P≤α,则无效假设被拒绝,可推断试验组非劣效于对照组。对于优效性试验,若P≤α,则无效假设被拒绝,可推断试验组临床优效于对照组。对于等效性试验,若P1≤α和P2≤α同时成立,则两个无效假设同时被拒绝,推断试验组与对照组等效。
亦可通过构建主要评价指标组间差异置信区间的方法达到假设检验的目的,将置信区间的上限和/或下限与事先制定的界值进行比较,以做出临床试验结论。按照方案中确定的方法计算主要评价指标组间差异的(1-α)置信区间,α通常选取双侧0.05。对于高优指标的非劣效性试验,若置信区间下限大于-∆(非劣效界值),可做出临床非劣效结论。对于优效性试验,若置信区间下限大于∆(优效界值),可做出临床优效结论。对于等效性试验,若置信区间的下限和上限在(-∆,∆)(等效界值的劣侧和优侧)范围内,可做出临床等效结论。
对试验结果进行统计推断时,建议同时采用假设检验和区间估计方法。
3.基线分析
除试验器械及相应治疗方式外,主要评价指标常常受到受试者基线变量的影响,如疾病的分型和程度、主要评价指标的基线数据等。因此,在试验方案中应识别可能对主要评价指标有重要影响的基线变量,在统计分析中将其作为协变量,采用恰当的方法(如协方差分析方法等),对试验结果进行校正,以修正试验组和对照组间由于协变量不均衡而对试验结果产生的影响。协变量的确定依据以及相应的校正方法的选择理由应在临床试验方案中予以说明。对于没有在临床试验方案中规定的协变量,通常不进行校正,或仅将校正后的结果作为参考。
4.中心效应
在多个中心开展临床试验,可在较短时间内入选所需的病例数,且样本更具有代表性,结果更具有推广性,但对试验结果的影响因素更为复杂。
在多个中心开展临床试验,需要组织制定标准操作规程,组织对参与临床试验的所有研究者进行临床试验方案和试验用医疗器械使用和维护的培训,以确保在临床试验方案执行、试验器械使用方面的一致性。当主要评价指标易受主观影响时,建议采取相关措施(如对研究者开展培训后进行一致性评估,采用独立评价中心,选择背对背评价方式等)以保障评价标准的一致性。尽管采取了相关质量控制措施,在多中心临床试验中,仍可能出现因不同中心在受试者基线特征、临床实践(如手术技术、评价经验)等方面存在差异,导致不同中心间的效应不尽相同。当中心与处理组间可能存在交互作用时,需在临床试验方案中预先规定中心效应的分析策略。当中心数量较多且各中心病例数较少时,一般无需考虑中心效应。
在多个中心开展临床试验,各中心试验组和对照组病例数的比例需与总样本的比例基本相同。当中心数量较少时,建议按中心进行分层设计,使各中心试验组与对照组病例数的比例基本相同。
九、临床试验的偏倚和随机误差
临床试验设计需考虑偏倚和随机误差。偏倚是偏离真值的系统误差的简称,在试验设计、试验实施和数据分析过程中均可引入偏倚,偏倚可导致错误的试验结论。临床试验设计时应尽量避免或减少偏倚。
统计量的随机误差受临床试验样本量的影响。一方面,较大的样本量可提供更多的数据,使器械性能/安全性评价的随机误差更小。另一方面,更大的样本量可能引入更大的偏倚,导致无临床意义的差异变得具有统计学意义。试验设计应该旨在使试验结果同时具有临床和统计学意义。
检验假设举例
本附录中列举的检验假设和检验统计量,为特定试验类型、特定评价指标类型下的举例,有其适用范围和前提条件。
一、高优指标的两样本t检验
表1以高优指标的两样本t检验为例,列举了优效性试验、等效性试验、非劣效性试验的检验假设和检验统计量的计算公式。H0和H1分别表示原假设和备择检验;T和C分别表示试验组和对照组主要评价指标的参数(如总体均数、总体率等);为两组参数差值(T-C)的标准误;∆表示界值,优效性界值用∆表示,非劣效界值用-∆表示,等效界值的优侧和劣侧分别用∆和-∆表示;t/t1/t2为检验统计量。
表1 不同试验类型的检验假设和检验统计量
(以高优指标的两样本t检验为例)

二、单组目标值试验的检验假设
π0为主要评价指标的目标值,π1为主要评价指标的总体率/均数。对于高优指标,检验假设为H0:π1≤π0,H1:π1>π0。对于低优指标,检验假设为H0:π1≥π0,H1:π1<π0。
样本量估算公式举例
本附录中列举的样本量估算公式,为样本量估算公式举例,有其适用范围和前提条件。在实际的样本量估算中,需根据具体试验设计选择适用公式,包括本附录中未列举的公式。
一、平行对照设计样本量估算
以下公式中,nT、nC分别为试验组和对照组的样本量;Z1-α/2、Z1-β为标准正态分布的分数位,当α=0.05时,Z1-α/2=1.96,当β=0.2时,Z1-β=0.842;(Z1-α/2+Z1-β)2=7.85
(一)优效性试验
当试验组和对照组按照1:1随机化分组,主要评价指标为事件发生率,其方差齐且不接近于0%或100%时,其样本量估算公式为:
PT、PC分别为试验组和对照组预期事件发生率;|D|为两组预期率差的绝对值,|D|= |PT﹣PC|;Δ为优效性界值,取正值。
当试验组和对照组按照1:1随机化分组,主要评价指标为定量指标且方差齐时,其样本量估算公式为:
σ为对照组预期标准差;|D|为预期的两组均数之差的绝对值,|D|=|uT﹣uC|;Δ为优效性界值,取正值。
使用该公式计算样本量为Z值计算的结果,小样本时宜使用t值迭代,或总例数增加2—3例。
(二)等效性试验
当试验组和对照组按照1:1随机化分组,主要评价指标为事件发生率,其方差齐且不接近于0%或100%时,其样本量估算公式为:
PT、PC分别为试验组和对照组预期事件发生率;|D|为两组预期率差的绝对值,|D|= |PT﹣PC|;∆为等效界值(适用于劣侧界值与优侧界值相等的情形),取正值。
当试验组和对照组按照1:1随机化分组,主要评价指标为定量指标且方差齐时,其样本量估算公式为:
σ为对照组预期标准差;|D|为预期的两组均数之差的绝对值,|D|=|uT﹣uC|;∆为等效界值(适用于劣侧界值与优侧界值相等的情形),取正值。
使用该公式计算样本量为Z值计算的结果,小样本时宜使用t值迭代,或总例数增加2—3例。
(三)非劣效试验
当试验组和对照组按照1:1随机化分组,主要评价指标为预期事件发生率,其方差齐且不接近于0%或100%时,其样本量估算公式为:
PT、PC分别为试验组和对照组预期事件发生率; |D|为两组预期率差的绝对值, |D|= |PT﹣PC|,∆为非劣效界值,取负值。
当试验组和对照组按照1:1随机化分组,主要评价指标为定量指标且方差齐时,其样本量估算公式为:
σ为对照组预期标准差;|D|为预期的两组均数之差的绝对值,|D|=|uT﹣uC|;∆为非劣效界值,取负值。
使用该公式计算样本量为Z值计算的结果,小样本时宜使用t值迭代,或总例数增加2—3例。
二、单组目标值试验的样本量估算
以下公式中,n为试验组样本量;Z1-α/2、Z1-β为标准正态分布的分数位,当α=0.05时,Z1-α/2=1.96,当β=0.2时,Z1-β=0.842。
当主要评价指标为事件发生率,统计发生率的研究周期相同,且发生率不接近于0%或100%时,其样本量估算公式为:
PT为试验组预期事件发生率,P0为目标值。
三、诊断试验的样本量估算
以抽样调查设计的诊断试验为例,其评价指标为灵敏度和特异度,用灵敏度计算阳性组的样本量,用特异度计算阴性组的样本量。
阳性组/阴性组样本量的估算公式为:
公式中n为阳性组/阴性组样本量,Z1-α/2为标准正态分布的分位数,P为灵敏度或特异度的预期值,Δ为P的允许误差大小,一般取P的95%置信区间宽度的一半,常用的取值为0.05—0.10。