Circulation:高直接影响因子期刊上发表的那些非劣效性试验
近期登载的非劣效性鉴定更加多,然而,这些研究者的程序语言质量如何,我们还知之甚少。近日,《Circulation》杂志登载了一项研究者,以全身性层面为例,对高影响因子Journal上登载的非劣效性鉴定的特征、程序语言质量等完成了阐述。研究者相符了1990-2016年登载在JAMA、Lancet和NEJM上的非劣效性鉴定。两位独立评审员萃取了资料。高度重视的资料要素以外非劣效性界值,哪些研究者的结果降到了非劣效性,哪些鉴定依赖于显然会影响非劣效性推断结果的主要或次要状况。主要的程序语言在实践里状况以外:从未同时重现ITT量化(意向性量化)和PP量化(符合研究者促请量化)的结果,α>0.05,另行放射治疗目的没与最佳放射治疗促请完成比较,从未证明非劣效性界值的合理性,路由表剔除数目或失访率≥10%。次要状况以外次优盲法,是否是组潜藏等。研究者结果研究者医务人员在PubMed上完成检索,共检索到2,544篇书评,其里110篇(以外111项鉴定)符合崭露头角另行标准(表1)。表1 崭露头角的非劣效鉴定的基本研究者特征研究者登载的时间跨度从1992年到2016年。这些鉴定里,样本量人口统计为3,006(IQR:1,021-6,068)。可鉴定到非劣效性的效能(power)人口统计为86%(IQR:80%-90%)。可带入主要起始站量化的患儿人口统计为2,707(IQR:1,021-5,966)。9项研究者(8.1%)月内终止(4项研究者由于安全性问题,3项由于入组速度慢,1项研究者见到无益处,1项研究者由于完整性受损)。非劣效性界值60项(54.0%)鉴定的非劣效性界值是基于ARD(绝对几率差异性,absolute risk difference)尽快的,50项(45.0%)鉴定基于一般来说差异性(29项基于HR,14项基于RR,7项鉴定基于OR)。1项鉴定的界值基于一般来说差异性但从未作进一步分成,1项鉴定从未调查结果非劣效性界值。各项鉴定的非劣效性界值差异性相当大(ARD在0.4%~25%,HR在1.05~2.85,RR在1.1~1.8,OR在1.1~2.0)。在登载过研究者设计/研究者促请系统性程序语言书评的鉴定里,研究者医务人员见到有7篇鉴定的研究者设计/促请与事与愿违登载的学术论文密切关系依赖于差异性或有反馈遗漏。有的在事与愿违登载的书评里更改了非劣效性界值,有的则缺乏如何必需非劣效性界值系统性的之外或全部显然。主要起始站的结果111项鉴定里,有2项鉴定,无法评估方差。在109项符合另行标准的鉴定里,86项(78.9%)的鉴定揭示很强非劣效性(其里20项鉴定的结果也揭示出有优效性);23项(21.1%)鉴定没降到非劣效性(16项研究者的结果不相符,7项研究者揭示默许举措的命运更差)(左图1)。 左图1 纳入研究者的主要起始站的结果在95项(85.6%)鉴定里,主要起始站量化是基于ITT量化或校正ITT量化,11项(9.9%)鉴定用做PP量化,5项(4.5%)用做其他或没定义的量化类型。绝大多数(90%)鉴定在参考资料里适当地调查结果了研究者结果,即是非劣效,优效或劣效性,研究者如果从未降到,则指出有没降到非劣效性。但是,还有一些鉴定,要么是参考资料给出有的反馈和研究者结果密切关系依赖于差异性,要么是参考资料包括的反馈不足以。程序语言和调查结果的在实践里表2和左图2揭示了依赖于主要和次要在实践里状况的鉴定的比例。70项鉴定(63.1%)通过对另一个路由表人群的二次量化(例如,如果首次量化是ITT量化,则再来作一次PP量化)来重现主要研究者起始站,其里66项鉴定的结果一致,而4项鉴定的两次量化结果不一致。 表2. 纳入的研究者里是否是依赖于显然导致偏倚的状况左图2 依赖于主要和次要在实践里状况的鉴定分布情况68项鉴定(61.3%)包括了如何相符非劣效性界值,而43项鉴定(38.7%)从未。110项(99.0%)鉴定的单侧α≤0.05,其里44项鉴定的单侧α≤0.025。事后量化(post-hoc analysis)见到,与医疗器械鉴定来得,药品鉴定的α水平更偏高(Wilcoxon秩和鉴定P = 0.02)。在27项研究者里(24.3%),有> 10%的参与者月内退出有,以外随访失访,月内暂时默许或其他情况(表2)。 总体而言,基于所有主要的偏倚状况,27项鉴定(24.3%)被认为很强偏高偏倚几率。97项(87.3%)鉴定的副标题或参考资料里调查结果了非劣效性设计。67项(60.4%)鉴定,除了事与愿违的研究者学术论文,还同步登载了研究者设计或研究者促请的程序语言书评。在这67项鉴定里,8项(11.9%)鉴定的非劣效性界值在事与愿违投稿学术论文与促请密切关系依赖于差异性或在其里一篇书评里没披露。大多数鉴定(n = 60,54%)是对外开放附加鉴定,12项鉴定(10.8%)为单盲,39项(35.1%)为安慰剂。100项鉴定完成了组潜藏(90%)。91项鉴定(82%)对主要起始站完成了盲法推定。总之,基于所有的次要偏倚状况,25项鉴定(22.5%)很强偏高偏倚几率(左图2)。根据所有主要和次要状况,有7项鉴定(6.3%)很强偏高偏倚几率。事后量化没揭示出有三种Journal的书评在主要状况(Kruskal-Wallis鉴定P = 0.28)或次要状况(Kruskal-Wallis鉴定P = 0.11)上的差异性。然而,对非劣效性鉴定的研究者设计或研究者促请的可获得性完成评估,在三种Journal里,NEJM登载的鉴定里,有74.2%登载过系统性的程序语言书评或有在线的研究者促请,JAMA为53.3%,Lancet为33.3%(Fisher精确鉴定P = 0.001)。时间趋势近期,这些Journal上登载的全身性非劣效性鉴定有所增加(P则有0.001 for trend,左图3)。一项事后量化揭示,在111项纳入的鉴定里,登载时间在2010年后的有52项(46.8%)。2010年便发布的鉴定,依赖于程序语言或研究者调查结果在实践里的几率有所降偏高(2010年之前 vs 2010年便,主要偏倚状况和次要状况的P = 0.03和0.002)。讨论全身性层面里的非劣效性鉴定更加多地登载在高威望的Journal上,这些鉴定里非劣效性鉴定主要用做对另行默许举措的鉴定。并且大多数是大型多里心研究者。鉴于许多非劣效性鉴定已成为批准另行疗法的基础,很有应当对他们完成研究者。尽管大多数鉴定辩称另行放射治疗目的来得对照组的非劣效性,但很多研究者依赖于很强偏倚几率的程序语言或研究者调查结果在实践里,显然会削减其结论的可信度。有应当提高对这些在实践里状况的认识,更好依从FDA和CONSORT最另行关于非劣效性鉴定设计、试行和调查结果的促请。值得注意出有处:Behnood Bikdeli, et al. Non-Inferiority Designed Cardiovascular Trials in Highest-Impact Journals: Main Findings, Methodological Quality and Time Trends. Circulation. Jun 2019.