系统评价
一、系统评价概述及相关概念
(一)系统评价
定义
- 系统评价是一全新的文献综合方法,指针对某一具体临床问题,系统、全面地收集全世界所有已发表或未发表的临床研究,采用临床流行病学严格评价文献的原则和方法,筛选出符合质量标准的文献,进行定性或定量合成,去粗取精,去伪存真,得出综合可靠的结论。同时,随着新的临床研究结果的出现进行及时的更新。
为什么要进行系统评价/Meta-分析?
- 大规模RCT消耗人力, 财力和时间
- 多数单位没有条件作大规模RCT
- 多数单个RCT样本量小而不能得出准确可靠的结论
- 系统评价/Meta-分析联合单个RCT,增大了样本含量
- 高质量的系统评价/Meta-分析类似于大规模多中心RCT(金标准)
- 系统评价使证据的使用更加方便
(二)Meta-分析
定义
- 广义:系统评价的一种类型
- 用定量的方法分析、综合、概括各研究结果的一种系统评价。
- 狭义:一种合成证据的方法
- Meta分析是一种统计分析方法,它将多个独立的临床研究结果合并成一个单独数字进行定量分析。
- Meta分析可以是系统评价也可以不是系统评价,而系统评价可以是Meta-分析也可以不是Meta分析。
系统评价与Meta分析的区别
系统评价
- 必须预先制订详细周密的研究计划书
- 根据系统评价的目的严格纳入不同设计类型的研究,文献来源广,有详细的检索策略
- 严格评价纳入研究质量并根据质量决定结论
- 定量系统评价包含对多个研究资料重新计算并合并分析的Meta分析;定性分析不包含Meta分析
Meta分析
- 可有研究计划书
- 纳入研究可为各种设计类型
- 不一定进行质量评价
- 可对多个研究的结果进行合成分析,也可以成为系统评价进行定量分析的一部分
(三)文献综述
根据特定的目的和需要围绕某一题目收集相关的医学文献,采用定性分析的方法,对论文的研究目的、方法、结果、结论和观点等进行分析和评价,结合自己的观点和临床经验进行阐述和评论,总结成文,以便读者在较短的时间内了解某一专题的研究概况和发展方向,解决临床实践中遇到的问题
系统评价(SR)与传统综述(narrative review;NR)
相同点
①共同的目的
- 为某领域或专业提供大量、最新知识与信息。
②共同的特点
- 均属于回顾性、观察性研究与评价,所以都可能存在系统偏倚与随机误差。
③共同的选题要点
- 常选择某近年发展较大、存有较多争议的专题开展综述,作者需对收集到的资料进行归纳、整理并提出自己的意见。
不同点
NR存在的问题
- ①作者对综述将阐述的观点常常有一定的倾向性,所以收集文献时多选或仅选与自己观点相同的文献;
- ②缺乏统一的检索方法,难作到全面、广泛地收集文献;
- ③筛选、评价文献时缺乏严格、统一的标准;
- ④一般不对文献的真实性、可靠性等进行科学评价;
- ⑤综合资料时,常常不考虑文献的质量好坏、样本含量大小、设计是否科学合理,都一视同仁地陈述其观点和结论;
- ⑥对资料的综合评价往往是定性的,缺乏科学的定量指标;
- ⑦对所收集文献中存在的偏倚和错误常不进行评价与纠正。
SR的特点
- ①评价范围相对较窄,但针对性很强;
- ②需广泛、全面收集与该问题相关的所有文献;
- ③用同一严格的科学标准对收集到的文献进行评估,删除不合格文献;
- ④可对文献进行定量综合;
- ⑤可相对较好地控制偏倚和错误;
- ⑥SR一般是以论著的形式发表。
(四)Cochrane系统评价
- Cochrane系统评价是Cochrane协作网协的评价人员按照Cochrane统一工作手册,在相应Cochrane评价小组的指导和帮助下完成的系统评价,其结果发表在Cochrane图书馆(The Cochrane Library 光盘和因特网)上。
- 固定化格式是Cochrane系统评价的一个鲜明的特点
二、目的
应对信息时代挑战
- 系统评价采用严格的选择、评价方法,将真实、可靠而有临床应用价值的信息进行合成,为各层次的决策者提供科学依据。
及时转化和应用研究成果
- 将多个质量较高的同质临床试验结果应用系统评价方法进行合成,得出可靠的结论,将有效措施及时转化和应用于临床实践和决策。
提高统计效率
- 将多个研究结果用系统评价方法进行合并,相当于扩大了样本含量,提高了统计效能,得出的结果更为可靠。
系统评价的作用
1.对证据的质量进行严格评价,提供科学的证据;
2.增大样本含量,提高统计检验效能,得出更为可靠的结论;
3.评价文献中各研究结果的一致性,试图解决或调和不同研究间的矛盾结论;
4.发现某些单个研究未阐明的问题;
5.避免重复研究;
6.使证据的使用更加方便
7.及时转化和应用研究成果
三、系统评价的步骤与方法
系统评价的步骤
1.选题
选题和立题的基本原则
- 必要性:具有研究价值
- 实用性:解决临床问题
- 科学性:符合客观规律
- 可行性:具备相关条件
- 创新性:不要重复他人的工作
提出问题—-选题
五要素原则
- - 研究的受试对象(Patient, P)
- - 主要的干预措施(Intervention, I; Compare, C)
- - 研究的重要结果(Outcome, O)
- - 研究的设计方案(Study, S)
两种格式
限定对照
- 干预措施A与干预措施B相比治疗某疾病
不限定对照
- 某干预措施治疗某疾病
范围的确定取决于多种因素
- 临床意义和价值
- 基础理论是否支持
- 流行病学资料
- 推广价值
- 有无完成系统评价的可行性等。
注意
- 避免研究问题太窄:文献纳入量较少,推广性较差
- 避免研究问题太广:浪费资源、影响结果的真实性
- 避免重复
- 避免在进行系统评价的过程中对研究问题作大的改动
- 研究问题改动后,应对文献检索、选择、评价作相应的调整
2.注册(cochrane SR)
- 选择题目,将题目和背景情况告之评价小组协调员,确定该题目是否已被注册
- 等待专家评审,确定是否有必要进行该题目的系统评价
- 如果该题目无人注册且有研究的价值,评价小组将通知你填写有关表格,确定你的注册资格
3.撰写系统评价计划书
系统评价计划书的组成
背景:选题、立题的依据
- ①疾病概述:如疾病的定义、病因及疾病负担等;
- ②治疗现状概述;
- ③被评价干预措施概述,包括药理学、用法、当前临床研究及其疗效等;
- ④本系统评价的必要性简述。
系统评价的目的
- 通常用一句话描述,包括干预措施、疾病或(和)对象、研究目的等。
纳入与排除原始研究的标准
纳入标准
确定纳入的研究的标准
①研究类型
- 确定纳入研究的设计方案,有无语种限制
通常纳入随机对照试验或半随机对照试验,但在特殊情况下也可纳入非随机对照试验。
- 确定纳入研究的设计方案,有无语种限制
②研究对象
- 患有某种疾病的特定人群
- 包括确定疾病种类或亚型;研究对象特征(年龄、性别、种族、教育程度、疾病类型、疾病的某些特征)及其场所(社区、医院、疗养院);有无研究亚组等
③干预措施
- 确定研究的干预措施
- 确定要比较的措施
- 确定对照组的措施
④结果测量指标
主要指标
- 特异性指标及终点指标(如发病率、死亡率、复发率、病人的生活能力、生存质量和工作能力等)
次要指标
- 中间指标(如降低血压、改善实验室指标等)
排除标准
- 用排除标准来排除具有影响结果的因素的文献
- 如相同或相似或内容重复报道文献、对一个临床试验分期(初期、中期、终期)报告的文献、无必需的基本数据或不能从原文中推导出基本数据的文献。
检索策略
电子检索
根据研究问题确定检索词、检索数据库、语种
通常有三套检索式:
- 1)用于检索疾病相关情况的检索式;
- 2)用于检索想要评价的干预措施;
- 3)用于检索准备纳入试验的设计类型(如RCT)
确定数据库
- 1)中文数据库:CBM、VIP、CNKI等
- 2)英文数据库:Medline、Embase、Cochrane、SCI等
- 3)专业数据库、会议论文集、毕业论文、专著、 科研资助机构、政府工作报告、医药公司等
手工检索
- 人工的将整本杂志一页一页地进行检查,包括论文、摘要、消息栏、社论、信件和其他内容,寻找合格的试验报告。
- 1)电子数据库没有收录所有的试验报告(未发表文献)
- 2)即使存在电子数据库中,也可能因没被标注索引而不易检出
系统评价的方法:选择、评价、提取数据、分析数据
- 运用 RevMan5.3软件进行统计分析。采用Q值和P值分析文献有无统计学异质性,用I?描述异质性大小。各研究间无统计学异质性时的合并分析采用固定效应模型;有统计学异质性时,先考虑采用亚组分析(如按地区,年龄等分亚组,仍不能消除异质性时,再考虑采用随机效应模型进行合并分析。
- 敏感性分析、发表偏倚评估
其它:封面、致谢、利益冲突、参考文献
时间安排、人员、经费、结果传播等
4.提交系统评价计划书(cochrane SR)
- 将完成的计划书送交评价小组协调员和专家评审,对研究目的、方法提出修改意见和建议
- 评价者根据评审结果进行修改,再送评价小组评审,直到符合要求为止
- 合格的系统评价计划书将发表在Cochrane图书馆上,进一步征求意见以完善系统评价的方法
5.完成系统评价全文
Cochrane系统评价制作步骤
- 全面收集全世界相关的研究文献根据制定的纳入和排除标准选择研究文献
- 提取每个研究的资料:基线、方法学质量及结果
- 评价每一研究的质量
- 数据处理(统计学处理)
- 得出结果
- 结果解释(讨论):证据的可靠性、临床意义、研究意义
- 结论
6.更新系统评价(cochrane SR)
- Cochrane的SR每隔2年做一次更新,更新后的SR被当作一篇新论著发表。
方法
- 文献选择的方法
- (1)初筛 根据检索出的引文信息,筛除明显不合格的文献,但对介于肯定与不肯定间的文献则应查出全文,再进行筛选。
- (2)阅读全文 进行进一步阅读分析,确定所选出的文献是否合格。
- (3)与文献作者联系 SR过程中一旦排除的文献将不再录用。因此当某文献中提供的信息不全面,无法进行确定;或有疑问、有分歧的的文献应先纳入,再通过与作者联系获得有关的详细、准确信息后再决定取舍。
避免偏倚的方法
多少人选择,是否采用盲法
是否包括专业和非专业人员
如何解决意见分歧
- 两个评价员依照既定的纳入标准,盲法独立地进行临床试验的鉴定和选择,任何分歧将通过讨论或第三者仲裁来解决
资料的提取方法
包括资料提取方式、提取资料的内容以及收集的方法(多少人收集等)。
需要收集的数据应该包括以下内容
(1)一般资料 文献题目、评价者姓名、原始文献的出处和编号、评价的日期等。
(2)研究特征 研究的合格性、研究对象特征、研究地点、设计方案、干预措施(研究因素)、实施方法、偏倚防止措施 、结局测量方法等
(3)研究结果 随访时间、失访和退出人数及以下结果
分类变量
- 要收集每组的总人数、结局事件发生率
连续变量
- 要收集每组的总人数、均数、标准差或标准误。
资料提取
一般资料
- 文献题目
- 作者姓名
- 文献来源
研究特征
- 设计方案、质量
- 研究对象基线资料
- 干预措施实施情况
结局测量
- 文献报告的所有结果及结局测量的方法
由两名作者独立完成对检索后得到文献地纳入/排除以及数据提取并交叉核对,遇到不同意见讨论或咨询第三位评价者,直至意见一致。
评价文献质量
- 评价单个研究在设计、实施和分析过程中可能存在的误差及其程度。
国际上随机对照试验的一些趋势
- 重视大样本
- 重视随机方法是否可靠
- 重视采用与病人关系大的长期预后指标作为判效指标
- 重视采用意向治疗分析(intention-to-treat analysis ITT)法
- 重视结果的推广价值
- 对亚组分析的结果持谨慎态度,不轻易下结论
- 统计方法:RR、OR、CI
质量评价
质量评价的目的
- (1)确定纳入原始文献的质量阈值,将低于某一质量标准的试验排除,同时可显示所纳入的文献质量平分的最高值与最低值
- (2)解释不同文献结果差异的原因。
- (3)作为敏感性分析和定量分析时赋予权重的依据。
质量评价的内容和方法
(1)内在真实性的评价
- 内在真实性(internal validity)指单个研究的结果与真实值相符合的程度,即研究受各种偏倚影响的情况。
误差与偏倚的关系
临床研究中误差的来源可以分为两类:一类是随机误差(random error);一类是系统误差(systematic error)。
随机误差:是由于抽样误差所引起的,其大小可以用统计学方法进行估计,但没有方向性,也就是说,这种误差的存在使研究结果随机的高于或小于真值。
系统误差即偏倚(bias):是指研究结果系统地偏离了真实情况。与随机误差不同,偏倚的存在总是造成研究结果或高于真值或低于真值,因而具有方向性。
偏倚产生的原因
- 测量仪器的不准,样本过小,试验设计不合理,分配或分组不均衡,抽样未随机,测量者有主观倾向等。
在RCT中,偏倚主要来自四个方面
①选择偏倚 如研究对象的来源有偏或分组时没有作到真正的随机,造成组间基线不可比,从而夸大或缩小了干预措施的效应。
选择性偏倚产生的环节
受试对象分组不当
随机化
分配方案未隐藏
分配隐藏
- 隐蔽分组或分配隐藏(allocation concealment)最早称为盲法分组(blinded allocation),指分组人员不知道受试对象的任何情况,避免因各种人为因素影响随机分组造成选择性偏倚的措施。
- 为了避免与实施过程中的盲法混淆,遂将blinded allocation(盲法分组)改称allocation concealment或concealed allocationt”。
- 国内对这个术语的翻译不统一,以分配隐藏、方案隐藏和随机化隐藏多见,我们认为这个词译为隐蔽分组更加接近其本来的意思,更有助于对正确实施allocation concealment的理解。
- 之所以必须实施隐蔽分组是基于这样一种可能:如果实施分组的人员又同时负责纳入受试对象,即使随机序列的产生做得很好,在纳入受试对象时很可能自觉或不自觉地将治疗组的危重患者或剔除或带倾向性地分到对照组或治疗组,使随机分配形同虚设,导致治疗结果被夸大,调查显示,不实施或不充分实施隐蔽分组会夸大结果达42%以上 。
- 迄今国际国内的大多数随机对照试验报告对隐蔽分组要么不做描述,要么描述错误的方法,最常见的错误是将隐蔽分组与实施过程中的盲法混淆起来。这反映出目前绝大多数临床随机对照试验论文的作者并不清楚隐蔽分组的准确定义和实施方法。
②实施偏倚 如没有真正作到盲法或安慰剂失密等造成的结果偏倚。
实施偏倚的几种情况
沾染
- 对照组的患者接受了试验组的防治措施,使试验组和对照组间的疗效差异减小。
干扰
- 试验组或对照组接收了类似试验措施的其他处理,人为扩大或减小组间疗效的真实差异
实施偏倚的控制
盲法(blinding)指受试对象、试验实施者和结果测量者均不知道受试对象分在何组,是一种避免实施偏倚和测量偏倚的措施。
- 盲法有单盲、双盲和三盲。对受试对象、试验实施者和结果测量者三者之一实施盲法,称为单盲;对其中两者实施盲法,称为双盲;对3个环节均实施盲法即为三盲。
- 通常采用双盲,如果为主观性指标,则最重要的环节是对结果测量者和受试对象实施盲法,对于外科性和针灸类试验,因施术者无法盲,对受试者和测量者施盲就尤为重要。
- 除上述三盲之外,还可对统计分析人员施盲,即数据揭盲后,只告诉统计分析人员何组数据为A组,何组为B组,而不知道何组为治疗组,何组为对照组,甚至不知道该试验的设计是非劣效检验,或等效检验,还是优效检验,避免数据分析过程出现人为因素而影响结果,此为四盲。
- 正确描述随机方法、隐蔽分组和盲法
③随访偏倚 试验随访的过程中,因试验组或对照组退出、失访、违背治疗方案的人数或情况不一样所造成的系统偏倚。
- 在队列研究和随机对照试验中,失访是难以避免的。失访往往导致研究结果的失真,因为失访者的特征或疗效与留在研究中的人群有差异。
- 在随机对照试验中,失访的原因往往是并发症、副反应、疗效差等,导致研究结果不能代表真实。
- 一般来说,如果失访率小于5%,对结果几乎没有什么影响;如果失访率达到30%或以上,研究结果将极不可靠。
④测量偏倚 测量试验组与对照组的方法不一致所造成的偏倚。
数据处理经常选用的方法
pp分析(per-protocol analysis)又称符合方案集分析,处理数据时将符合试验方案规定、依从性好、完成了所规定的全部试验措施的病例资料进行统计分析。
在进行SR时,针对不同研究对退出者的处理方法不同的情况,常采用以下的方法进行处理:
1.意向分析法(intention to treat analysis)
- 又称为意愿治疗分析法,其基本思想是:分组后,无论该病例是否按时、足量、全程完成治疗,都将结果归到随机分配所在组进行结果分析。
2.最差结果演示法(worst-case scenario)
- 其基本思想是:当不能获得失访或退出病例的结局时,将这些病例的结果统统归为无效结局进行分析
3.最佳结果演示法(best-case scenario)
- 其基本思想是:当不能获得失访或退出病例的结局时,将这些病例的结果统统归为有效结局进行分析。
质量评价中应注意的问题
- (1)进行试验质量评价通常至少由2名评价人员独立进行;
- (2)常常先选3-6篇研究文章进行初评,检验制定的质量标准是否恰当,评价结果是否一致;
- (3)评价者应熟练临床流行病学方法学及相关领域知识;
- (4)是否需要采用盲法评价还存有争议。
质量评价的有限性
一方面:由于试验报告的不规范,当发现问题时,难以区别是设计的错误还是报告的缺陷。解决的方法
- (1)向研究者了解更多的信息
- (2)运用发表文章的“临床试验标准”进行限制。
另一方面:现有的证据尚不能充分证明真实性测量标准与实际的研究结局间的绝对联系。
外在真实性的评价
外在真实性(external validity )是指研究结果应用于研究对象以外时,外推性的好坏。它主要受以下三方面的影响
- ①研究对象特征
- ②干预措施的实施方法,包括药物的剂型、剂量、给药时间、给药途径、疗程及依从性等
- ③所评价的结局及其判定标准。
评价真实性的方法
- 第一类 清单或一览表评价(checklist) 一般会给出许多项目,逐条评价,不予评分,以定性为主。
- 第二类 量表评分(scale) 也有许多项目,常被设计成固定格式的表格,并要求对每一条目给予评分,达到定量的目的。在Meta-分析中,对每一研究赋予权重时可以此为参考。
资料分析
资料的分析(数据的处理)方法
- 不同类型资料(如计量或计数资料)拟采用的统计学方法、资料不完整或缺失的处理方法、数据合并的方法及发表偏倚等。
- 定性分析
- 对纳入研究的特征列出表格进行描述。
- 定量分析
- 采用 Cochrane 协作网 RevMan 软件进行数据的合成和分析;
- 异质性性检验:χ²检验和I²值;
- 结果合成:二分类变量采用相对危险度(RR) ,数值变量采用加权均数差(WMD) 为效应量进行分析,并计算95% CI。
图示结果:常用森林图
- 一条短线代表一个研究的95﹪可信区间(CI),其线条长短直观地表示了可信区间范围的大小,线条中央的小方块为OR/OR值的位置,其方块大小为该研究权重大小
- 中线代表等效线
- 最下方的菱形符号代表所纳入试验的综合效应量。
- 若某个研究的95﹪可信区间的线条横跨等效竖线,即该研究无统计学意义,反之,若该横线落在无效线的左侧或右侧,该研究有统计学意义。默认不良事件左:有利于实验组:右:有利于对照。
系统评价的质量评价
主要包括以下内容
- (1)该SR的论证强度
- (2)研究结果的推广应用性
- (3)对干预措施的利弊和效益等进行卫生经济学分析
- (4)对于临床医疗和临床研究的意义
证据强度参考
高强度证据Strong Evidence
可作为临床应用有利或不利的证据- 所有纳入研究均为高质量;
- 纳入研究数量多,或样本量大;
- 各研究间无异质性;
- 各研究均有准确的结果;
- Meta-分析的敏感性分析结果稳定;
- 结果有生物学合理性;
- 结果被其它类似研究证实。
中等强度证据Middle Grade Evidence
通常推荐为临床应用证据,尚待纳入更多高质量原始研究支持结果- 相当比例的纳入研究存在偏倚的中等度可能性;
- 各研究间无异质性;
- 敏感性分析结果稳定;
- 有明确的有利或不利结果
低强度证据Weak Evidence
目前尚无足够证据支持临床使用该干预措- 多数纳入研究存在偏倚的高度可能性;
- 研究间存在异质性;
- 敏感性分析结果不稳定;
- 纳入研究数量少;
- 纳入研究人数少;
系统评价的写作要点
方法学部分的写作要点
如果做了META-分析—定量分析
- 异质性检验-亚组分析
- 敏感分析
- 发表偏倚–漏斗图
如果纳入了符合标准的研究而未做Meta-分析
- 说明不做Meta-分析的原因;
- 采用描述性方式进行总结
如果没有符合纳入标准的研究
- 将来有符合纳入标准的研究时,我们将……
结果部分写作要点
Description Of Studies推荐采用详细描述
- 报告检索结果;
- 报告有多少研究符合纳入标准,并被纳入;
- 各研究的一般资料、研究特征、研究结果
方法学质量Methodological Quality Of Included Studies
- 随机方法是否正确;
- 是否采用分配隐藏及方法是否正确;
- 是否采用盲法,几盲;
- 有无失访/丢失/退出
结果部分写作要点
结果Results
- 异质性分析结果
- 统计学意义
- 临床意义
讨论部分写作要点
目的
- 帮助人们获得以下方面的信息并能据此作出决策
证据的强度
最好的开端
- 指出纳入研究的任何方法学缺陷;
- 指出系统评价所使用方法可能对医疗实践和将来研究造成影响的局限性;
- 不宜太过详细,勿与方法学质量部份的描述重复;
- Cochrane系统评价应站在国际化的角度,而不是局限在某一地区或国家。
结果的实用性
- 生物学和文化差异,如男与女,文化的差异有时影响依从性;
- 依从性差异:如经济状况可影响依从性;
- 基线风险的差异:对于结果实用性的评价非常重要,如某干预措施在低风险患者有效,在高风险患者是否有效?
其他信息,如成本,目前的应用情况;
纳入研究结果的差异
- 患者特征,如年龄,性别,生化标志物;
- 干预措施特征,如时间或干预的强度;
- 疾病特征
- 即使没有统计学异质性,也应对这些特征进行检查。
关于重要性和分布的流行病学资料;
关于目前临床应用或应用研究的信息;
关于成本的信息
副作用
- 提供副作用严重性的证据及证据的强度;
- 提供副作用在不同条件下发生频度的证据;
- 评价者可建议在将来的研究中关注副作用。
结论写作要点
对证据的强度作出结论
- 结果的实用性:根据证据的强度,对干预措施的实用性进行评估;
- 对纳入研究的质量作出结论;
- 根据研究的质量状况,指出对将来研究的要求。