循证医学常用指标及方法
第一节 统计方法抉择的基本原则
一、分析目的
在进行科研以前,研究者一定要明确利用统计方法达到的什么目的,从而选择合适的统计方法。
一般来说,统计方法分为统计描述与统计推断两类。统计方法
统计描述
统计推断
参数估计
点估计
- 用样本统计量直接作为总体参数的点估计值。
- 未考虑抽样误差的大小。一般不用。
- 抽样误差:由于个体差异和抽样造成的统计量与参数之间的差异,不可避免。但是可通过增加样本来减少误差大小。
区间估计
即按预先给定的概率(1-α)估计包含未知总体参数的可能范围。该范围称参数的可信区间(Confidence intervel ,CI)。
α为可信系数,一般取0.05或者0.01,1- α又叫可信度或置信度常取95%和99%。
95%的置信区间(CI):
- 有95%的可能认为计算出的可信区间包含了总体参数。
假设检验
统计描述(descriptive statistics)
- 对原始数据进行归纳整理,利用统计指标(如率、均数)、统计图或者统计表,对数据资料进行的最基本的统计分析,使其能反映数据资料的基本特征,有利于研究者能准确、全面地了解数据资料所包含的信息,以便做出科学的推断。
统计推断(inferential statistics)
- 用样本信息估计总体参数所在范围和用样本信息推断总体特征。
- 包括参数估计和假设检验。
二、资料类型
通常情况下按资料定量或定性属性可分为定量资料和定性资料。
定量资料(quantitative data)
- 又称为计量资料或者数值变量资料。对每个观察单位用定量方法进行测量所得的数据。变量值有数值大小,有度量衡单位。如身高、体重。
定性资料(qualitative data)
又称为计数资料或者分类变量资料。其观察值是无法定量或不能测量的变量,是定性的,其表现为互不相容的类别或属性。分类变量又可分为两种情况:
- (1)无序分类:变量表现为没有大小之分的属性或类别。如性别是两类无序分类变量,血型是四类无序分类变量。
- (2)有序分类:变量表现为各属性或类别间有程度之分。如临床上某种疾病的“轻、中、重”,治疗结果的“无效、显效、好转、治愈”。分为单向有序和双向有序。
资料类型不同,选用的统计方法不同
- 如定量变量资料的比较可选用t检验、u检验、方差分析等统计方法,定性资料的比较,如率的比较多用卡方检验。
三、设计方法
- 在众多的临床科研设计方法中,每一种设计方法都有与之相适应的统计方法。因此,必须要根据不同的临床科研设计方法来选择相适应的统计分析方法。如果统计方法的评价与设计方法不一致,统计分析得到的任何结论都是错误的。
- 如成组设计(完全随机设计)的t检验,配对设计资料的t检验;完全随机设计资料的方差分析,配伍组设计资料的方差分析;拉丁方设计资料、析因设计资料等等。
四、数理统计条件
- 数理统计和概率论是统计的理论基础。每种统计方法都要涉及数理统计公式。而这些数理统计公式都是在一定条件下推导和建立的。也就是说,只有当某个或某些条件满足时,某个数理统计公式才成立。
- 在数理统计公式推导和建立的条件中,涉及最多的是数据的分布特征。许多数理统计公式都是在特定的分布下推导和建立的。
- 如果实际资料服从某种分布,即可用该分布所具有的数理统计公式来分析和处理实际资料,反之则不能。
- 在临床资料的统计分析过程中,涉及最多的分布是正态分布、偏态分布和二项分布。除了数据的分布特征外,有些数理统计公式还有其它一些条件,如样本含量大小、理论频数大小、方差齐性等
第二节 统计学基础
一、计量资料的统计描述
描述定量资料基本特征的指标
- 一是集中趋势的指标,反映一组数据的平均水平;
- 二是离散程度的指标,反映一组数据的变异大小;
描述数值变量资料平均水平的常用指标
- 均数或算术平均数、中位数和几何均数等
描述数值变量资料离散程度的指标
- 标准差、四分位间距和变异系数等
服从正态分布或近似正态分布,选用
均数和标准差
1、算术平均数(arithmetic mean)
总体均数用希腊字母μ,样本均数用 x̅,样本例数用 n 表示
均数的适用范围:对称分布,尤其正态或近似正态分布的资料。
均数的计算方法:
- 直接法(用于n≤30)
- 加权法(用于n>30)
2、标准差(standard deviation,s )
- 是描述正态分布的定量变量离散程度的指标。标准差越大,说明个体变异越大。
- 标准差的计算
不服从正态分布,选用
- 中位数和四分位间距
二、计量资料的统计推断
(一)点估计及可信区间估计
均数的抽样误差(Sampling error of mean)
- 由于个体存在差异,又因抽样造成的样本均数与总体均数间的差异,称为均数的抽样误差,用均数的标准误 (Standard error ,SE) 表示。
- 均数的标准误是表示均数抽样误差大小的指标,描述样本均数的离散程度,反映用样本均数估计或推断总体均数的可靠性.
置信区间的计算
1、t分布法
2、正态分布近似法
- 当总体标准差σ已知时,或 σ 未知但n足够大( n>50)
置信区间比较
- 百分数越大,可信度(置信度)越大,但所得区间范围也越宽,其精确度就越低。所以,为兼顾到可信度和精确度两个要素,故一般计算95%和99%的两个置信区间。
(二)假设检验
假设检验原理
- 首先假设样本来自的总体的参数相同,然后根据样本数据计算的检验统计量进行判断,样本信息支持这种假设的概率大小,并作出结论。
- 目的:是由样本推论样本代表的总体与已知总体是否一样,而不是为了说明样本本身。
- 假设检验的基本方法:假设μ0 = μ1→计算一个统计量→H0成立的可能性即概率P多大
P较小
- 不成立,拒绝H0
P不很小
- 不能拒绝,接受H0
假设检验的基本步骤
1.建立检验假设并确定检验水准。
- H0: 两总体均数相同
H1: 两总体均数不同
α=0.05(单、双侧) - 检验水准:决策者事先规定一个小的概率值α,允许假设检验的结论犯错误的概率限值,称为检验水准。通常取0.05 或0.01
- H0: 两总体均数相同
2.选择检验方法,计算相应的检验统计量
假设检验方法很多,因资料类型、设计类型、样本含量等不同而不同。
定量资料
t检验、F检验
- 一组样本资料的t检验
- 配对设计资料的t检验
- 两组独立样本比较的t检验
- 多组样本比较的F检验
定性资料
X2检验
- 配对设计资料的X2检验
- 两组样本比较的X2检验
- 多组样本X2检验
- 判断P值
- 即H0成立的概率。
- |t|≥t (α, v),P≤α,拒绝H0,接受H1
- |t|<t (α, v),P>α,不拒绝H0
- 推断结论
- 按α=0.05水准,可以认为…差别有统计学意义)或无统计学意义)。
第三节 计量资料的统计分析
一、一组样本资料的 t 检验
(一)检验目的
- 推断样本来自的总体均数μ是否与某已知数值μ0相等。
(二)适用条件
- 要求样本来自正态总体
(三)公式
二、配对设计资料的t检验
配对设计:将条件相同或相近的两个受试对象配成对子,再将每对中的两个受试对象随机分配到不同处理组。
(一)检验目的
- 差值d的总体均数μd是否为0。
(二)适用条件
- 要求差值d服从正态分布
(三)公式
三、两组独立样本资料的t检验
(一)检验目的
- 推断两样本来自的总体均数是否相等。
(二)适用条件
- 要求样本来自正态总体;样本来自的两总体方差相等。
(三)公式
方差分析
完全随机设计的(成组)–单因素
一、单因素方差分析的定义
- 只分析处理组间有无差别,以说明研究因素对结果有无影响的检验方法。
二、单因素方差分析的设计基本思想
把所有观察对象之间的变异叫总变异分成
- 组间变异(处理因素的影响)用MS间表示
- 组内变异(个体因素的影响)用MS内表示
F=MS间/MS内
如果处理因素确无效的话,MS间≈MS内,F≈1
如果处理因素确有效的话,则MS间>MS内,F>1
F值越大,P值越小,就越有理由认为组间有差别
三、方差分析的用途与要求条件
用途
- 1、用于多个样本均数(或两个)的比较
- 2、用于分析因素间的交互作用
- 3、用于方差齐性检验
- 4、用于方程的拟合度检验
要求条件
- 1、各样本是随机独立的
- 2、各样本来自正态总体
- 3、各总体方差相等 即
随机区组设计(配伍组)–双因素
拉丁方设计,正交设计,析因设计–多因素
完全随机设计资料的方差分析
One-way ANOVA
基本步骤
1、建立假设,确定检验水准
H0:3期血清铜蓝蛋白的测定结果的总均数相等,
H1:3期血清铜蓝蛋白的测定结果的总均数不全相等。2、求F值
3、 确定P值,做出推断结论
- 根据n 处理和n 组内,查附表3的F界值表
- 若F≥Fa(n 1,n 2),则P≤a。按a水准,拒绝H0,接受H1,认为有统计学意义。可以认为多个总体均数不全相同,即多个总体均数中至少有两个不同。
- 若F<Fa(n 1,n 2),则P>a。按a水准,不拒绝H0,认为无统计学意义。还不能认为多个总体均数不全相同。
计量资料
第四节 计数资料的统计分析
(一)计数资料的统计描述
定性资料:先按观察单位的性质或类别分组,然后清点(各组的例数)得出的数据。
对于定性资料的分析与比较常用相对数(relative number).常用相对数指标
1、构成比(constituent ratio)
又称结构指标、构成指标、百分比。表示定性事物内部各组成部分所占比重或分布特征的指标。
特点
- ①各构成部分可相加,总和为100%。
- ②其中某部分有增(减)时,其他部分也相应改变。
2、率(rate)
- 又称频率指标、强度指标。表示某现象发生的频率和机会大小的指标,用来反映事物的严重程度
3、比(ratio)
又称相对比(relative ratio)。表示任何两个有关联的事物之比,说明两事物的相对水平。通常用倍数或百分数表示。
常用的相对比指标有三种
- ⑴对比指标:指两个同类事物某指标的比。
- ⑵关系指标:指两个有关的、但非同类事物的数量的比
- ⑶计划完成指标:指计划完成的程度,常用实际数达到计划数的%或几倍表示。
4、应用相对数应注意的问题
(1)计算相对数的分母不宜太小。因例数少计算的相对数不可靠。
(2)分析时防止概念混用,不能用构成比代替率。因构成比只说明事物内部各构成部分所占比重或分布状况,并不说明某现象发生的频率或强度。
(3)不能用构成比的动态分析代替率的动态分析
(4)正确计算总平均率
(5)相对数比较时应有可比性
- ①观察对象同质:即除了观察因素外,影响相对数大小的其他因素,应尽量相同,才属于同质,才有可比性。如比较甲乙两种方法的治愈率时,除了两种方法不同外,影响治愈率大小的因素有年龄、病因、病型、病情严重程度等因素应尽量相同。
- ②总率间比较时,如内部构成不同,应进行率的标准化。
(6)样本率(或构成比)比较时,应作假设检验。
(二)率的点估计与区间估计
1、点估计:用样本频率p作为总体概率π的点估计值。
- 点估计的方法简单,但没有考虑抽样误差,无法评价估计值与真值之间的差距
2、区间估计:结合样本统计量和标准误可能确定一个具有较大置信度的包含总体参数的区间,该区间成为总体参数的1-α的可信区间(CI)。通常α取0.05或者0.01,所以1-α为95@或者99%。
- 通常用样本频率及其标准误估计总体频率的可信区间。
(三) X2 检验
用于定性资料的一种假设检验方法。
用途
1.用于两个样本率或构成比的比较
- 完全随机设计四格表X2检验
2.用于多个样本率或构成比的比较
- 完全随机设计R×C表X2检验
3.用于两变量间有无关联的判断
- 配对设计列联表X2检验
步骤
1、建立假设,确定α水准
- H0:π1= π2 ,或两总体率相等(两药物疗效相同)
- H1:π1≠ π2 ,或两总体率不相等(两疗效不同)。
- α =0.05
2、选择检验方法,并计算检验统计量
3、确定P值,并作出结论
基本思想(原理)
- X2值反映了实际频数与理论频数相吻合的程度
四格表X2 检验的条件
- 1.当n≥40 且每格T≥5时,用上述X2 检验的基本公式或专用公式。
- 2.当n≥40 但有1≤ T < 5时,须用X2 检验校正公式:
- 3.当n < 40 或有T < 1时,不能应用X2 检验,宜用确切概率法。
计数资料
第五节 循证医学常用的描述指标
统计分析主要包括统计描述(statistical description)与统计推断(statistical inference)两大内容,因此,其统计指标也可分为描述性指标和统计推断指标。
(一)描述性指标
描述性分析主要是使用统计指标、统计图表对数据资料所进行的最基本的统计分析。
描述性分析可使研究者和读者能准确、全面地了解数据资料所包涵的信息,也有利于在此基础上完成资料的进一步统计分析。
1、EER
- 循证医学中预防和治疗性试验中,将发生率可细分为 EER和CER两类。
- EER (experimental event rate),即试验组的某事件发生率。常用于临床对某病采用某些防治措施后该疾病的发生率
2、CER
- CER (control event rate),即对照组的某事件发生率,常用于临床对某病不采取防治措施或采用阳性对照措施的发生率
3、RD
两个发生率的差即为率差,也称危险差(rate difference,risk difference, RD),如,试验组发生率( EER)与对照组发生率(CER)的差,其大小可反映试验组发生率比对照组多或少的绝对量
RD=EER-CER
意义
- 当RD=0时,可认为试验组的发组别死亡未死亡合计生率与对照组的发生率相同。
- 当RD>0时,可认为试验组的发生率大于对照组(T>C) 。
- 当RD<0时,可认为试验组的发生率小于对照组(T<C) 。
4、RR
试验组的发生率为:EER=a/(a+b)
对照组的发生率为:CER=c/(c+d)
两个率的比值
- RR=EER/CER
- 该两个率的比值叫做相对危险度 (relative risk, RR),是前瞻性研究中较常用的指标,
- 它是试验组某事件发生率(EER)与对照组(或低暴露)的发生率(CER)之比,用于说明试验组的发生率是后者的多少倍。
意义
- 当RR=1时,可认为试验组的发生率与对照组的发生率相同;
- 当RR>1时,可认为试验组的发生率大于对照组(T>C) ;
- 当RR<1时,可认为试验组的发生率小于对照组(T<C) .
5 、OR
在回顾性研究 (如病例对照研究 )中,往往无法得到某事件的发生率 CER或EER(如死亡率、病死率、发病率 ),也就无法计算出RR。但是,可以计算出一个 RR的近似值,该近似值称为 OR,即是比值比(odds ratio)。
OR的计算
病例组的暴露与未暴露的比值:odds1=a/b
对照组的暴露与未暴露的比值 odds0=c/d
试验组的比值 (odds1)与对照组 (odds0)的比值之比即为比值比、比数比、机会比、优势比)其计算公式为:
- OR=odds1/odds0
意义
- 当OR=1时,可认为病例组的比值与对照组的比值相同
- 当OR>1时,可认为病例组的比值大于对照组(odds1>odds0)
- 当OR<1时,可认为病例组的比值小于对照组(odds1>odds0)
前瞻性研究中的OR
- 在前瞻性研究中,如果某事件的发生率很低时(如P≤5%),可以使用OR来近似计算(估计)RR,且发生率越低其近似结果越好。
OR的应用及意义
- 在回顾性研究(病例对照研究)中,由于无法计算发病率、死亡率等率的指标,也就无法计算RR,只能使用OR 。
- 而在前瞻性研究中,当所研究疾病的发病率、病死率等发生率较低时,即a和c均较小时,OR与RR的计算结果非常近似,此时也可使用OR估计RR。
6.ARR
- 当率差(RD)是某疗效事件的发生率的差值(如病死率的差值),且EER<CER时,即为绝对危险度减少率(absolute risk reduction,ARR)
- ARR可用于度量试验组使用某干预措施后,某疗效事件的发生率比对照组减少的绝对量:ARR=|EER-CER|
- ARR的可信区间计算与RD相同
7.NNT及可信区间
NNT(the number needed to treat)的临床含义为:对病人采用某种防治措施,比对照组多得到一例有利结果需要防治的病例数(the number of patients whoneed to be treated to achieve one additional favorable outcome,NNT)。
NNT的其计算公式
- NNT=1/|EER-CER| =1/ARR
- 该公式中的EER和CER定义为采用某干预措施之后,某疗效事件的发生率
- 因此,NNT的值越小,表示该防治效果就越好,其临床意义也就越大.
NNT的可信区间
- NNT= 1/ARR,故NNT的95%的可信区间的计算可利用ARR的95%的可信区间来计算。
- NNT95%CI的下限: 1/(ARR的上限值)
- NNT95%CI的上限: 1/(ARR的下限值)
注意:NNT中的对照组通常是安慰剂对照,如果对照组是阳性对照,则不同阳性对照组的多个NNT间不能比较
8.RRR
RRR为相对危险度减少率(relative risk reduction)
公式
- RRR=|CER-EER| /CER = 1-RR
当EER<CER时,RRR反映了试验组某事件的发生率比对照组减少的相对量。但是,该指标无法衡量发生率减少的绝对量。
注意:RRR无法衡量发生率减少的绝对量
9.ARI
- 当率差(RD)是某不良事件发生率的差值(如肝功能异常率) ,且EER>CER时,即为绝对危险度增加率(absolute risk increase,ARI)
- ARI可用于度量试验组使用某试验因素后,其不利结果的发生率比对照组增加的绝对量: ARI=|EER-CER|
- ARI的可信区间计算与RD相同
10.NNH
NNH的临床含义为:对病人采用某种防治措施,比对照组多出现一例不利结果需要治疗的病例数(the number needed to harm one more patients from the therapy,NNH)。
计算式
- NNH =1/|EER-CER|=1/ARI
- 该公式中的EER和CER定义为采用某干预措施之后,某不利结果的发生率。因此,NNH的值越小,表示该某治疗措施引起的不利结果(不良事件或副反应)就越大。
注意:NNH中的对照组通常是安慰剂对照,如果对照组是阳性对照,则不同阳性对照组的多个NNH间不能比较
11.RRI
RRI为相对危险度增加率(relative risk increase,RRI )
公式
- RRI=|EER-CER| /CER
当EER>CER时,RRI反映了试验组某事件的发生率比对照组增加的相对量。但其可信区间的计算与RRR相同。
(二)常用指标的可信区间
在临床研究中,不仅要用描述性指标,还经常需要比较不同组别的某指标的差别是否有统计学意义,以反映试验效应。此时,需要使用如卡方检验、t检验和方差分析等假设检验(hypothesis test)的方法。
除了假设检验方法,还可以使用可信区间(confidence interval,CI)的方法,达到比较不同组别间描述性指标有无差异的目的。假设检验与可信区间同属统计推断的范畴。
在循证医学中常用两组某指标差值或比值的可信区间,以此得出某指标的差值或比值有无统计学意义的结论。
通常,试验组与对照组某指标差值或比值的95%可信区间与α为0.05的假设检验等价,99%的CI与α为0.01的假设检验等价。
1. RD的CI
两率差的可信区间由下式计算
- (EER-CER)±uα SE(RD)
- 即:RD±uα SE(RD)
RD的95%的可信区间为
- RD±1.96×SE(RD)
2.RR的可信区间
RR的可信区间,应采用自然对数进行计算,即应求RR的自然对数值ln(RR)和ln(RR)的标准误SE (lnRR),其RR的95%可信区间为
- exp[ ln(RR) ±1.96×SE(lnRR) ]
3 .OR的可信区间
ln(OR)的可信区间为
- ln(OR) ± uα SE(lnOR)
OR的95%可信区间为
- exp[ ln(OR) ±1.96×SE(lnOR) ]
OR的标准误
(三)防治效果指标
防治效果指标应用前提
通常临床试验要求
- (1)试验组-某治疗措施,对照组-安慰剂
- (2)主要疗效指标:使用如病死率、复发率等负性指标
- (3)目的:试验组使用某治疗措施后,这些事件的发生率是否低于对照组
(四)不利结果指标
不利结果指标应用前提
通常临床试验要求
- (1)试验组:某治疗措施;对照组:安慰剂
- (2)不利结果或不良事件指标:如肝功能异常率、肾功能异常率等指标
- (3)目的:试验组使用某治疗措施后,某不利结果(不良事件)的发生率是否大于对照组