您的当前位置:首页正文

统计学知识点总结

2024-06-13 来源:易榕旅网
 第2章 统计描述

1. 对定量资料进行统计描述时,如何选择适宜的指标?

定量资料统计描述常用的统计指标及其适用场合 描述内容 指 标 意 义 平均水平

均 数 个体的平均值 几何均数 平均倍数

适 用 场 合

对称分布

取对数后对称分布

①非对称分布;②半定量资料;③末端开

中 位 数 位次居中的观察值

口资料;④分布不明

众 数 频数最多的观察值 不拘分布形式,概略分析 调和均数 基于倒数变换的平均值 正偏峰分布资料

变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析

标 准 差 观察值平均离开均数的

对称分布,特别是正态分布资料

(方 差) 程度 四分位数①非对称分布;②半定量资料;③末端开

居中半数观察值的全距

间距 口资料;④分布不明

①不同量纲的变量间比较;②量纲相同但

变异系数 标准差与均数的相对比

数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 2. 应用相对数时应注意哪些问题?

答:(1)防止概念混淆 相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。

(2)计算相对数时分母不宜过小 样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。

(4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些?分别适用于什么分析目的?

常用统计图的适用资料及实施方法 图 形 条 图 直 方 图 百分条图 饼 图 线 图 半对数线图 散 点 图 箱 式 图 茎 叶 图

适 用 资 料

实 施 方 法

组间数量对比 用直条高度表示数量大小

定量资料的分布 用直条的面积表示各组段的频数或频率 构成比 用直条分段的长度表示全体中各部分的构成比 构成比 用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动 线条位于横、纵坐标均为算术尺度的坐标系

定量资料发展速度 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数

第3章 概率分布

1. 服从二项分布及Poisson分布的条件分别是什么?

二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。

Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率很小。

2. 二项分布、Poisson分布分别有什么特征? ①二项分布、Poisson分布都是离散型分布。

②二项分布的形状取决于π与n的大小。π=0.5时,不论n大小,对称分布。π≠0.5时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。

4、 正态分布应用

① 估计变量值的频数分布 ② 制定参考值范围 ③ 质量控制

④ 正态分布是很多统计方法的基础

5. 正态分布特征

① 以均数为中心,左右对称

② 正态曲线在横轴上方均数处取得最高点

③ 正态分布有两个参数,即均数(位置参数)和标准差(变异度参数) ④ 正态曲线下面积有一定规律

第4章 参数估计

1. 标准误与标准差的区别

(1)标准差反映个体值散布的程度;标准误反映精确知道总体参数的程度。 (2)标准误小于标准差。

(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,随着样本含量的增大,标准差有可能增大,也有可能减小。 (4)用途不同。

标准差的用途:

① 反映一组资料的离散程度 ② 计算变异系数

③ 结合均数与正态分布的规律,估计参考值范围

标准误的用途:

④ 衡量样本均数的可靠性

⑤ 与样本均数结合,估计总体均数的置信区间 ⑥ 可用于进行均数的假设检验

标准误与标准差的区别与联系 区别 标准差 范畴 统计描述 用途 估计参考值范围 n 联系 n越大,标准差越稳定 标准误 统计推断 估计置信区间 n越大,标准误越小 含义 描述个体观察值的离散程度 反应总体参数被估计的精确程度 1.标准误大小与标准差成正比;2.n一定时,标准差越大,标准误也越大。

3. 简述置信区间与医学参考值范围的区别。 区别 含义 用途

计算公式

置信区间

参考值范围

总体参数的波动范围,即按事先给个体值的波动范围,即按事先给定的概率100(1)%所确定的包定的范围100(1)%所确定含未知总体参数的一个波动范围 的“正常人”的解剖、生理、 生化指标的波动范围 估计未知总体均数所在范围 供判断观察个体某项指标是否 “正常”时参考(辅助诊断)

未知: Xt/2,SX

已知或未知但n≥30,有XZ/2X或XZ/2SX

正态分布:XZ/2S 偏峰分布:PX~P100X

4 何谓置信区间准确度与精确度?如何协调两者间的关系。 置信区间有准确度与精密度两个要素。

(1)准确度由置信度 (1-α) 的大小确定,即由置信区间包含总体参数的可能性大小来反映。从准确度的角度看,置信度愈接近于1愈好,

(2)精密度是置信区间宽度的一半,意指置信区间的两端点值离样本统计量(如X、p)的距离。从精密度的角度看,置信区间宽度愈窄愈好。

(3)在抽样误差确定的情况下,两者是相互矛盾的。为了同时兼顾置信区间的准确度与精密度,可适当增加样本含量。 3、参考值范围估计的基本步骤

① 从正常人的总体中进行随机抽样 ② 对选定的正常人进行准确的测定 ③ 确定取单侧还是双侧范围 ④ 确定范围 常用95%。

⑤ 根据资料的分布类型选用恰当的界值估计方法

第5章 假设检验

1.试述假设检验中α与P的联系与区别。 区别:(1)值是事先确定的一个小的概率值。为一次检验中,甘愿冒的风险。

(2)P值是在H0成立的条件下,出现当前检验统计量以及更极端状况的概率。为一次检验中,实际冒的风险。

联系:以t检验为例,P、a都可以用t分布尾部面积大小表示。P≤时,拒绝H0假设。 2. 试述假设检验与置信区间的联系与区别。

联系:区间估计与假设检验是由样本数据对总体参数做出统计学推断的两种主要方法。 区别:置信区间用于说明量的大小,即推断总体参数的置信范围;

假设检验用于推断质的不同,即判断两总体参数是否不等。 3. 怎样正确运用单侧检验和双侧检验?

需要根据数据的特征及专业知识进行确定。若比较甲、乙两种方法有无差异,则应选用双侧检验。若需要区分何者为优,,则应选用单侧检验。在没有特殊专业知识说明的情况下,一般采用双侧检验即可。 4. 试述两类错误的意义及其关系。

⑴Ⅰ类错误:如果检验假设H0实际是正确的,由样本数据计算获得的检验统计量得出拒绝

H0的结论,此时就犯了错误,统计学上将这种拒绝了正确的零假设H0(弃真)的错误称

为Ⅰ类错误。Ⅰ类错误的概率用 表示。

⑵Ⅱ类错误:若检验假设H0原本不正确(H1正确),由样本数据计算获得的检验统计量得出不拒绝H0(纳伪)的结论,此时就犯了Ⅱ类错误。Ⅱ类错误的概率用 表示。

在假设检验时,应兼顾犯Ⅰ类错误的概率()和犯Ⅱ类错误的概率()。犯Ⅰ类错误的概率()和犯Ⅱ类错误的概率()成反比。如果把Ⅰ类错误的概率定得很小,势必增加犯Ⅱ类错误的概率,从而降低检验效能;反之,如果把Ⅱ类错误的概率定得很小,势必增加犯Ⅰ类错误的概率,从而降低了置信度。为了同时减小和,只有通过增加样本含量,减少抽样误差大小来实现。

5.试述检验功效的概念和主要影响因素。

答:拒绝不正确的H0的概率,在统计学中称为检验功效(power of test),记为1。

检验功效的意义是:当两个总体参数间存在差异时(如备择假设H1:0成立时),所使用的统计检验能够发现这种差异(拒绝零假设H0:0)的概率,一般情况下要求检验功效应在0.8以上。

影响检验功效的四要素为总体参数的差异、总体标准差、检验水准及样本量n。

6.简述假设检验的基本思想。

假设检验是在H0成立的前提下,从样本数据中寻找证据来拒绝H0、接受H1的一种“反证”方法。如果从样本数据中得到的证据不足,则只能不拒绝H0,暂且认为H0成立,即样本与总体间的差异仅仅是由于抽样误差所引起。拒绝H0是根据某个界值,即根据小概率事件确定的。所谓小概率事件是指如果比检验统计量更极端(即绝对值更大)的概率较小,比如小于等于0.05,则认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝H0,即有足够证据推断差异具有统计学意义。

7. 建设检验四步骤:

⑦ 建立检验假设H0和备择假设H1(判断是单侧检验还是双侧检验再作假设) ⑧ 确定检验水准

⑨ 选定检验方法和计算检验统计量 ⑩ 确定P值和作出推断结论 8.参数及非参数检验优缺点

参 数检验 适用条件 非参数检验 资料正态分布,方差齐性 1.分布未知或偏态分布资料 2.总体 方差不齐 3.等级资料 4.开口资料 1.t检验 2.u检验 3. 方差分析 1.符号秩和检验(配对资料) 2.秩和检验 3.K-W检验(多组资料) 检验方法 优 点:充分利用原始数据信息,检验效能高 缺点:受资料总体分布限定

优点:不受资料总体分布限定 缺点:只利用秩次,损失原始数据,检验效能低。

第6章 两样本定量资料的比较

1. 对于完全随机设计两样本定量资料的比较,如何选择统计方法?

答:完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性(样本量较大时不必进行正态性检验)和方差齐性。如果资料来自正态总体且总体方差齐,采用t 检验;如果满足正态性但总体方差不齐,采用t′检验;当两者都不满足时,才考虑选用秩和检验。当然,我们也可采用变量变换的方法使其满足t或t′检验的条件。

2.t检验有几种,适用条件是什么?

t检验是以t分布为理论基础。小样本时,要求资料符合正态分布和方差齐性。一般有以下三种: ⑪ 样本均数与总体均数的比较 ⑫ 配对资料的比较 ⑬ 两个样本均数的比较

此外,还有相关系数,回归系数的t检验。

3.两组定量独立样本的比较

(1)两独立样本的t检验(满足正态性和方差齐性) (2)校正的t检验(正态但方差不齐) (3)u检验(大样本,且方差齐)

(4)秩和检验(小样本,不正不齐){p值确定分为T值在范围内还是范围外}

4.配对定量资料的比较

(1)配对资料的t检验(差值服从正态)

(2)符号秩和检验(不正){p值确定类似于t检验}

5.两poisson分布资料的比较 Z检验

第7章 多组定量资料的比较

1. 方差分析的基本思想和应用条件是什么? 基本思想

将处理间平均变异与误差平均变异比较。根据试验设计的类型和研究目的,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用加以解释,通过比较不同变异来源的均方,借助F分布做出统计推断,从而推论各种研究因素对试验结果有无影响。 应用条件

① 各样本是相互独立的随机样本,均服从正态分布; ② 各样本的总体方差相等,即方差齐性。 2.方差分析的步骤

① 建立假设检验和检验水准(H0:总体均数都相等) ② 计算统计量F

③ 确定P值和作出推断结论

④ 作两两均数之间的比较(若P>0.05,可省略此步) 3. 多组定量资料比较时,统计处理的基本流程是什么? 多组定量资料比较时首先应考虑用方差分析。

(1)若方差齐性,且各样本均服从正态分布,选单因素方差分析。

(2)若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis秩和检验,或通过某种形式的数据变换使其满足方差分析的条件。

若方差分析或秩和检验结果有统计学意义,则需选择合适的方法(如Bonferonni、LSD法等)进行两两比较。

4.方差分析的应用?

①多组定量资料比较,即两个或两个以上均数的比较 ②方差齐性检验

③两个或多个研究因素的交互作用 ④回归方程的线性假设检验

第8章 定性资料的比较

1. 简述2检验适用的数据类型,基本思想,检验步骤。

答:⑴卡方检验是应用较广的一种定性资料的假设检验方法,用于①检验两个或多个样本率(或构成比)之间有无差别,②交叉分类资料两属性间的关联性检验 ③频数分布的拟合优度

22

⑵χ检验的基本思想:χ值反映的是实际频数与理论频数的吻合程度,在检验假设

2

H0成立的情况下,实际频数与理论频数差别仅由随机误差所致,其χ值会比较小,反之亦

2

然,χ值越大,越有理由认为检验假设H0不成立。

⑶检验步骤:

① 建立假设检验和检验水准(H0 :总体分布/某情况/某率相等) ② 计算统计量 2

③ 确定P值和做出推断结论

④ 作两两之间的比较(若P>0.05,可省略此步)

2

2.四格表资料χ检验的条件有哪些?(注意T为理论频数)

22

完全随机设计公式,χ = (ad-bc). n/{(a+b)(c+d)(a+c)(b+d)}

2

① 总例数n≥40,且T≥5,直接计算χ不用校正

2

② n≥40,且1≤T<5,用连续性校正χ检验

2

③ n<40或T<1,不能用χ检验,用直接计算概率的方法Fisher 确切概率法。

2 2

配对设计公式 χ= (b-c)/(b+c) ① b+c≥40,无需校正 ②b+c≤40,用连续校正公式

3. 两组二分类资料的设计类型有几类?其相应的检验方法是什么?

两组二分类资料的设计类型主要有2类,即完全随机设计和配对设计。完全随机设计和配对设计资料在假设检验方法上均采用卡方检验。

2 2

通用公式χ =(A-T)/ T

22

完全随机设计公式 χ = (ad-bc). n/{(a+b)(c+d)(a+c)(b+d)}

2 2

配对设计公式 χ= (b-c)/(b+c)

4. 什么资料适合用秩和检验进行检验?简述秩和检验步骤。

适用于总体分布未知资料,偏态分布资料,开口资料,等级资料。 秩和检验步骤为:

① 建立假设H0和H1,并确定检验水准;(H0总体分布相等/配对秩和:中体中位数为0) ② 根据不同的设计类型对资料进行编秩并计算秩和;

③ 根据计算的秩和直接查表或计算相应的统计量再查表,确定P值,作出统计推断。

2

6、行×列表资料χ检验的注意事项

①要求不能有1/5以上的格子理论频数小于5,或不能有任意一个格子的理论频数小于1,否则易致分析的偏性。

②若结果拒绝检验假设,只能认为各总体率或构成比之间总的来说有差别,并非彼此间都有差别

2

③单向有序的行×列表资料,不宜作χ检验。

6、两样本比较的秩和检验直接法基本思想

假定含量分别为N1和N2的两个样本,来自同一总体或分布相同的两个总体,则样本含量为N1的样本的T与平均秩和N1(N+1)/2一般相差不大,若相差悬殊,超出界值范围,表示随机抽得现有样本统计量T值的概率很小。

7.非参与参数检验的定义及两者区别

参数检验是总体的分布类型已知,对其中未知的参数进行估计和检验的统计方法。特点:依赖于特定的分布类型,比较的是参数。

非参数检验是不依赖于总体分布形式的统计方法。特点:不受总体参数的影响,比较的是分布或分布位置,而不是参数。

9.配对设计差值的秩和检验的编秩方法 ①求差值

②将差值按绝对值大小从小到大编秩,并按差值的正负给秩次加上正负号。 ③若差值绝对值相等,则取其平均秩次。 ④编秩时若遇差值为0,则舍去不计。

10.两组比较的秩和检验的编秩方法 将两样本混合编秩次,若有“相同数据”,处于不同组,则取其平均秩次;在同一组,则无需取平均秩次。(数据 0 不舍去)

11. 配对设计差值的秩和检验的检验步骤

⑴建立假设检验,确定检验水准 H0 :差值的总体中位数为零 H1 :差值的总体中位数不为零

⑵计算检验统计量T值 ①求差值

②编秩:将差值按绝对值大小从小到大编秩,并按差值的正负给秩次加上正负号。若差值绝对值相等,则取其平均秩次。编秩时若遇差值为0,则舍去不计。 ③求秩和确定统计量T

⑶确定P值,作出统计学推断。n<25,用查表法。n>25,用正态近似法。

8.参数检验和非参数检验的优缺点比较

参 数检验 适用条件 非参数检验 资料正态分布,方差齐性 1.分布未知或偏态分布资料 2.总体 方差不齐 3.等级资料 4.开口资料 1.t检验 2.u检验 3. 方差分析 1.符号秩和检验(配对资料) 2.秩和检验 3.K-W检验(多组资料) 检验方法 优 点:充分利用原始数据信息,检验效能高 缺点:受资料总体分布限定

13.非参检验适用范围 ①各种资料初步分析

②等级资料,如严重程度,优劣等级,成效大小等。 ③资料分布类型不能确认或偏态分布。 ④综合分析同质性较差的资料

⑤组内个别数据偏离较大,或组内相差悬殊。

优点:不受资料总体分布限定 缺点:只利用秩次,损失原始数据,检验效能低。

第9章 关联性分析 第10章 简单线性回归分析

1.Pearson积距相关系数r的特点

①相关系数ρ是一个无量纲的数值,且-1≤ρ≤1 ②ρ>0为正相关,ρ<0为负相关。

③| ρ |越接近1,说明相关性越好;| ρ |越接近0,说明相关性越差。

2.线性回归分析的前提条件 LINE

①线性 指反应变量Y与自变量X呈线性变化趋势。一般通过散点图来考察。

②独立性 任意两个观察值相互独立。一个个体的取值不受另外一个个体的影响。 ③正态性 指给定X值时,Y的取值服从正态分布。

④等方差性 指对应于不同的X值,Y值的总体变异相同。

Pearson秩相关(即等级相关)的应用条件 ①双变量不服从正态分布的资料 ②总体分布类型未知的资料 ③数据本身有不确定值 ④等级资料

直线回归及其回归方程有何用途 ①描述Y对X的依存关系

②预测。由自变量X预测应变量Y。

③统计控制。通过控制自变量X的取值,从而使Y在一定范围内波动。

简述做直线相关与回归分析时的注意事项 ①回归方程要有实际意义

②分析前先绘散点图,观察是否存在直线趋势或异常点

③直线回归的适用范围一般以自变量X的取值范围为限,不能随便外延。

直线相关与直线回归的区别与联系 区别

①资料要求不同。相关分析要求X,Y均服从正态分布,而回归分析时,要求Y服从正态分布。 ②应用不同。相关是只说明两个变量间是否有关联。回归是由一个变量推算另外一个变量,说明依存变化的数量关系。

③相关系数与回归系数 r 与 b 不同。

A.意义不同:b表示X每增(减)一个单位,Y改变b个单位;r说明具有直线关系的两个变量关系的密切程度和方向。

B.取值范围不同 -∞<b<+∞,-1≤r≤+1 C.b有单位,r无单位。 联系

①同一组资料相关系数和回归系数的符号相同。

②同一资料相关系数和回归系数的假设检验等价。即 tr=tb ,P值相等。

③可以用回归解释相关。

简述简单线性回归分析的基本步骤。

① 绘制散点图,考察是否有线性趋势及可疑的异常点; ② 估计回归系数;

③ 对总体回归系数或回归方程进行假设检验; ④ 列出回归方程,绘制回归直线; ⑤ 统计应用。

回归分析中 决定系数R²

2

①定义:考察在Y的变异中,由X所引起的变异占多大的比重。 R=SS回归/SS总 ② 取值在0-1之间(因SS回归<SS总) ③大小反映了自变量对回归效果的贡献,即在Y的总变异中回归关系所能解释的百分比。 ④反映了回归模型的拟合效果,常作为拟合优度的指标。

⑤ 当X与Y均为随机变量时,决定系数R²等于相关系数(r)的平方。

第11章 多重线性回归分析

μ=β0 +β1X1 + β2X2 +…+ βpXp

⑴ β0 : 当所有自变量为0时反应变量Y的平均取值 ⑵ βi :(偏回归系数)方程中其他自变量不变时,Xi每增加(或减少)一个计量单位,反应变量Y平均改变βi 个单位。

⑶ 确定系数R² :反映回归方程的效果好坏。R²=SS回归/SS总 说明自变量组X可以解释反应变量Y总变异的百分比。(增加自变量,R²只增不减)

⑷ 调整的确定系数R²ab =1 — MS残差/MS总 (增加贡献很小的自变量,R²ab可能减小)

⑸ 复相关系数 R=确定系数开平方,表示随机变量Y与一组随机变量X之间线性相关的程度。

1. 多重线性回归分析的用途有哪些?

①定量地建立一个反应变量与多个解释变量之间的线性关系, ②筛选危险因素,

③通过较易测量的变量估计不易测量的变量, ④通过解释变量预测反应变量, ⑤通过反应变量控制解释变量。

4. 如何判断和处理多重共线性?

①如果自变量之间存在较强的相关,则存在多重共线性。

②通过分析自变量之间的相关系数、计算方差膨胀因子和容忍度等指标判断是否存在多重共线性。

③最简单的处理办法是删除变量,即在相关性较强的变量中删除测量误差大的、缺失数据多的、从专业上看意义不是很重要的或者在其他方面不太满意的变量。 ④也可采用主成分回归方法。

5. 如何判断、分析自变量间的交互作用?

答:基于专业背景知识,构造可能的交互作用项,并检验交互作用项是否有统计学意义。

6. 多重线性回归模型的基本假定有哪些?如何判断资料是否满足这些假定?如果资料不满足假定条件,常用的处理方法有哪些?

多重线性回归的前提条件(基本假定)是线性、独立性、正态性和等方差性,可以借助残差分析等方法判断资料是否满足条件。如果资料不满足前提条件,可以采用变量变换、引入交互作用项和更换回归方程等方法处理。

7、哑变量的设置:将有序变量或无序多分类变量转换成为多个二分类变量的过程。个数为变量类别数减1。

第12章 实验设计

科研设计的四项基本原则及其意义

①对照原则 通过对照鉴别处理因素与非处理因素的差异;消除或减少实验误差

②均衡原则 要求各处理组非实验因素的条件均衡一致,以消除非实验因素对实验的影响。 ③随机原则 抽样随机,分配随机,实验顺序随机,以减少系统误差。 ④重复原则 要求一定的样本量。重复实验、重复取样、重复测量

实验设计三要素 ①处理因素 ②受试对象

③实验效应(客观性、精准性、灵敏度、特异性)

实验设计类型

①单因素设计(完全随机设计):单组设计、成组设计、单因素多水平设计 配对设计、

②随机区组设计 (配对设计的拓展) ③交叉设计 (处理因素顺序)

④析因设计 (K个因素与各水平组合) ⑤重复测量设计

第13章 临床试验设计

1.临床试验通常分为哪四期,各期的主要目的分别是什么?

答:Ⅰ期临床试验:初步的临床药理学及人体安全性评价试验。观察人体对于新药的耐受程度和药代动力学,为制定给药方案提供依据。

Ⅱ期临床试验:治疗作用初步评价阶段。其目的是初步评价药物对目标适应证患者的治疗作用和安全性,也包括为Ⅲ期临床试验研究设计和给药剂量方案的确定提供依据。此阶段的研究设计可以根据具体的研究目的采用多种形式,包括随机盲法对照临床试验。治疗组不少于100例。

Ⅲ期临床试验:治疗作用确证阶段。其目的是进一步验证药物对目标适应证患者的治疗作用和安全性,评价利益与风险关系,最终为药物注册申请的审查提供充分的依据。试验一般应为具有足够样本量的随机盲法对照试验。治疗组不少于300例,对照组不少于100. Ⅳ期临床试验:新药上市后由申请人进行的应用研究阶段。其目的是考察在广泛使用条件下的药物的疗效和不良反应、评价在普通或者特殊人群中使用的利益与风险关系以及改进给药剂量等。

2.在临床试验开始之前,应做哪些必要的准备工作?

答:应当了解临床试验相关法规,了解临床试验相关指导原则,了解临床试验的伦理学原则,了解在哪里以及作哪些临床试验。

5. 临床试验设计的基本原则包括哪些?

答:临床试验必须遵循对照、随机、重复和均衡的原则。

6、统计检验类型

①差异性检验 差别是否有统计学意义 应确定检验水平 ②非劣性检验 是否不差于有效参比药 应确定非劣差异下限 ③等效性检验 是否与有效参比药等效 应确定等效界限 ④

8、统计数据集

①意向性分析数据集 未能观察全程的病历资料,用最后一次观察数据作为试验最终结果 ②符合方案数据集 符合方案,完成主要填写内容的病例,或服药量在80%~120%之间 ③安全性数据集 只服药一次并进行了至少一次安全性评估的患者。

第14章 调查设计

调查按调查方法分为 ①普查 ② 抽样调查 ③典型调查

调查问卷的评价

(1)效度评价 反映调查对象真实情况的程度。 ①表面效度 字面上看能否反映调查目的。

②内容效度 内容上看能否反映;是否包含足够条目反映。 ③结构效度 条目设置能否反映,

(2)信度评价 同条件同对象重复测验结果的一致性 ① 重测信度 不同时间点

② 内部信度 问卷内条目的相关程度 ③测评者一致性 不同测评者

调查设计类型

①横断面研究 对同一时间点的各个因素的调查研究

优点:广泛探索多因素;得知疾病流行情况;若调查时间短,成本较低。

缺点:不能推断因果关系;只计算点患病率,不能计算发病率;不适合患病率很低的

疾病。

②病例对照研究 回顾性

优点:同时调查多个因素;节省人力物力;不存在医疗道德

缺点:不能获得因果关系;不能计算患病率及发病率;容易产生偏倚 ③队列研究 前瞻性

优点:可以估计发病和暴露因素的联系程度

缺点:费人力物力;每次只考察一个暴露因素;容易失访;难以实施盲法。

抽样方法

①单纯随机抽样:事先规定规则,将调查总体编号,然后借助抽签或随机数字抽样。估计误差简单,但编号并非易事。

②系统抽样:先将调查总体排序,随机抽一个单位为起点,然后依次每隔若干个单位抽取一个单位。简便和节省时间,但当总体呈某种趋势时,可能产生偏移。

③分层随机抽样:现将总体按主要特征(如年龄)分为若干层次,然后在隔层中进行随机抽样。抽样误差小,但操作麻烦。

④整群抽样:以群体为基本单位抽样。在大规模调查中,易于组织。 就抽样误差而言,4>1>2>3

⑤多阶段抽样:将整个抽样过程分成若干个阶段进行。

系统误差,也叫偏倚。常见的有 选择性偏倚 信息偏倚 混杂偏倚。

第15章 样本含量估计

样本含量估计的要素(条件)

① 根据研究目的所建立检验假设。

② 检验水准α,常取α=0.05。 α越小,需要的n越大

③ 检验效能(1-),常取=0.2 。检验效能越高,需要的n越大。

④有关总体的一些信息。如,对于两样本均数比较,需知道两均数间差别δ、总体标准差。

2. 当假设检验的结果为“阴性”(P>0.05)时,对样本含量和检验功效进行复核有何意义?

答:当假设检验的结果为“阴性”(P>0.05)时,对样本含量和检验功效进行复核具有重要意义。通过对样本含量和检验功效进行复核(主要是计算检验功效),可以检查样本含量和检验功效是否偏低,以便正确认识假设检验的结果,避免得出错误的研究结论。若检验功效偏低,则说明样本含量不足,应加大样本含量,重新进行实验。

第16章 随机区组设计和析因设计资料的分析

1.随机区组设计与完全随机设计资料在设计和分析方面有何不同?

在设计上,与后者比,前者在设计阶段按照一定条件将受试对象配成区组,平衡了某些因素效应对处理因素效应的影响,更好地控制了其他因素对处理因素效应的影响,设计效率较高。

在分析上,随机区组设计资料的方差分析将总变异分解为3部分,将由区组因素导致的变异分离出来,使得误差更接近“随机误差”,假设检验的结果更敏感。 2. 随机区组设计的Friedman检验,H0如何写?请解释之。

答:各种处理的总体分布相同。Friedman检验的前提为在各区组内部变量值的秩次是随机的,因此由这些秩次算得各种处理总体的秩次值之和相等。

4.对于两因素的析因设计资料和随机区组设计资料,假定两个因素分别用A和B表示,可否先单独分析A因素,再单独分析B因素?为什么?

答:不可以。如果分别应用单因素的方法(方差分析方法、t检验或秩和检验等)分析A、B两因素,就会出现以下结果:① 没有按照实验设计的方法选择分析资料,达不到设计时的目的,信息利用率低。② 不能同时分析两个因素,即控制一个因素影响后分析另一个因素的实验效应。③ 对于析因设计资料,无法分析因素间的交互效应。

第17章 重复测量设计和交叉设计资料

1. 交叉设计所收集的资料是否属于非独立资料?

答:交叉设计所收集的资料是属于非独立资料。

2. 能否从某个药物的交叉设计所观察资料的统计分析结果推断临床的实际疗效?

答:交叉设计的某个药物的效果平均是多阶段的平均疗效评价,而临床的实际疗效往往是针对某个阶段的疗效评价,所以有时交叉试验的评价结果与临床的实际疗效评价有一些差异。

3. 能否用析因设计的方差分析方法分析重复测量资料?为什么?

答:不能,因为重复测量的资料是不独立的,析因设计的方差分析要求资料是独立的。

第18章 Logistic回归

a c B D

优势odds = a / b = p/(1-p)

优势比OR = odds1 / odds0 =ad /cb 具有风险概率的含义,以0条件为参考类,1条件发生某事件的优势是0条件的OR倍。

Logistic P =β0 +β1X1 + β2X2 +…+ βpXp Oddsx = exp(β0 +β1X1 + … )

P = exp(β0 +β1X1 + … ) / {1 + exp(β0 +β1X1 + … ) }

在单变量的Logistic回归Logistic P =β0 +β1X1中 lnOR = β1 , β0 为没有1条件下某事件发生的优势的对数。

多自变量Logistic回归Logistic P =β0 +β1X1 + β2X2 +…+ βpXp 中,回归系数βj 的含义,在其他条件不变的情况下,,自变量X每增加一个单位与未增加时的优势比的自然对数。(自变量X每增加一个单位所产生的优势比的自然对数) 哑变量回归系数的含义是各类别与参照类优势比的自然对数。

Logistic回归的应用 ①校正混杂因素 ②筛选影响因素

③疾病预测与预后。条件Logistic回归不能用于预测。

第19章 生存分析

Cox模型 h(t) = h0(t)exp(βiXi)

生存资料包括三部分:可能的影响因素和协变量、生存结局和生存时间。 生存资料的特点如下

①同时考虑生存结局和生存时间。 ②生存时间可能含删失数据。

③生存时间的分布和常见的统计分布有明显不同,如呈指数分布等。 生存资料的要求

①样本由随机抽样获得,且数量足够 ②死亡例数不能太少(≥30) ③删失数据比例不能太大

④生存时间尽可能精确到天数 ⑤缺项要尽量补齐

死亡概率、生存概率与生存率的关系

死亡概率指某时间段内死亡的可能性,记作q。

生存概率指某时间段内仍生存的概率,记为p ,p =1-q。

生存率为经历若干个时间段后仍生存的可能性,S = p1 * p2 *p3 ….

1. 生存分析的主要用途及其统计学方法有哪些?

(1)估计:即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。估

计生存率常用寿命表法和Kaplan-Meier(K-M)法。

(2)比较:即比较不同受试对象生存数据的相应指标是否有差别。生存曲线比较常用

log-rank检验和Breslow检验。

(3)影响因素分析:其目的是为了研究影响生存时间长短的因素,或在排除一些因素影响

的情况下,研究某个或某些因素对生存率的影响。影响因素分析常用Cox回归。 (4)生存预测:具有不同因素水平的个体生存预测估计。生存预测常用Cox回归。 2. 生存率估计的K-M法和寿命表法是如何利用删失数据的?

生存率估计的K-M法和寿命表法计算期初例数时,都利用了删失数据提供的这部分信息。

3. Cox回归与logistic回归都可作临床研究中的预后分析,两者的主要区别何在? Logistic回归模型

①可以作多因素预后分析,控制混杂因素效应 ; ②进行相对危险度估计;

③不能处理随访中常见的删失数据;

④仅考虑随访结局(生存或死亡、有效或无效),而未考虑出现该结局的时间长短。 Cox比例风险回归模型

(1)不仅可以从事件结局的好坏,而且可以从发生事件的时间长短进行分析比较。 (2)可以处理删失数据,能够更全面地作预后分析。

但当数据失访较少或结局事件发生数较少时,宜用logistic回归分析。 4. Cox回归中的RR表示什么?如何解释RR的大小?

RR = h(t)i/h(t)j =exp{β(Xi-Xj)} 与h0 无关

Cox回归中的RR表示相对危险度(relative risk)或风险比(risk ratio),其含义是在其他协变量不变条件下,变量Xj每增加一个单位所引起的终点事件发生风险增加到的倍数。

5.参数解释

βj 在其他协变量不变条件下,变量X j 每增加一个单位所引起的相对危险度的自然对数。 RR =exp(βj ) 在其他协变量不变条件下,变量X j 每增加一个单位所引起的相对危险

当βj > 0 时,exp(βj )>1,X j 为危险因素,反之为保护因素。当βj = 0 时,exp(βj )=1,则为无关因素。

第25章 Meta分析

1. Meta分析的基本步骤有哪些?

答:Meta分析的基本步骤包括:提出问题,制定研究计划;检索相关文献;选择符合要求的纳入文献;提取纳入文献的数据信息;纳入研究的质量评价;资料的统计学处理;敏感性分析;结果的分析和讨论。 2. Meta分析的目的和意义是什么?

答:通过meta分析能增加统计功效,评价研究结果的一致性,增强结论的可靠性和客观性,通过亚组分析,得出新结论,寻找新的假说和研究思路。 3. Meta分析时,固定效应模型和随机效应模型有什么不同?如果研究间有异质性,应如何处理?

Meta分析进行效应合并时的变异可能来源于两个部分,一是研究内变异,二是研究间变异。

采用固定效应模型只考虑研究内变异,即认为研究间的差别只是抽样引起,纳入meta分析的各个独立研究来自一个相同的总体,各个独立研究的效应是效应合并值这一总体参数的估计值。

采用随机效应模型则同时考虑了研究内变异和研究间变异,即认为研究间的差异不仅仅是抽样引起的,纳入meta 分析的各个独立研究分别来自不同但互有关联的一些总体,每个研究有其相应的总体参数,meta分析的效应合并值是多个不同总体参数的加权平均。

Meta分析时,如果异质性检验的结果不拒绝H0,即研究间的差异没有统计学意义,可采用固定效应模型得到效应合并值。如果拒绝H0,则认为研究间存在异质性,此时应考察异质性来源,并通过敏感性分析或亚组分析等异质性处理方法,使之达到同质后,再采用固定效应模型。若经异质性分析和处理后,多个独立研究的结果仍然不具有同质性,可选择随机效应模型、meta回归及混合效应模型进行效应合并。如果异质性很大,应考虑这些研究结果的可合并性,或放弃meta分析,只对结果进行定性分析。

4. Meta分析有哪些常见的偏倚?

答:偏倚的类型主要包括文献发表偏倚、文献查找偏倚和文献筛选偏倚。

第26章 医学论文的统计学报告要求

因篇幅问题不能全部显示,请点此查看更多更全内容