学习|临床试验数据统计分析应用技巧

发布时间:2023-08-02阅读量:901

统计方法的正确使用姿势 

Part.01 统计方法选择的必要条件  

在临床科研工作中,正确地抉择统计分析方法,应充分考虑科研工作者的分析目的、临床科研设计方法、搜集到的数据资料类型、数据资料的分布特征与所涉及的数理统计条件等。其中任何一个问题没考虑到或考虑有误,都有可能导致统计分析方法的抉择失误。此外,统计分析方法的抉择应在科研的设计阶段来完成,而不应该在临床试验结束或在数据的收集工作已完成之后。对临床科研数据进行统计分析和进行统计方法抉择时,应考虑下列因素:

1.分析目的

对于临床医生及临床流行病医生来说,在进行统计分析前,一定要明确利用统计方法达到研究者的什么目的。一般来说,统计方法可分为描述与推断两类方法。一是统计描述(descriptivestatistics),二是统计推断(inferentialstatistics)。统计描述,即利用统计指标、统计或统计表,对数据资料所进行的最基本的统计分析,使其能反映数据资料的基本特征,有利于研究者能准确、全面地了解数据资料所包涵的信息,以便做出科学的推断。统计表,如频数表、四格表、列联表等;统计,如直方、饼,散点等;统计指标,如均数、标准差、率及构成比等。统计推断,即利用样本所提供的信息对总体进行推断(估计或比较),其中包括参数估计和假设检验,如可信区间、t检验、方差分析、c2检验等,如要分析甲药治疗与乙药治疗两组的疗效是否不相同、不同地区某病的患病率有无差异等。还有些统计方法,既包含了统计描述也包含了统计推断的内容,如不同变量间的关系分析。相关分析,可用于研究某些因素间的相互联系,以相关系数来衡量各因素间相关的密切程度和方向,如高血脂与冠心病、慢性宫颈炎与宫颈癌等的相关分析;回归分析,可用于研究某个因素与另一因素(变量)的依存关系,即以一个变量去推测另一变量,如利用回归分析建立起来的回归方程,可由儿童的年龄推算其体重。

2.资料类型 

资料类型的划分现多采用国际通用的分类方法,将其分为两类:数值变量(numericalvariable)资料和分类变量(categoricalvariable)资料。数值变量是指其值是可以定量或准确测量的变量,其表现为数值大小的不同;而分类变量是指其值是无法定量或不能测量的变量,其表现没有数值的大小而只有互不相容的类别或属性。分类变量又可分为无序分类变量和有序分类变量两小类,无序分类变量表现为没有大小之分的属性或类别,如:性别是两类无序分类变量,血型是四类无序分类变量;有序分类变量表现为各属性或类别间有程度之分,如:临床上某种疾病的“轻、中、重”,治疗结果的“无效、显效、好转、治愈”。由此可见,数值变量资料、无序分类变量资料和有序分类变量资料又可叫做计量资料、计数资料和等级资料。

资料类型的划分与统计方法的抉择有关,在多数情况下不同的资料类型,选择的统计方法不一样。如数值变量资料的比较可选用t检验、u检验等统计方法;而率的比较多用c2检验。值得注意的是,有些临床科研工作者,常常人为地将数值变量的结果转化为分类变量的临床指标,然后参与统计分析,如患者的血红蛋白含量,研究者常用正常、轻度贫血、中度贫血和重度贫血来表示,这样虽然照顾了临床工作的习惯,却损失了资料所提供的信息量。换言之,在多数情况下,数值变量资料提供的信息量最为充分,可进行统计分析的手段也较为丰富、经典和可靠,与之相比,分类变量在这些方面都不如数值变量资料。

因此,在临床实验中要尽可能选择量化的指标反映实验效应,若确实无法定量时,才选用分类数据,通常不宜将定量数据转变成分类数据。

3.设计方法 

在众多的临床科研设计方法中,每一种设计方法都有与之相适应的统计方法。在统计方法的抉择时,必须根据不同的临床科研设计方法来选择相应的统计分析方法。如果统计方法的抉择与设计方法不一致,统计分析得到的任何结论都是错误的。在常用的科研设计方法中,有成组设计(完全随机设计)的t检验、配对t检验、成组设计(完全随机设计)的方差分析、配伍设计(随机区组设计)的方差分析等,都是统计方法与科研设计方法有关的佐证。因此,应注意区分成组设计(完全随机设计)与配对和配伍设计(随机区组设计),在成组设计中又要注意区别两组与多组设计。

最常见的错误是将配对或配伍设计(随机区组设计)的资料当做成组设计(完全随机设计)来处理,如配对设计的资料使用成组t检验、配伍设计(随机区组设计)使用成组资料的方差分析;或将三组及三组以上的成组设计(完全随机设计)资料的比较采用多个t检验、三个或多个率的比较采用四格表的卡方检验来进行比较,都是典型的错误。

4.分布特征及数理统计条件 

数理统计和概率论是统计的理论基础。每种统计方法都要涉及数理统计公式,而这些数理统计公式都是在一定条件下推导和建立的。也就是说,只有当某个或某些条件满足时,某个数理统计公式才成立,反之若不满足条件时,就不能使用某个数理统计公式。在数理统计公式推导和建立的条件中,涉及最多的是数据的分布特征。数据的分布特征是指数据的数理统计规律,许多数理统计公式都是在特定的分布下推导和建立的。 

若实际资料服从(符合)某种分布,即可使用该分布所具有的数理统计规律来分析和处理该实际资料,反之则不能。 

在临床资料的统计分析过程中,涉及得最多的分布有正态分布、偏态分布、二项分布等。许多统计方法对资料的分布有要求,如:均数和标准差、t和u检验;方差分析都要求资料服从正态分布,而中位数和四分位数间距、秩和检验等,可用于不服从正态分布的资料。所以,临床资料的统计分析过程中,应考虑资料的分布特征,最起码的要求是熟悉正态分布与偏态分布。例如:在临床科研中,许多资料的描述不考虑资料的分布特征,而多选择均数与标准差。除了数据的分布特征外,有些数理统计公式还有其它一些的条件,如t检验和方差分析的方差齐性、卡方检验的理论数(T)大小等。总之,对于临床科研工作者来说,为正确地进行统计方法的抉择,首先要掌握或熟悉上述影响统计方法抉择因素;其次,还应熟悉和了解常用统计方法的应用条件。

Part.02 数据资料的描述   

统计描述的内容包括了统计指标、统计和表,其目的是使数据资料的基本特征更加清晰地表达。本节只讨论统计指标的正确选用,而统计表的正确使用请参阅其他书籍。

数值变量资料的描述 

描述数值变量资料的基本特征有两类指标,一是描述集中趋势的指标,用以反映一组数据的平均水平;二是描述离散程度的指标,用以反映一组数据的变异大小。描述数值变量资料的常用指标:均数描述一组数据的平均水平,集中位置正态分布或近似正态分布中位数(M)与均数相同偏态分布、分布未知、两端无界几何均数(G)与均数相同对数正态分布,等比资料标准差(S)

描述一组数据的变异大小,离散程度正态分布或近似正态分布四分位数间距

(QU-QL)与标准差相同偏态分布、分布未知、两端无界极差(R)与标准差相同观察例数相近的数值变量变异系数(CV)与标准差相同比较几组资料间的变异大小均数与标准差联合使用描述正态分布或近似正态分布资料的基本特征;中位数与四分位数间距联合使用描述偏态分布或未知分布资料的基本特征。这些描述指标应用时,最常见的错误是不考虑其应用条件的随意使用,如:用均数和标准差描述偏态分布、分布未知或两端无界的资料,这是目前在临床研究文献中较为普遍和典型的错误。

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。


来源:法迈新媒体

版权归原作者所有,若有违规、侵权请联系我们

160
901
我有话说:
0 / 5000
所有评论(0条)
最新最热
  • 1
前往
关注我们
精英荟医生招聘
官方公众号
精英荟医生招聘
官方小程序
资讯动态
MORE+
1
173家医院升为三级!揭秘医院等级评审重点与痛点
2
苗建亭教授:老年性痴呆症的预防和治疗
3
李x教授,谁不想全民免费医疗?
4
《关于促进数字中医药发展的若干意见》政策解读
5
孩子注意力不集中的5个原因
6
全球超170个新药研发加速,突破性疗法助力乙肝治愈
7
准爸妈须知!出现这些情况不易备孕!兰州天伦生殖不孕症医院科普
8
儿童感统失调表现及科室就诊指南
9
秋意渐浓,警惕‘秋老虎’对心脏的潜在威胁
10
关于做好2024年中国医师节有关工作的通知
11
公立医院再次被要求「过紧日子」,仍需探索下一步怎么走?
12
糖尿病、脂肪肝比肝炎、肝硬化更易罹肝癌?
13
公立医院再次被要求「过紧日子」,仍需探索下一步怎么走?
14
【老年心理】高龄老人的嗅觉、味觉、温度觉、触觉
15
政策红利叠加需求激增,“康养+疗愈”模式成银发文旅新风口