R与医学统计的未来
2022-03-05
来源:易榕旅网
第40卷第4期2014年12月兰州大学学报(医学版)JournalofLanzhouV01.40NO.4Dec.2014University(MedicalSciences)文章编号:1000-2812(2014)04.0093—05R与医学统计的未来杨浩1,江华1’2,彭谨1,周志远L2,何路1’3,曾俊。2(1.四川省医学科学院四川省人民医院急诊医学与灾难医学研究所,创伤代谢组多学科实验室,计算数学与生物统计教研组四川成都610101;2.四川省人民医院创伤外科,四川成都610101;3.新西兰怀卡托大学管理学院,汉密尔顿31216)摘要:随着大数据时代的到来,数据挖掘和模式识别已经逐渐成为新的医学科学研究范式。临床大数据集具有自身的特点:数据格式多样、复杂且难于统一,常规的商业化统计分析软件难以适应临床数据挖掘的任务需要:R是一种应用范围极其广泛、发展极其迅速、功能极其强大的统计和数据挖掘软件:本文为从事数据挖掘工作的临床研究者和医务人员介绍了R的特点:R相较于SPSS、SAS等常规商业数据分析软件的优点包括:(1)良好的编程性;(2)R具有易于扩展性,为开源社区的大量开发者提供了很多先进和实验性的统计模块及算法包;(3)良好的交互界面;(4)支持几乎所有数据格式的载人;(5)良好的数据管理;(6)绘图功能强大;(7)强大的并行计算与大数据处理能力;(8)由于以上优点,R可以很好地与临床数据挖掘研究相结合,为医学统计的发展提供动力,并推动新一代循证医学的全新理论和方法在21世纪诞生:关键词:R;医学统计学;数据挖掘;循证医学;转化医学;系统生物医学中图分类号:TP312,R311,R4文献标识码:Adoi:10.13885/j.issn.1000—2812.2014.04.017RandthefutureofmedicalstatistiCSYangHa01,JiangHual一,PengJinl,ZhouZhi—yuanl,HeLul一,Zengfl÷ComputationalMathematicsandJunl・2Biostatistics.MetabolomicsandMultidisciplinaryLaboratoryforTraumaResearch.InstituteforEmergencyandChenduDisasterMedicine,SichuanProvincialPeople’SHospital,SichuanAcademyofMedicalScience,610101,China;2.DepartmentofTraumaSurgery,SichuanProvincialPeople’SHospital,ChenduManagementSchoolofTheUniversityofWaikato,Hamilton31216,NewZealand)610101,China;3Abstract:Withtheemergenceofthe“bigdataera”,bothdataminingandpattemrecognitionaregraduallybecomingnewmodelsofthemedicalscienceresearch.Comparedwiththebigdataresearchinotherfields,theclinicalbigdatasethasitsownuniquefeatures:theextremevarietiesofitsformatandthecomplexitieshardtouniform.Atpresent,commercialstatisticalsoftwareisnotcapableenoughtohandlesuchcomplexda—taset.Rprovidesasolutiontotheproblem.TheRisastatisticalanddataminingtool,whichdevelopsrapid—lyandwithextensiveapplicablefields.ComparedwiththecommercialstatisticalSORwarelikesSPSSandS,Rpossessesthefollowingmerits:1)user-friendlyprocessing;2)supportedbyacommunity,whichismade收稿日期:2014-07-09基金项目:四川省科技厅科技支撑项目(2011SZ0336,2012SZ018l,SZ20120209);成都市科技厅科研基金项目(1lPPYB099SF一289.12PPYB18lSF一002)作者简介:杨浩,(1984一),男,IⅡt)lI成都人,实习研究员,硕士,数学建模与计算,e—mail:hao.yang@traumahank.org江华,(1978一),男,四川成都人,副主任医师,博士,研究方向为计算生物学和循证医学,e—mail:hua.jiang@traumabank.org,通信联系人。万方数据兰州大学学报(医学版)upbytensofthousandsofactiveta第40卷allformatsofda-developers;3)userfriendlyinterface;4)supportingalmostsettings;5)powerfulcomputingandstatisticalfunctions;6)excellentdatamanagementfunction;7)power—sourcefulparallelcomputingcapacitythatempowersclinicaldataminingBecauseofthesemerits,Risnaturallyapowerfulstatisticaltoolstudies;8)openandfleefornousers.forclinicaldatamining.Thereisdoubtre—thatRwouldincreasinglyempowerfuturemedicalstatisticsandimprovethedevelopmentoftranslationalsearch,whichleadstothebirthofEvidence—basedMedicine2.0,basedgyin21stcentury.Keywords:R:medicalsystemsbiomedicinestatistics;datamining;evidence—basedmedicine;translationalonbrandnewtheoryandmethodolo—medicine;lR的发展简史R是一种应用范围极其广泛、发展极其迅“S永久地改变了人们对数据分析、可视化以及处理的方式,s是优雅的、广为接受的、不朽的软件系统,它具有概念框架的全面性,我们要对John速、功能极其强大的统计和数据挖掘软件。其源起可追溯到1993年,时为新西兰奥克兰大学教师RossChambers的洞察力、高雅趣味以及不懈努力致敬”㈣。所以可以说,滥觞于S的R,不仅仅是一个统计软件,它已经成为计算机编程的一个里程碑。2014年7月,R版本已经更颏到了3.1.1,在CRAN(TheComprehensiveRArchiveNetwork,Ihaka和RobertGentleman在讨论实验室教学计划时,产生了想要在s语言基础上开发一款嵌入式小软件的设想”。21。S语言是贝尔实验室于20世纪70年代中期开发的一款统计软件,全称是StatisticalComputingSubroutines(SCS,S)”j。S与cran.r-project.org)上可以下载使用的扩展T具包超SAS等同时代出现的商业统计软件相比,其最大的优势是具备灵活的交互性,但其不足在于需要进行大量编程。R的产生,正好弥补了S的不足:R的原理基于SCS,但编程大为简化,交互性进一步增强p1。R从其诞生之初,就坚持走开源过5000种,提供的统计分析工具包涵盖了统计检验、回归分析、模式识别、时问序列等。同时,由于不同的学科对统计分析有各自独特的需求,R还陆续推出了各种专业学科的分析丁具包。与生物医学研究相关的很多]:具包都被整合到R的Bioconductor项目中。此外,还有一些独立于Bio—路线,很快就有许多既精通统计学又擅长编程的软件开发者、统计学家加入到R的后续开发中:conductor项目的生物信息学丁具包,有用于流行病学研究的专门分析丁^具epicalc,以及有名的聚类算法工具e1071等:这些工具包为各个领域的研究者提供了强大而且方便的分析]_具,极大地减少了为开发统计方法所需要的编程能力和开发时间。到1997年,R加入了GNU协议U1。GNU是“GNU7SNotUnix”的递归缩写,是自由软件使用项目,目的在于让软件可以自由地被“使用、复制、修改和发布”。1997年对于R的发展具有里程碑意义。在加入GNU的同时,R建立了核心开发团队,标志着R从一个两个人的兴趣小组,正式成为一个完整如今,R的使用者可以非常方便地获取并调用其他开发者上传的J1具包,得到其需要的最终的、并不断延展的T程项目。值得一提的是,s语言的=位创始者之一JohnM.Chambers也加入了R核心开发团队。1998年,S语言之父JohnM.结果,同时也可以查看和修改其他开发者提供的工具包,使之更加符合使用者需要社、。2Chambers获得了美国计算机协会(ACM)授予的软件系统奖”,:ACM的软件系统奖意味着s被计R与两大生物医学常用商业软件相比所具有的优势近年来,计算生物学及生物信息学的快速发算机科学领域认可为一项重大创新,这一点从ACM授予的授奖词就可看出,ACM这样肯定S:展,与R的Bioconductor项目有极为密切的联万方数据第4期杨浩,等:R与医学统计的未来95系。R推出Bioconductor项目的目的,是为了降低R与SPSS/SAS等传统统计软件的比较见研究者的入门门槛,提高开发效率。采用了R的表1。总的来说,R具有良好的可编程性,体量生物学及生物信息学研究,其论文结果可重复验小,功能强大,且具有易于扩展性。R开源社区证性高,研究具有开放透明的特色,这就引领了的大量开发者提供了很多先进和实验性的统计模现代生物医学数据分析发展的趋势。块及算法包,其中有些统计模块是SPSS/SAS等表1R与SAS及sPSS两大商业统计软件的比较商业软件无法及时提供的。此外,R具有很好的它们都由大公司、大团队开发,比之于小制作的代码重用性,其扩展性、易于维护与可调适性、R,有其团队优势。但是,时移世易,经过十余灵活性都是同类商业软件无法比拟的。反观商业年发展,R的5000多个软件包,数以万计的社区软件SPSS/SAS,它们是深受大公司病困扰的商业开发者,良好可持续的开发文化,早已将恐龙般团队开发的产品,虽然历史悠久,然而却已经患的两大商业软件开发团队远远地抛在身后。换而上了难以治愈的痼疾:对用户的需求漠不关心,言之,SPSS/SAS代表的是20世纪垄断企业的作反应极慢,不适应科研发展的快速需要。以前风,而R则属于21世纪睁41。SPSS/SAS在与R论辩时,常常使用的一个论点是R对于现在和未来的生物医学研究发展具有万方数据兰州大学学报(医学版)第40卷非常重要的工具性意义,与正走人大数据时代的生物医学研究发展趋势有着内在的、密不可分的联系。3为什么说R对21世纪的生物医学研究发展具有重要的工具性意义?首先,现代生物医学的方法论基础即将出现重大变革,从基于假设检验的统计分析演化为基于数据挖掘的知识发现。20世纪80年代以来,在“循证医学”(evidencebasedmedicine,EBM)研究范式的引领之下,医学取得了许多重大进展,推动了临床实践的规范化。EBM的哲学根基是临床医生从经验、观察提出各种假设和猜想,并经由假设一演绎法来做检验。EBM所强调的方法论基石之一是随机对照试验(randomizedcontroltrial,RCT),其步骤可概括为:猜想一搜集数据一假设检验一得出结论。但是,这种方法论在面对疾病,尤其是癌症等一系列有着异常复杂内在机制的疾病时,其内在缺陷也是不可忽略的。由于试图通过随机分组方式来简化影响干预效果的复杂性,从而可以使用简单的统计学手段来考察很少的一些影响因素对临床结局的作用。但是,这就使得RCT本质上成为一种“黑箱研究”,即忽视因果关系而将相关性作为评价干预对临床结局的效果。研究者未尝不知道相关性与逻辑因果有区别,但由于有各种应用上的便利性,研究者往往在结果解释时故意混淆概念,化相关为因果。以RCT为支柱的循证医学,使得临床实践几乎被大型RCT的结论主导,但当出现结果相反的RCT时,就会给临床医生造成极大困惑。Meta分析作为一种解决此类挑战的方法已经十分流行,但Meta分析从诞生开始就被异质性挑战缠身,对所得结论十之八九还要乞灵于“更多、更大样本的RCT”,从而进人了一个死循环。破解这一难题,需要另觅蹊径。随着计算机科学的大发展,近几年来,研究者们在临床上第一次有可能、也有能力去考察数据全集。传统的临床研究设计方法产生的前提,就在于以前无法处理海量的临床数据,无法考察数据全集而必须抽样。无论RCT还是队列研究,究其根本,其核心技术都是围绕恰当的抽样设计。但由于各类疾病本身的复杂性和患者之间万方数据巨大的内在差异性,RCT以及队列研究所能揭示的真相是有限的。当然,可以通过扩大样本量来减少异质性,但随着样本量扩大而带来的异质性减少却是边际递减的,而成本却呈数量级上升的。随着计算机科学的进步,我们对临床数据的记录和处理能力已经远非20世纪80年代的研究者所能想象。利用计算机工具对海量的数据进行数据清洗、建模和计算,是旧有的、适用于传统临床设计的统计工具不堪胜任的,这需要由功能更为强大的计算机语言来实现。这种语言不仅仅可用于假设和猜想的验证,还可以在没有假设和猜想时,通过对数据进行模式识别,将存在于海量临床数据中的重要信息提取出来。这种模式识别分析方法对分析工具的灵活性要求很高,传统固定的分析软件难于实现。因此,R比已有的商业化软件如SPSS和SAS更适用于临床数据挖掘的新分析模式。海量数据的产生,还对计算机统计算法提出了新的要求,即统计分析的参数选择从基于研究者/统计学家的主观经验逐渐过渡到客观的智能化、自动化选择,这就为临床数据分析引入了一个全新的计算机研究领域——机器学习。TomMitchellt71在1997年对机器学习曾经进行了如下的定义:“MachineLearningisthestudyofcom—puteralgorithmsthatimproveautomaticallythroughexperience(机器学习是对能通过经验来自动改进的计算机算法的研究)。”机器学习不仅要求对已经存在的数据进行分析和知识挖掘,还要求计算机能够通过对已有数据的学习来实现临床上对各种趋势的预测。研发临床机器学习系统,其核心技术是构建有效的、可自动更新的临床知识库。开发此类具有自动优化功能的机器学习系统,其工作量极其庞大,任务具有碎片化性质,现有的商业开发模式无法完成。显然,只有功能异常强大、用法灵活、且有众多专家活跃的在线社区的支持下才能完成上。近年来,包括本实验室在内的越来越多的从事于临床数据挖掘工作的单位将R作为进行统计和数据分析的基本T具,在急诊医学、灾难医学等多个领域开展了有益的探索。例如,本实验室开展的新一代循证医学方法学的研究、汶川地震第4期杨浩,等:R与医学统计的未来伤员数据挖掘研究、中美危重创伤患者的救治质量研究,均以R作为主要的计算工具叫,。4结论综上,我们可以合理地推论,医学统计的未来工具非R莫属。今天开始进入医学研究的年轻科学家应该勇于探索,不懈学习R编程技巧,成为转化医学时代的优秀科学家。掌握R,需要学习一些计算机编程技巧,对于从未接触过编程的青年生物医学研究者,掌握R可能有一定的难度。但是一旦掌握,则可畅游于现代统计技术和数据挖掘的海洋中?诚如我国著名的统计学家吴喜之教授所言.他“在见到R时,已经接近耳顺之年,但在一天之内基本掌握,一周之内可以熟练编程和无障碍地实现数据分析目的。耄耋糊涂之翁尚能学懂,何况年轻聪明者乎?”n217参考文献[1】BeckerR,UrbanekS.FromStoR:35yearsofAT&Tleadershipinstatisticalcomputing?http://www.research.att.corn/articles/featured.stories/2013-09/201309.SandR.html?fbid=VqosXAH2ls0.AccessedonJuly29,2014【2]IhakaR.R:pastandfuturehistory.http://cran.r-project.org/doc/html/interface98一paper/paper.html.AccessedonJuly29.2014.[31TheAssociationforComputingMachinery(ACM),ACMhonorsDrIJohnM.ChambersofBellLabswiththe1998ACMsoftwaresystemawardforcreating”system”sottware.March29.1999.http://www.acm.万方数据org/announcements/ss99.html/.AccessedonJuly29,2014.【4]JohnM.Chambers.FacetsofR.RJournal,2009,1(1):5—8.http://journal.r-project.org/archive/2009-1/RJoumal2009-l・Chambers.pdf.AccessedonJuly29,2014.[5]KDnuggets.Pollresults:topLanguagesforDataMin—ing/Analytics.http:llwww.kdnuggets.com/201I/08/poll-languages—for-data—mining-analytics.html.AccessedonJuly29.2014.[6】Robert,Kabacoff.R语言实战[M】.北京:人民邮电m版社,2013:4.5.【7]MitchellTM.Machinelearning[M].NewYork:Mc—GrawHill.1997:1.[8]蔡斌,江华,杨浩,等.基于Meta回归算法评估烧伤临床营养系统评价的异质性[J].中华烧伤杂志,2013,29(4):344-348.【9】ChenW.JiangH,ZhouZY,eta1.Isomega一3fhttyacidsenrichednutritionsupportsafeforcriticalillpa—tients?Asystematicreviewandmetaanalysis[J].Nutri—ents.2014,6(6):2148-2164.[10】孙明伟,江华,彭谨,等.基于数据挖掘方法建立地震创伤患者结局预测模型的研究【J】.中华急诊医学杂志,2014,23(3):308・313.CaiB,SigfidB,RedickB,eta1.Comprehensivelevelonetraumacentercouldlowerin—hospitalmortalityofseveretraumainChina[J].BiomedEnvironSci.2014;27(7):537-543.[12]吴喜之.复杂数据统计方法一基于R的应用[M].北京:中国人民大学出版社,2013:7.R与医学统计的未来
作者:作者单位:
杨浩, 江华, 彭谨, 周志远, 何路, 曾俊, Yang Hao, Jiang Hua, Peng Jin, Zhou Zhi-yuan,He Lu, Zeng Jun
杨浩,彭谨,Yang Hao,Peng Jin(四川省医学科学院四川省人民医院急诊医学与灾难医学研究所,创伤代谢组多学科实验室,计算数学与生物统计教研组 四川成都610101), 江华,周志远,曾俊,Jiang Hua,Zhou Zhi-yuan,Zeng Jun(四川省医学科学院四川省人民医院急诊医学与灾难医学研究所,创伤代谢组多学科实验室,计算数学与生物统计教研组 四川成都610101;四川省人民医院创伤外科,四川成都610101), 何路,He Lu(四川省医学科学院四川省人民医院急诊医学与灾难医学研究所,创伤代谢组多学科实验室,计算数学与生物统计教研组 四川成都610101;新西兰怀卡托大学管理学院,汉密尔顿31216)兰州大学学报(医学版)
Journal of Lanzhou University (Medical Sciences)2014,40(4)
刊名:英文刊名:年,卷(期):
引用本文格式:杨浩.江华.彭谨.周志远.何路.曾俊.Yang Hao.Jiang Hua.Peng Jin.Zhou Zhi-yuan.He Lu.Zeng Jun R与医学统计的未来[期刊论文]-兰州大学学报(医学版) 2014(4)