癌症中DNA甲基化基因模块筛选
2021-02-23
来源:易榕旅网
第12卷第3期 生物信息学 V01.12 No.3 2 0 1 4年9月 Chinese Journa1 of Bioinformatics Sep.,2014 doi:10.3969/j.issn.1672—5565.2014.03.07 癌症中DNA甲基化基因模块筛选 张淑梅,张彬,刘军厚,刘洪波,苏建忠,王芳,张岩 (哈尔滨医科大学生物信息科学与技术学院,黑龙江哈尔滨150081) 摘要:肿瘤的发生受遗传学和表观遗传学修饰的共同影响。DNA甲基化是一种重要的表观遗传修饰,在癌症的发生与发展 中起着重大的作用。因此找到癌症的甲基化标记物在癌症的诊断和治疗中具有重大意义。本文利用权重基因共表达网络分 析的方法(WGCNA)筛选出甲基化基因模块,并分析模块向量基因,进行功能注释,最后对基因模块进行功能分析,得到DNA 甲基化与肿瘤间的关系。结果显示,这些甲基化异常的基因模块与癌症的发生有着显著的关联。同时还发现某些甲基化异 常的基因模块与多种癌症的发生都有着显著的关联。 关键词:表观遗传修饰;肿瘤;甲基化;WGCNA;基因模块 中图分类号:Q81 文献标志码:A 文章编号:1672-5565【2014)-03-189-07 The screening of DNA methylation gene modules in cancers ZHANG Shumei,ZHANG Bin,LIU Junhou,LIU Hongbo,SU Jianzhong,WANG Fang,ZHANG Yan (College ofBioinformatics Science and Technology,Harbin Medical University,Harbin 150081,China) Abstract:Tumorigenesis is affected by both genetic and epigenetic modiifcations.DNA methylation acts as an important epigenetic modiifcation and plays a major role in the occurrence and development of cancers.Therefore, ifnding the methylation biomarkers in cancers is a great feat in the diagnosis and treatment of cancers.In this paper, we take the advantage of Weight Gene Co—expression Network Analysis method(WGCNA)to filter out methylation gene modules and analyze the module vector genes,afterwards,the functional annotation,then we conduct functional analysis of gene modules,finally the relationship between DNA methylation and cancers can be interpreted.The results showed that these aberrant methylated gene modules have significant associations with cancers.Interestingly,we also found that some abnormal methylation gene modules have great associations with the occurrences of various cancers. Keywords:Cancer;Epigenetic modification;DNA methylation;WGCNA;Gene modules 目前,癌症是严重威胁人类健康的三大杀手之 据报道,人类的基因只是果蝇的2倍多。很难想 一,对于这种严重危害人类健康的顽疾,现在的医学 象DNA的遗传信息可以调控人类这样复杂的生命体 界并不十分清楚它的发病机制。同时,人们对基因 发育和生存的全过程¨ J。维持细胞的功能,决定哪 的本质也渐渐有了更深入地认识。很长一段时间 些基因表达、哪些基因不表达,是非常重要的,几个基 里,人们认为癌症的形成只与基因突变有关 1-4 3。 因的错误表达便会诱发正常细胞发生癌变 。 但是,越来越多的证据表明,表观遗传修饰对癌症的 目前普遍认为,DNA甲基化与癌症的发生有密 发生也起着十分重要的作用。基因序列不变,而基 切关系 。癌症的甲基化异常表现为总体的甲基 因的表型发生了可遗传的变化,称为表观遗传 j。 化水平降低与启动子区域的甲基化水平升高 J。 这是由表观遗传修饰造成的。DNA甲基化是一种 例如,抑癌基因与修复基因的高甲基化会导致它们 重要的表观遗传修饰,它制约着基因的表达。 的失活,造成肿瘤抑制丧失与基因损伤增加。 收稿日期:2013—11—24;修回日期:2014一O1—21. 资助项目:黑龙江省大学生创新创业训练计划(201210226050)资助。 作者简介:张淑梅,女,本科生,研究方向:计算表观遗传学;E—mail:shumei一1991@163.con. 通信作者:张岩,女,博士,教授,博士生导师,研究方向:生物信息学;E—mail:yanyou1225@gmail.corn 190 生 物 信 息 学 第12卷 由于涉及基因的“开”与“关”,DNA甲基化对 肿瘤的产生起着重大的作用。同时研究表明,某些 基因的异常甲基化与多种癌症的产生有着显著的关 联_8 J。例如,基因P15的甲基化会使基因沉默,并 使细胞过度激活与增殖,而这与白血病、淋巴瘤、鳞 状细胞癌、肺癌的发生都有重要的联系 j。是否存 在一组甲基化异常的基因,与多种癌症的发生有着 重要的关联以及这些基因在不同的癌症中是否起着 不同的作用,成为本文关心的问题。通过研究这些 问题,会为癌症的预测提供必要的方法,同时也增强 了人们对癌症与DNA甲基化关系更进一步的认识。 表观遗传标记可以在被割除的肿瘤和体液中探 测到。例如,超甲基化的癌症基因可以在尿斑中探 测到,这在膀胱癌的检测中很有意义 1o]。DNA甲 基化的生物标记物在疾病诊断和预后的领域正在兴 起,并且需要在临床实践中广为应用和扩展。 本课题首先通过对不同癌症DNA甲基化数据 进行预处理,利用权重基因共表达网络分析方法 (WGCNA)筛选出甲基化基因模块,并分析模块向 量基因,利用DAVID(The Database for Annotation, Visualization and Integrated Discovery)进行功能注 释,然后对基因模块进行功能分析,得到DNA甲基 化与肿瘤间的关系。本课题有助于发现癌症中 DNA甲基化的生物标记物,为肿瘤的诊断及治疗提 供可能的靶点。 1数据及方法 1.1数据获取 本课题所用的癌症甲基化数据来自于GEO数 据库,包括乳腺导管癌甲基化数据(编号为 GSE14865,平台为GPL4126,6个样本)¨ 、胃癌甲 基化数据(编号为GSE15291,平台为GPIA126,7个 样本)、前列腺癌甲基化数据(编号为GSE15298,平 台为GPIA126,20个样本) 、白血病甲基化数据 (编号为GSE18400,平台为GPL4126,60个样本,样 本为婴儿期白血病数据和1个对照组)、食管鳞状 细胞瘤甲基化数据(编号为GSE21238,平台为 GPL4126,6个样本,其中包括有淋巴结转移食道癌 和无淋巴结转移食道癌样本以及转移淋巴结细胞样 本)、肺鳞状细胞瘤甲基化数据(编号为GSE9622, 平台为GPL4126,5个样本)。 首先进行数据的预处理和标准化,标准化的原 则是对同一基因的不同探针对应的数值取平均值, 并且只选择对应于启动子的探针。最后获得包含 4 029个基因的甲基化数据。 1.2权重基因共表达网络分析(WGCNA)的简介 网络分析在生物信息学中得到越来越多的应用。 WGCNA(Weight Gene Co.express Network Analysis)是 一种描述各个样本的基因芯片相关的系统生物学方 法。这种方法可以找到高相关的基因模块,可以使 用模块特征基因(eigengene)或hub节点问的基因 彼此间和外部采样特征来聚类 。相关网络促进 了基于基因筛选的方法的发展,可以用于识别候选 生物标记物或治疗靶点。 1.3 甲基化基因模块筛选的原理 本文通过构建权重基因共表达网络来识别癌症 中甲基化基因模块。 首先,利用公式0 =}cor( , )l 构建邻接矩 阵,其中 i,xj分别代表两个基因的甲基化值、参数/3 根据模型适应指数,使得邻接矩阵大约是无尺度的。 这个指数是线性模型的确定系数(R的平方),线性 模型是在log( )上回归log(P(k))所得到的,其中 K代表给定节点的度,p(k)代表度K在网络中的频 率分布。 为了便于把显著差异的甲基化基因分类成模 块,邻接矩阵被转换成拓扑重叠矩阵。拓扑重叠矩 阵不仅可以捕捉到 , ,的直接互作,也可以捕捉到 间接互作。这样,定义了一个相似性测度: 删 。(1) Inmk i, J十l--(X0 其中,k =∑ 代表点的连通性。1一 D 是层 次聚类的距离矩阵。 1.4基因模块的功能分析 通过WGCNA筛选出甲基化基因模块并量化模 块与表型的关系。分析与癌症表型显著相关的基因 模块。挖掘出基因模块的向量基因,并利用DAVID 生物信息学分析工具对基因模块进行GO功能注释 与KEGG通路富集研究。 2结果 2.1选择合适的阈值:网络拓扑结构分析 构建一个权重基因网络,选择一个合适的邻接 矩阵的阈值 ,得到的阈值满足网络接近无于尺度 的标准。通过WGCNA,选择一组候选的阈值,并返 回被检测的网络参数(见图1)。从图中可看出阈值 选择为5最合适,它既保证了网络接近于无尺度网 络(模型指数大于0.9,完美无尺度网络的模型适应 指数是1),同时也是使曲线趋于平滑的最小阈值,并 且它也使得网络的平均链接程度不会太小,这有利于 网络包含足够的信息(例如,挖掘模块)。 第3期 张淑梅,等:癌症中DNA甲基化基因模块筛选 193 对这些向量基因进行基因本体功能分类及生物学通 路分析。 通过DAVID分析,1 148个基因有647个注释到了 189类生物学过程,其余为未知功能基因。设定阈值为 p 0.05,则基因注释到96类生物学过程。这些生物学 过程主要包括:基因沉默,蛋白质降解过程,己糖降解, wht受体信号通路,蛋白激酶活I生负调节等(见表2)。 首先,对与胃癌与食管鳞状细胞瘤显著相关的 模块1、4、10的向量基因进行功能注释。这些模块 中共得到i 148个基因。 表2与胃癌和食管鳞状细胞瘤显著相关的模块向量基因的功能富集聚簇 Table 2 Funcfion ̄annotation for module vector genes significantly associated with gastric cancer and ESCC 注:表中为部分基因部分注释,count代表注释到GO term中的基因个数。 Notes:The table illustrates part of the annotation in some genes,Count represents the number of genes annotated into the GO terms. 同理,对与前列腺癌显著相关的模块2的向量 基因注释到79类生物学过程。这些生物学过程主 基因进行功能注释。注释的372个基因有204个注 要包括:蛋白激酶活性负调节,细胞增殖调节,调控 释到了127类生物学过程。设定阈值为P 0.05,则 细胞死亡,参与细胞形态分化等(见表3)。 表3与前列腺癌显著相关的模块向量基因的功能富集聚簇 Table 3 FunetionM annotation for module vector genes significantly associated with prostate cancer 注:表中为部分基因部分注释,count代表注释到GO term中的基因个数。 Notes:The table illustrates part of the annotation in some genes,Count represents the number of genes annotated into the GO terms 194 生 物 信 息 学 第12卷 同理,对与白血病显著相关的模块7、9的向量 基因注释到l4类生物学过程。这些生物学过程主 基因进行功能注释。注释的148个基因有141个注 要包括:磷代谢过程;mRNA代谢过程;转录调控;磷 释到了27类生物学过程。设定阈值为P-<-0.05,则 酸化蛋白质氨基酸等(见表4)。 表4与白血病显著相关的模块向量基因的功能富集聚簇 Table 4 Functional annotation for module vector genes significantly associated with leukemia 注:表中为部分基因部分注释,count代表注释到GO term中的基因个数。 Notes:The table illustrates part of the annotation in some genes,Count represents the number of genes annotated into the GO terms 接着,对与胃癌与食管鳞状细胞瘤显著相关的 列基因能代表与某些生物学通路相关的生物学功能 模块1、4、10的向量基因进行KEGG通路分析。这 发生了改变。本次分析中通路发生改变的主要有: 些模块中共得到1 148个基因。 产生癌症(Pathways i n cancer),产生肾上皮细胞癌 通过DAVID分析,对向量基因进行生物学通路 (Renal cell carcinoma)(见表5)。 富集分析。采用Fisher精确检验,p<0.05表示一系 表5基因模块1,4、10生物学通路中富集情况 Table 5 Gene modules 1、4、10 biological pathway en ̄chment FGF19,E2F2,FGFRI,PGF,GRB2,WNT3A,ARNT2,TGFB1,GLI1,WNT4,CDKN2B,SLC2A1 TGFA,WNT6,MYC,FGF3,TRAF4,FN1,AKT2,MSH6,WNT10A,RET,MSH3,MAP2K2 MET,BRCA2,PRKCG,FADD,CTNNA1,BIRC2,FZD4,RALGDS,DAPK1,RAD51,FZD6, CBLB,CDKN1B,HDAC2,LAMA5,NTRK1,PLCG2,TCEB2,PIAS1 MAP2K2,PGF,GRB2,MET,ARNT2,TGFB1,GAB1, SLC2A1,TCEB2,TGFA,RAP1A,RAP1B,AKT2 通过以上的富集情况,发现基因模块1、4、10的 再对与前列腺癌显著相关的模块2的向量基因 相关基因富集到了产生癌症的通路。由于基因的启 进行KEGG通路分析。通过DAVID分析,采用 动子区域甲基化程度较高,会产生抑制表达的作用。 Fisher精确检验,本次分析中通路发生改变的是:细 基因表达的缺失导致低氧诱导因子(缺氧诱导因子一 胞分裂周期(见表6)。 仅)的积累,从而产生多种生长因子,如血管内皮生长 表6基因模块2生物学通路中富集情况 因子和血小板衍生生长因子,使细胞运动、细胞转 Table 6 Gene module 2 biological pathway enrichment 化、防止细胞凋亡等生物学效应的调节功能缺失,造 成了肿瘤的生成。 CDC7,MAD1L1,CCNB3,YWHAG,GADD45G Cell cycle 10 4.1E一3 MDM2,ATR,CCNA2,YWTIAE,CDC25A 同时,模块1、4、10的基因也富集到了产生肾上 皮细胞癌的通路,这也说明了相关基因启动子区域 通过上面的富集,基因模块2的相关基因富集 的甲基化程度较高,影响到多种癌症的发生。 到影响细胞分裂周期的通路上。有丝分裂是一个重 第3期 张淑梅,等:癌症中DNA甲基化基因模块筛选 195 复序列的过程,细胞周期蛋白依赖性激酶(CDKs)是 关键调节酶,它通过调控细胞基质来控制细胞进程。 细胞周期蛋白依赖性激酶抑制剂(CKIs),如基因 参考文献(References) [1]wu c,MORRIS J R.Genes,genetics,and epigenetics:A correspondence[J].Science,2001,293(5532):1103-5. CDC7、MAD1L1、CCNB3等,参与CDKs的负调控,从 而提供了一个通过该细胞周期负调控的通路。而它 又反过来激活p53抑癌蛋白。基因CDC7、MAD1L1、 [2] WOLFFE A P.Chromatin remodeling:Why it is important in cancer[J].Oncogene,2001,20(24):2988—90. CCNB3的高甲基化,抑制p53的表达,同时细胞不能 [3]PENNISI E.Behind the scenes of gene expression[J]. 进行正常分裂,从而造成肿瘤细胞的产生。 3讨论 目前的研究认为DNA甲基化与肿瘤密切相关。 肿瘤的DNA甲基化改变表现为总体的甲基化水平降 低与启动子区域CpG岛的甲基化水平升高。所筛选 的基因模块的向量基因的甲基化水平普遍较高,就是 由于基因的启动子区域CpG岛的甲基化异常造成的。 通过对基因模块进行GO功能注释,发现了与各 癌症显著相关的甲基化异常的基因模块内的相应基 因注释到了诸如基因沉默,Wnt受体信号通路;蛋白激 酶活性负调节;细胞增殖调节;调控细胞死亡;参与细 胞形态分化等生物过程,而这些生物学过程又与癌症 的发生有着显著的关联。说明这些甲基化异常的基 因模块对肿瘤的发生与发展起着重大的作用。 同时,对与胃癌与食管鳞状细胞瘤显著相关的模 块1、4、10的向量基因进行生物学通路富集分析,得到 产生癌症的通路。说明甲基化异常的基因模块确实与 肿瘤的生成有着重要的联系。而对于与胃癌与食管鳞 状细胞瘤显著相关的模块1、4、10富集到产生肾上皮细 胞癌的通路。也说明了甲基化异常的基因模块同时与 多种癌症的发生有着千丝万缕的联系。 在本课题中,首先下载了乳腺导管癌、胃癌、前列腺 癌、白血病、肺鳞状细胞瘤、食管鳞状细胞瘤等6种癌症 及亚型的DNA甲基化数据,经过预处理后利用 WGCNA筛选出了甲基化基因模块,通过量化模块与癌 症表型的关系发现了与各癌症显著相关的6个基因模 块。然后,挖掘这些基因模块的向量基因,对这些基因 进行GO功能注释和KEGG通路富集分析。通过GO 功能注释发现了基因模块内相应的基因与可能导致肿 瘤产生的生物学过程有关;利用KEGG数据库对基因模 块的向量基因进行功能聚类,发现模块内的基因富集到 产生癌症的通路也说明甲基化异常的基因模块与癌症 的发生有着显著的内在关联。同时,也发现某些甲基化 异常的基因模块(模块1、4、10)与多种癌症的发生有着 显著的关联。基于此,本文有助于发现癌症中的DNA 甲基化的生物标记物,为肿瘤的诊断及治疗提供可能的 靶点。 Science,2001,293(5532):1064—7. [4] VALLBOHMER D,BRABENDER J,YANG D,et a1. DNA methyltransferases messenger RNA expression and aberrant methylation of CpG islands in non--small・-cell lung cancer:association and prognostic value[J].Clinical Lung Cancer,2006,8(1):39—44. [5] ALVAREZ—VENEGAS R,AVRAMOVA Z.Methylation patterns of histone H3 Lys 4,Lys 9 and Lys 27 in transcriptionally active and inactive Arabidopsis genes and in atxl mutants[J].Nucleic Acids Res,2005,33(16): 5199-207. [6]AHMAD I,RAO,D.N.Chemistry and biology of DNA methyltransferases[J].Critical Reviews in Biochemistry and Molecular Biology,1996,31(5-6):361—380. [7] VERTINO P M,YEN R W,GAO J,et a1.De novo methylation of CpG island sequences in human fibroblasts overexpressing DNA(cytosine一5-)-methyltransferase[J]. Mol Cell Biol,1996,16(8):4555-65. [8]AHUJA N,LI Q,MOHAN A L,et a1.Aging and DNA methylation in colorectal mucosa and cancer[J].Cancer Res,1998,58(23):5489—94. [9]WHEELER J M,BECK N E,KIM H C,et a1. Mechanisms of inactivation of mismatch repair genes in human colorectal cancer celllines:the predominant role of hMLH1[J].Proc Natl Acad Sci U S A,1999,96(18): 10296—301. [10]BAYLIN S B.Tying it all together:epigenetics,genetics, cell cycle,and cancer[J].Science,1997,277(5334): 1948—9. [11]MURAKAMI J,ASAUMI J,MAKI Y,et a1.Influence of CpG island methylation status in 06--methylguanine・・DNA methyhransferase expression of oral cancer cell lines[J]. Oncol Rep,2004,12(2):339—45. [12]NEPHEW K P,HUANG T H.Epigenetic gene silencing in cancer initiation and progression[J].Cancer Lett, 2003,190(2):125—33. [13]ZHANG B,HORVATH S.A general framework for weighted gene co—expression network analysis[J].Stat Appl Genet Mol Biol,2005,4(1):1—43. [14]LANGFELDER P,ZHANG B,HORVATH S.Defining clusters from a hierarchical cluster tree:the Dynamic Tree Cut package for R[J].Bioinformatics,2008,24(5): 7】9-20.