基因在不同组织的表达量不同,有什么意义?

刘伟, 李立, 叶桦, 等. 权重基因共表达网络分析在生物医学中的应用. 生物工程学报, ):

权重基因共表达网络分析在生物医学中的应用

1 福建农林大学 生命科学学院,福建 福州 350002;
2 军事医学科学院 卫生勤务与医学情报研究所,北京 100850;
3 宁波市医疗中心李惠利医院 消化内科,浙江 宁波 315040;
4 德州A & M健康医学中心,美国 德州

收稿日期:; 接收日期:; 网络出版时间:

基金项目:国家自然科学基金(No. ),浙江省自然科学基金(No. LQ14H030001),宁波市自然科学基金(No. )资助

摘要:高通量生物监测方法可以同时检测同一样本的上千个参数,其在生物医学中的应用越来越广泛,但如何系统地分析并从高通量数据中挖掘有用信息,仍是一项重要的课题。网络生物学的出现使人们对复杂生物系统有了更深刻的理解,组织/细胞功能执行具有模块化特点。目前,相关网络(Correlation network)被越来越多地应用于生物信息学,权重基因共表达网络分析(Weighted analysis,WGCNA)是描述样品基因表达相关模式的一种系统生物学工具。在此,对WGCNA在疾病分型及预后、发病机制和其他相关领域研究进展作一个较为系统的综述。首先,对WGCNA的原理、分析流程和优势缺点进行总结。其次,介绍如何用WGCNA研究疾病、正常组织、药物、进化和基因组注释。最后,结合新高通量技术展望WGCNA应用新空间。以期科研工作者能够对WGCNA的应用有所了解。

随着高通量研究方法的出现和发展,系统地描述和分析这些高通量数据,筛选出重要信息是进行后续研究的基础。生物医学研究中各种组学数据的不断增多,使得从这些海量数据提取关键信息成为人们一项重要的研究课题。至今,由于人们对功能网络的忽视,单个分子研究仍然是人们关注的重点。但是癌症系统生物学的进展,使人们认识到功能网络在癌症的发生发展中的重要性。权重基因共表达网络分析(Weighted gene co-expression network analysis,WGCNA)方法基于表达模式类似的分子可能参与特定生物学功能的理论,最初由Zhang和Horvath[]提出,因其强大的分析效能,在生物医学研究中得到广泛应用。本文主要对WGCNA在疾病、进化和临床医学研究中的应用进行综述。

WGCNA利用分子间的表达相关系数来衡量它们的共表达关系,同一模块中的分子表达模式相似,而和其他模块分子表达模式差别较大。表达模式相似的分子可能参与同一生物学过程或通路。因而,可将复杂的组学数据简化为若干个功能模块,这些模块和表型信息关联,可发现有生物学意义的模块。

WGCNA分析转录组数据的流程大致如下()。首先,为了构建可信的基因共表达网络,基因表达谱数据应进行适当的数据归一化,保证样品间基因表达谱的可比性。第二,计算基因表达相关矩阵即所有基因之间两两相关系数,基因i和基因j的相关系数为sij=|cor(i, A=[aij]。构建的网络不具方向性,A是非负对称矩阵,是所有后继分析的基础。第三,A被转换为拓扑矩阵Ω=[ωij],拓扑矩阵在生物学网络中很有用。1-ωij用来定义节点相异度(Dissimilarity),对节点相异度进行聚类分析来鉴定网络模块。然后,对模块内基因的连接度(Intramodular connectivity)进行计算,连接度高的基因可能是模块关键基因。最后,对模块或关键基因和外部信息进行关联,如临床信息,挖掘出有生物学意义的模块或关键基因。

和非权重基因网络相比,WGCNA具有多种优点[]。首先,它保留了网络节点连接度具有连续性的特性。非权重基因网络中2个节点间的关系是通过有或无来表示,导致信息丢失。其次,它具有强大的分析效能。非权重网络中2个节点间的关系受阀值选择影响。它还能被分解或近似为更简单的网络。网络参数间的关系可以很简单地表示出来。最后,标准的数据挖掘方法如聚类分析结果可以转化为权重网络。算法开发者认为最少要15个样本才适合此分析。

WGCNA的缺点是相关网络基于相关系数,必须整合其他数据如蛋白质-蛋白质相互作用和甲基化才能提供基因调控信息。样品异质性会影响模块鉴定,如果数据来自多个组织或多种条件,组织特异性/条件特异性模块信号可能会被稀释,导致无法有效鉴定。因而,要根据研究目的设计分析,如研究看家或者组织共享的模块时,可用不同组织来源的数据,而要寻找条件特异性模块,需用不同条件下的实验数据。组织中占少数比例的细胞其基因共表达信号可能受其他细胞掩盖,最好的方法就是使用细胞基因表达数据进行WGCNA。另外,不同的数据预处理和分析参数选择也会引起不同的结果,如不同的基因表达归一化方式、相关系数计算方式、聚类方法等。最后,样本数越多,得到的结果越好;但是,随着样本数和基因数目增多,需要更多的计算资源。

WGCNA被应用到疾病的机制、疾病分型和预后等研究中()。网络模块中的节点分子往往是模块功能发挥的关键分子,在疾病的发生发展中起重要作用。比如,Wang等[]利用WGCNA和miRNA差异表达分析,发现在人前列腺癌中2个差异表达miRNA可能调控3个和细胞周期调控相关的关键节点基因。过表达验证实验表明这两个miRNA可以抑制细胞生长和促进凋亡。因此,细胞周期异常可能是导致恶性前列腺癌的一个分子通路。这些结果为恶性前列腺癌发病机制提供了重要线索。

肿瘤细胞基因组不稳定,具有异质性。即使组织病理学类似的肿瘤也可能有截然不同的预后。基于网络的转录组分析可以有效对复杂数据进行降维,系统描述肿瘤基因表达异质性,并进行肿瘤分型和预后。Ivliev等[]对5个已发表的共790例胶质瘤转录组数据进行WGCNA分析,鉴定得到20个共同模块,模块则进一步形成更高级的组织结构,分别和间充质分化、增殖、前星形胶质细胞分化和神经元生成等亚型相关。该研究发现前星形胶质细胞特异的185个基因和病人长生存期相关,并可定义前神经元亚型。

人和小鼠疾病模型之间的转录组数据并不能直接进行比较。如何充分挖掘利用数据库中已有大量数据,发现动物模型和人类疾病之间的保守性和差异性,为科学合理使用动物模型研究人类疾病提供信息?传统的差异基因比较由于样本批次差异和统计分析方法差异,不同研究得到的基因标记物往往不同,并不能满足这种数据分析需求。WGCNA则克服了这些缺陷,可以为跨物种比较提供定性(模块成员)和定量(模块成员连接度)信息。Hu等[]的研究表明,跨物种网络分析是鉴定肿瘤转移中关键生物学过程的有力工具。

为了克服不同研究结果间的不一致性,Giotti等[]提取了4个不同正常和肿瘤细胞株中的细胞周期基因转录组数据,发现细胞周期模块在不同细胞间具有较大的保守性,其可分为G1/S-S和G2-M两个不同的模块。这表明整合不同数据集,对特定的亚转录组进行分析,也能获得有效信息。

正常组织功能的发挥依赖于不同类型的细胞、细胞器和不同分子间相互协调。对正常组织基因表达网络的研究有助于理解疾病发生的机制。WGCNA能够将高通量组学数据降维到数十个功能模块,通过研究模块间关系揭示正常状态下个体、组织或者细胞的功能网络组织图谱()。

理解药物对人体的作用及这些影响在模式生物中的重现是药理学研究的重要内容之一。Fortney等[]对药物-药物相似性矩阵进行WGCNA分析,将具有类似作用模式的药物归为模块,通过这些模块可以预测已知药物的新功能。Iskar等[]对经药物处理的人细胞株和大鼠肝脏的转录组数据进行WGCNA分析,发现70%的模块是各种细胞株共有的,15%的模块在人体外和大鼠体内是保守的。他们以此为基础进一步验证基因功能,并研究已有药物的作用新机制,为药物重定位(Drug repositioning)提供线索,如新的细胞周期抑制物、α-肾上腺素能受体、过氧化物酶体增殖物激活受体和雌激素受体调节剂。鉴定到的模块揭示了药物作用在不同细胞株和物种间的保守性,改进了人们对药物作用机制的理解。Delahaye-Duriez等[]利用WGCNA发现癫痫病人共有的关键基因共表达模块M30,结合药物作用数据库Connectivity Map,挖掘出丙戊酸可以下调M30表达,是有效治疗癫痫的候选药物。

为更全面系统地表征人和小鼠间基因表达差异,Miller等[]利用WGCNA对1 066多例大脑芯片数据进行分析,发现人和小鼠间脑基因表达网络总体上是保守的。小鼠中所有共表达的基因模块在人脑中也得到鉴定。当然,在人脑中鉴定到了人类特异的模块,包括和老年痴呆症发展相关的小胶质细胞模块,该模块中富集了神经退行性疾病基因。该研究发现了人和小鼠脑基因表达的保守性和差异性,为人类脑病小鼠模型应用研究提供思路。Oldham等[]利用基因连接度对人和猩猩进行比较,发现大脑皮层不如皮层下区域保守。Filteau等[]对湖白鱼回交后代的肌肉和脑组织的基因表达进行WGCNA分析,鉴定到在底栖和湖沼生态型生态化过程中适应性性状相关的模块;骨形态发生蛋白和钙信号是参与营养行为、营养形态(鳃耙)和繁殖协同进化的共有通路;血红蛋白和组成型应激蛋白(Hsp70)调控着湖白鱼的生长。在植物中,Buckberry等[]比较了二倍体和异源多倍体棉花种子的基因共表达网络,发现二者不只是基因表达谱不同,共表达网络的拓扑结构也有差异,提示转录组结构在驯化过程中发挥作用。

很多物种的基因组注释程度有限,特别是功能注释。整合多个基因表达数据集,构建基因共表达网络,能发现无功能注释信息基因的潜在功能[]。Stanley等[]分析来自不同鸡组织和实验条件的1 043个芯片数据,共鉴定到15个模块,10个模块具有特定生物学过程的富集。类似的,Childs等[]分析了大规模水稻转录组数据,共鉴定到71个共表达模块,并对水稻部分功能未知基因进行功能注释。这些研究表明基因共表达网络可以为基因组注释不全的物种提供功能信息。Walley等[]利用WGCNA构建了玉米各发育阶段基因表达和调控网络,并和蛋白质组共表达网络比较,发现二者的重叠率不高,也就是二者具有一定互补性,因此整合mRNA、蛋白质和磷酸化蛋白质数据可以改进基因调控网络的预测效能。

随着全基因组水平检测技术,如GWAS、表观遗传学、第二代测序技术、高精度高通量质谱仪和代谢组学等的发展,检测成本不断降低,海量组学数据不断增多,传统的数据分析方法不能满足分析需求。生物学过程并非简单的通路或单个分子的加和,而是多层次的具有高度组织结构的分子网络。绘制网络的拓扑结构对理解生物学过程非常重要,并有助于理解疾病发生机制、评估疾病风险和进行疾病干预与治疗[]。WGCNA自问世以来一直在优化和更新,在多个研究领域得到了广泛的应用。有人将其应用到脑不同区域脑电图数据的分析,将复杂的图像数据转化为较为清晰简洁的网络,以发现新的生物标记物[]。此外,基因组水平的数据很复杂,WGCNA能对数据进行降维,将其简化为若干个模块。因此,基因模块相关性研究(Gene study,GMAS)可以补充GWAS结果[],它通过研究多个基因如何以模块形式一起发挥作用来帮助理解复杂疾病。GMAS首先检测同一物种不同遗传背景个体的表型;利用基因表达谱数据构建基因共表达网络;上万个基因降维到十几个模块,将模块和表型关联,而GWAS中是将SNPs和表型关联。GMAS的目标就是寻找共表达基因来解释复杂性状。此外,Iancu等[]首次将WGCNA应用于RNA-Seq数据,Shirasaki等[]首次将其应用于蛋白质组数据,Yepes等[]用其分析胃癌miRNA表达数据。我们也构建了肿瘤细胞株的基因共表达网络,鉴定出的模块在肿瘤组织中具有保守性,能将病人分为预后好坏的2类[]。随着单细胞测序技术的发展普及,WGCNA也将在单细胞转录组数据分析中发挥作用[]。甚至有人将其应用于大气PM2.5的分析[]。可以预见,WGCNA在生物医学及相关数据分析中的应用将越来越广泛。

我要回帖

更多关于 不同组织之间的差异基因 的文章