数据分类算法详解(算法原理及事例分享)

seoxin 09-15 15:27 7次浏览

导语

生物学中将研究同一类型数据称为某某组学。作为最典型的复杂系统,生物体的复杂性,使其发生的改变,会体现在多种类型的数据中。由此,通过整合多组学数据,可以更好地理解生物体的复杂性。最近一篇Nature Communications论文提出了新算法MOGONET。作为一种基于图网络、适用于多种组学数据的有监督算法,MOGONET可以进行多组学数据集成,并找出对应的生物标志物。

图卷积网络集成多组学数据分类新算法——MOGONET

论文题目:

MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification

论文地址:

https://www.nature.com/articles/s41467-021-23774-w

为何要使用多组学数据

组学技术的快速发展使得个体化医学能够利用具有前所未有细节的分子水平数据。例如mRNA 表达量、DNA 甲基化和 microRNA 表达量,可基于同一组样本中获得多组学(multi-omics)数据。然而每种组学技术只能捕捉到生物复杂性的一部分,唯有整合多种类型的组学数据,才可以为生物过程提供更全面的视角。在疾病研究中,集成多组学数据,可提高患者临床结果预测的准确性。因此,需要新的分析方法来有效地发掘多组学数据中的相互作用,利用好数据间的互补关系。

以前,由于收集和注释数据的费用高昂,以及缺乏关于疾病亚型的知识,带标记的生物医学数据很少。因此,大多数现有的多组学整合方法侧重于无监督的方法,在没有额外的表型信息时,试图从已确定的样本群中提取生物学见解。然而,由于组学技术和个体化医学数据库的快速发展,使带有详细注释的组学数据集正以前所未有的数量和速度变得可用。

之前对生物医学分类多组学数据进行有监督分类的方法分为基于特征连接的策略,和基于集成的策略。基于连接的方法通过直接将多组学的输入数据特征合并,来训练分类模型,从而集成了不同的组学数据;而基于集成的方法综合了不同分类器的预测结果,每个分类器都对同组学数据单独训练。然而,这些方法没有考虑不同组学数据之间的相关性,可能导致预测结果偏向于某些组学数据的影响。

随着深度学习在各种任务中的不断推进,越来越多的多组学集成方法开始利用深度神经网络,但现有的方法都是基于全连通网络的,没有通过相似性网络有效地利用样本之间的相关性。此外,基于深度学习的方法往往在输入空间或学习特征空间集成不同的组学数据,但不同类型的组学数据也可在抽象程度较高的隐空间中呈现独特的特征。故而利用不同组学数据类型之间的相关性,可进一步提高模型性能。

MOGONET的网络架构

MOGONET 在标签空间(label space)将组学特异性学习与多组学集成分类相结合。具体来说,MOGONET 先使用余弦距离构建了每种组学数据的加权样本相似性网络,再利用图卷积网络(GCN)进行单个组学的特征初始预测,以去除数据中噪声和冗余特征,生成对所属标签的初始预测。每个特定于组学的图卷积神经网络被训练使用组学特征和由组学数据生成的相应样本的相似性网络来执行类预测。与全连通网络相比,GCN 算法充分利用了组学特征和相似网络描述的样本间的相关性,从而获得了更好的分类性能。图卷积网络集成多组学数据分类新算法——MOGONET

图1. MOGONET 的网络架构

除了直接连接每个组学数据类型的标记分布外,MOGONET可利用每个组学特定 GCN 产生的初始预测,构造反映组学标记相关性的交叉组学发现张量。VCDN 通过在高层标签空间中探索不同组学数据类型之间的潜在相关性,可以有效地整合来自每个组学特定网络的初始预测,实现有效的多组学集成。MOGONET 是第一个利用 GCNs 进行组学数据学习的有监督的多组学综合方法。MOGONET 作为一个端到端的模型,所有的网络都可联合训练的。其网络架构如下:

MOGONET的预测准确,且可找到生物标志物

图卷积网络集成多组学数据分类新算法——MOGONET

图2.

使用MOGONET,基于单个或多个组学,在三种不同数据集ROSMAP(阿兹海默)LGG (神经胶质瘤)和 BRAC(乳腺癌)上的分类表现

上图展示了多组学分类的性能提升,不论使用那种评价指标,代表三种数据集合的绿柱子都是最高的。图卷积网络集成多组学数据分类新算法——MOGONET

图3. 超参数K的不同取值下分类效果的折线图

好的分类方法,对于超参数取值改变时,性能不会显著对比,上图分布对比了在LGG和BRAC数据集上,当MOGONET中最重要的超参数K从2变为10时,MOGONET表现相对稳定,且始终优于其它方法。

除此之外,MOGONET的另一特性是其能够从多组学数据的众多特征中,精准地找出那些能够让不同标签的数据区分出来的特征,这被称为生物标志物。例如在阿兹海默症的数据集中,可以找出那些基因的改变,会导致阿兹海默症的发生,从而为药物研发,疾病早筛提供知识依据。

  • 暂无推荐