一种基于邻域子图连通性的蛋白质预测方法与流程

文档序号:19906934发布日期:2020-02-11 17:10
一种基于邻域子图连通性的蛋白质预测方法与流程

本发明涉及生物信息领域,具体涉及一种基于邻域子图连通性的蛋白质预测方法。



背景技术:

随着人类基因组计划的完成,蛋白质组学正成为生命科学研究的热点。蛋白质组学研究将使我们更好地了解细胞结构、细胞功能和疾病。蛋白质作为基因表达的产物,几乎参与所有的生命活动。在细胞过程中,蛋白质的研究是非常重要的。蛋白质具有不同的功能和对生命活动的重要程度也不同。关键蛋白质是通过基因敲除技术去除的蛋白,会导致机体功能丧失,引起机体致病的。关键蛋白质的鉴定可以帮助人们了解维持生命的最低基本要求。关键蛋白质的鉴定在合成生物学、药物靶点和人类疾病基因等领域具有重要意义和实用价值。

在生物学中,基本蛋白的鉴定主要是通过生物学手段,如单基因敲除、rna干扰、条件敲除等。虽然生物实验技术具有较高的准确性,但生物实验是费时且昂贵的。随着大规模生物数据集的出现,在大规模生物数据上鉴定关键蛋白质的计算方法是另一种有效的方法,已成为研究的热点。

现有技术采用生物实验获得的生物网络往往含有假阳性数据等噪声。大多数识别基本蛋白质的算法在有噪声的背景下性能较差。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种有助于克服了假阳性数据等噪声的影响,提高基本蛋白质的识别率和准确率的基于邻域子图连通性的蛋白质预测方法。

本发明提供一种基于邻域子图连通性的蛋白质预测方法,包括以下步骤,

s1:采用v表示ppi网络的节点,e表示ppi网络的边,建立无向图g=(v,e),无向图的节点由蛋白质组成,无向图的边由相互作用的蛋白质的连线构成;

s2:令(u,v)表示路径上每条边的权值之和,disshortest(u,v)表示最短路径中每条边的权值之和,其中,g=(v,e),u∈v(g),v∈v(g);

s3:令所述无向图中每条边的权重为1,如果g=(v,e),u∈v(g),存在并且disshortest(u,v)=1,则确定集合{v|v∈v(g)anddisshortest(u,v)=1}内所有的节点为u的邻居节点,并且采用neighborg(u)表示所述邻居节点;

s4:令vw=v(g),ew=e(g),u∈vw,v∈vw,,如果存在边e∈ew,则将边e的权记为weight(u,v),获得新图gw=(vw,ew),并将gw命名为做蛋白质的加权邻接子图,将加权邻接子图表示为neighborgw(u);

s5:采用下述计算出蛋白质u和v的联通性,

其中,ε是一个阈值;

s6:对于一个给定的蛋白质u,采用下述公式计算蛋白质的邻居子图的联通性;

\w,α,β分别为中间过程变量。

本发明提出相邻子图连通性的概念来识别关键蛋白质。通过改进传统的节点权重计算方法,将相邻子图连通性引入多蛋白节点,克服了假阳性数据等噪声的影响。

附图说明

图1为本发明一实施方式流程图。

具体实施方式

关键蛋白质是维持生命活动不可缺少的物质,在合成生物学、药物靶点等研究领域发挥着重要作用。基于实验方法对关键蛋白质进行鉴定费时费钱,限制了关键蛋白质的应用。近年来,基于计算技术的本质蛋白鉴定因其快速的发展成为研究热点。然而,基于计算技术的基本蛋白识别性能仍然较差。开发一种高稳定性、高精度的方法来鉴定关键蛋白质具有重要意义和挑战性。

本发明提供一种基于邻域子图连通性的蛋白质预测方法,包括以下步骤,

s1:令v表示ppi网络的节点,e表示ppi网络的边,建立无向图g=(v,e)。其中,节点是由蛋白质组成,边是存在相互作用的蛋白质构成。

s2:令(u,v)为路径上每条边的权值之和。蛋白质对(u,v)的路径可能是多重的。路径的最短路径长度称为蛋白质(u,v)的最短路径,最短路径距离定义为最短路径中每条边的权值之和,记为disshortest(u,v)。其中,g=(v,e),u∈v(g),v∈v(g)。

s3:令图中每条边的权重为1,如果,g=(v,e),u∈v(g),存在并且disshortest(u,v)=1,确定集合{v|v∈v(g)anddisshortest(u,v)=1}内所有的节点为u的邻居节点,并且neighborg(u)表示。

s4:令vw=v(g),ew=e(g),u∈vw,v∈vw,如果存在边e∈ew,以边e的权记为weight(u,v),从而获得新图gw=(vw,ew),并命名为做蛋白质的加权邻接子图,表示为neighborgw(u)。

s5:采用公式(1),计算出蛋白质u和v的联通性。

其中,ε是一个阈值。

s6:对于一个给定的蛋白质u,采用(2)式计算蛋白质的邻居子图的联通性。

本发明将基因表达信息与ppi网络相结合,提出了一种新的基于邻域子图连通性的无参数蛋白质识别方法。首先采用数学语言定义ppi网络的邻域子图,其次基于基因表达数据构建加权邻域子图,最后定义邻接子图连通性来衡量蛋白质的重要性,实验表明本发明具有很好的性能,克服了假阳性数据等噪声的影响,提高了基本蛋白质的识别率和准确率。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1