蛋白质-ATP绑定位点预测研究+文献综述(5)

从决定文件DP(X)知道，集成的结果表示为，可以通过申请一个集成方案来获得。如下：
       （3）
此处，，且表示在分类集成后x被分为j类的概率。
不同的集成结果可以通过应用不同的集成方案获得。在Kuncheva[14]很好的调查了许多广泛使用的集成方案后，指出不同的集成方案有各自的优点和缺点，且对于各类应用不存在一个普遍的最好的集成方案。对于一个特殊的应用，例如在本研究中蛋白质-ATP绑定位点预测，人们可以尝试选择一个合适的集成方案，但是仍然不可以使用理论理由来作为选择。在这项研究中，我们测试了五个流行的集成方案[14]，例如最大值、最小值、平均值、决策模版和Dempster-Shafer，然后取其中最好的一个来使用。
2.2.5 集成方案
(A)最大值集成      (4)
(B)最小值集成    (5)
(C)平均值集成     (6)
(D)决定模版集成
首先，最典型的决定文件例如决定模版，对于每一个类表示为，，计算如下：
                         (7)
此处x表示训练集，表示属于类的样品的数量。
其次，集成结果是通过比较现在的决定文件和据诶的那个模版的相似度来决定的。表示如下：
                          (8)
此处表示现在的决定文件，是一个合适的相似度测量。在本研究中,平方欧几里德距离作为相似性度量，从而等式（8）可改写为：
                 (9)
请注意，虽然我们在本文中只用了欧氏距离，但是其他的距离，如Minkowski距离，Mahalanobis距离等也是可以被使用的。
(E)Dempster-Shafer集成
Dempster-Shafer集成方案源于Dempster-Shafer（DS）理论[14，15]。类似于决定模版集成,，Dempster-Shafer集成的第一步也是计算每一个C类的决定模版。此后，代替计算在决定模版集成中模版和现有的决定文件之间的相似度的是一个Dempster-Shafer理论基本进程，以此来作为集成结果如下所示:
让作为决定模版的第i行，作为现在决定文件的第i行。然后，这“接近” 在和之间的是如下计算：
               （10）
此处是一个矩阵范数。在本次研究中，使用欧几里德范数。
此后，对于每个分类对的信任度在输入x的计算如下：
           （11）
接着，最后的集成结果是，此处的计算如下：
                               （12）
此处是一个正火系数。
一旦集成结果在等式（3）中定义的通过应用任何一种上述提到的集成方案而得到，x的类的标签表示为。此时被定义为[14]：
                              （13）
然而在这项研究中，我们将不会直接使用等式（13）定义的方法，且基于阈值的方法将取代它。在现在的研究，主要的目的是决定一个剩余物是不是一个蛋白质-ATP结合位点。换句话来说，类C的数量是2（绑定或非绑定结合位点）。我们使用数字1和2来分别表示绑定和非绑定结合位点类。例如和。让分别作为在有N个剩余物的蛋白质中的剩余物1，2，......，N的特征向量。因此我们能够得到一个向量，此处测量剩余物i是不是一个蛋白质-ATP结合位点的概率。最后，第i个剩余物的标签表示为，在一个蛋白质中可以通过一个阈T被定义，如下所示：蛋白质-ATP绑定位点预测研究+文献综述(5):http://www.youerw.com/yixue/lunwen_6747.html