伪核酸特征的DNA甲基化识别方法研究(3)

第 2 章生物识别方法综述

2。1 生物识别的一般流程

生物识别广泛应用于基因组学和蛋白质组学中。在绪论中，我们提出在构建预测程序过程中要明确如何构数据集、如何构建模型、如何选取分类算法以及如何评价，这四点也正是生物识别的一般流程。

图 2-1 生物识别的一般流程

2。2 数据集构建和特征提取

生物识别中，数据集一般分为训练数据集和测试数据集。顾名思义，计算过程中，这两个数据集各自进行特征抽取，用训练数据集中提取的数据对分类程序进行训练，由训练完成的预测程序进一步对测试数据集中的数据进行测试。一个准确的数据集是构建有效预测程序的基础和保证。

对于机器学习和数据挖掘算法，输入向量的质量对算法性能的高低起着决定性的作用。特征提取技术能够通过去除无关、冗余的属性筛选出与序列样本相关度最高的属性子集，进而有效削弱向量维度过高所带来的负面影响。此外，几乎所有的现存机器分类算法都只能处理定长的向量，因而特征提取在生物识别过程中是必不可少的。

2。3 分类器

现有的机器学习算法已经可以直接处理基于向量模型计算的样本，如最优化算法、相关系数方法、协方差判别式（CD）、局部线性嵌入算法、神经网络算法、支持向量机算法（SVM）、条件随机域算法、随机森林算法、近邻算法（NN）、K-近邻算法（KNN）、多标签 K 近邻（ML-KNN）算法、模糊 K 近邻算法等等。相反，对于原始的序列样本，机器学习算法反而无法处理，这也侧面表明了建立准确向量模型的重要性。文献综述

分类结果将依赖于所使用的分类算法，本课题中采用支持向量机（Support Vector Machine/SVM）作为分类程序。支持向量机算法由 V。Vapnik 提出，是一种基于统计学习理论（Statistical Learning Theory/SLT）的机器学习算法。支持向量机属于一般化的线性分类器，通过结构化的风险最小化函数来提高分类和回归算法的泛化能力。这类分类器能够在最小化经验误差的同时最大化几何边缘区，因此也被称为最大边缘区分类器。由于支持向量机在二分类方面分类性能优异，而且能够处理高维数据，因此广泛应用于生物信息学领域[8,9,10]。

SVM 的基本理念是构建一个或多个高维（甚至是无限多维）的超平面来对空间中的点进行分类，这个超平面即为分类边界。分类边界与相距最近的训练资料点之间的距离称为分类间隔（Margin），分类间隔越大，分类器的泛化误差越小，分类效果也就越好。支持向量机的目标即为寻找间隔最大的超平面作为分类边界。

距离超平面最近的两个点被称为支持向量。支持向量机的分类边界可以由支持向量决定，而与空间中其他点无关。这也是这些点称为“支持向量”的原因。

分类的一般过程是由 SVM 首先在训练数据集的基础上构建一个超平面，然后通过核心函数，将输入向量映射到一个高维希柏特空间（Hillbert Space）中，从而将低维空间中原本线性不可分的数据集变为线性可分。具体的转换由核心函数决定。

本课题中使用的 SVM 程序为 LIBSVM，该程序是支持向量分类、回归和分布估计的集成软件，支持多类分类[11]。计算过程中，从样本中提取的特征向量作为 SVM 分类器的输入，经由相关数据集训练的分类器能够非常准确地对其进行分类。来:自[优.尔]论,文-网www.youerw.com +QQ752018766-

2。4 测试评价

对于预测程序的开发研究，如何准确客观地评价它的预测质量是研究过程中非常重要的一个环节。伪核酸特征的DNA甲基化识别方法研究(3):http://www.youerw.com/jisuanji/lunwen_93328.html