毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

伪核酸特征的DNA甲基化识别方法研究(3)

时间:2022-05-01 21:24来源:毕业论文
第 2 章 生物识别方法综述 2。1 生物识别的一般流程 生物识别广泛应用于基因组学和蛋白质组学中。在绪论中,我们提出在构建预测 程序过程中要明确如

第 2 章    生物识别方法综述

2。1    生物识别的一般流程

生物识别广泛应用于基因组学和蛋白质组学中。在绪论中,我们提出在构建预测 程序过程中要明确如何构数据集、如何构建模型、如何选取分类算法以及如何评价, 这四点也正是生物识别的一般流程。

图 2-1 生物识别的一般流程

2。2    数据集构建和特征提取

生物识别中,数据集一般分为训练数据集和测试数据集。顾名思义,计算过 程中,这两个数据集各自进行特征抽取,用训练数据集中提取的数据对分类程序进行 训练,由训练完成的预测程序进一步对测试数据集中的数据进行测试。一个准确的数 据集是构建有效预测程序的基础和保证。

对于机器学习和数据挖掘算法,输入向量的质量对算法性能的高低起着决定性的 作用。特征提取技术能够通过去除无关、冗余的属性筛选出与序列样本相关度最高的 属性子集,进而有效削弱向量维度过高所带来的负面影响。此外,几乎所有的现存机 器分类算法都只能处理定长的向量,因而特征提取在生物识别过程中是必不可少的。

2。3    分类器

现有的机器学习算法已经可以直接处理基于向量模型计算的样本,如最优化算法、 相关系数方法、协方差判别式(CD)、局部线性嵌入算法、神经网络算法、支持向量 机算法(SVM)、条件随机域算法、随机森林算法、近邻算法(NN)、K-近邻算法(KNN)、 多标签 K 近邻(ML-KNN)算法、模糊 K 近邻算法等等。相反,对于原始的序列样 本,机器学习算法反而无法处理,这也侧面表明了建立准确向量模型的重要性。文献综述

分类结果将依赖于所使用的分类算法,本课题中采用支持向量机(Support Vector Machine/SVM)作为分类程序。支持向量机算法由 V。Vapnik 提出,是一种基于统计学 习理论(Statistical Learning Theory/SLT)的机器学习算法。支持向量机属于一般化的 线性分类器,通过结构化的风险最小化函数来提高分类和回归算法的泛化能力。这类 分类器能够在最小化经验误差的同时最大化几何边缘区,因此也被称为最大边缘区分 类器。由于支持向量机在二分类方面分类性能优异,而且能够处理高维数据,因此广 泛应用于生物信息学领域[8,9,10]。

SVM 的基本理念是构建一个或多个高维(甚至是无限多维)的超平面来对空间 中的点进行分类,这个超平面即为分类边界。分类边界与相距最近的训练资料点之间 的距离称为分类间隔(Margin),分类间隔越大,分类器的泛化误差越小,分类效果 也就越好。支持向量机的目标即为寻找间隔最大的超平面作为分类边界。

距离超平面最近的两个点被称为支持向量。支持向量机的分类边界可以由支持向 量决定,而与空间中其他点无关。这也是这些点称为“支持向量”的原因。

分类的一般过程是由 SVM 首先在训练数据集的基础上构建一个超平面,然后通 过核心函数,将输入向量映射到一个高维希柏特空间(Hillbert Space)中,从而将低 维空间中原本线性不可分的数据集变为线性可分。具体的转换由核心函数决定。

本课题中使用的 SVM 程序为 LIBSVM,该程序是支持向量分类、回归和分布估 计的集成软件,支持多类分类[11]。计算过程中,从样本中提取的特征向量作为 SVM 分类器的输入,经由相关数据集训练的分类器能够非常准确地对其进行分类。来:自[优.尔]论,文-网www.youerw.com +QQ752018766-

2。4    测试评价

对于预测程序的开发研究,如何准确客观地评价它的预测质量是研究过程中非常 重要的一个环节。 伪核酸特征的DNA甲基化识别方法研究(3):http://www.youerw.com/jisuanji/lunwen_93328.html

------分隔线----------------------------
推荐内容