基于谱聚类理论的场景分类研究(2)

因此，人们开始研究怎样能够让计算机代替人们来处理这个难题，在无数计算机行业的前辈的努力下，我们已经能够让计算机像人类一样能够通过不同的特征对图像内容进行初步的认识、理解，但怎样能够在面对大批量的图像信息时来对其展开快速、高效的分类、检索处理仍然是一个十分具有挑战性的研究课题，这个问题如能解决能够给我们带来巨大的实际应用价值。比如到处可见的摄像头，每一台每一天都在存储数量及其庞大的图像信息，但如果仅仅存储下这些信息，却没办法自如的对其进行管理操作，信息的存储就失去了其存在的意义，只有能够对集中存储的这些图像进行快速分类、检索处理，让这些信息能够为我所用，才能真正方便我们的生活，大大的提高我们办事的效率。
正因为此，数据挖掘技术应运而生，简单的说，数据挖掘是指从被挖掘对象中提取或“挖掘”出对用户有有价值的信息的过程。目前，数据挖掘可以从统计学、数据库和机器学习三个角度进行定义。“挖掘”一词最早出现在统计学中。从统计学的角度看，数据挖掘是指分析被挖掘的数据对象以发现有用的数据间的未知关系并提供给数据有者可理解的、新颖的和有用的归纳数据。从数据库的观点看，数据挖掘是指从某个数据库中发现有兴趣的知识的过程。从机器学习的角度看，数据挖掘定义为从数据中提取隐含在数据内部未知的和潜在有用的信息并为用户提供问题求解层次的决策支持能力。数据挖掘是一门新兴的交叉学科，汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。目前数据挖掘的技术大概可以分为两大类：（1）探索性的或描述性的方法，我们没有任何关于数据的预先制定的模型或假设，但是我们想了解数据的整体特性和结构；（2）证实性的或推断性的方法，我们事先假设数据集满足某个假设或模型，然后在以后的过程中验证这个假设或模型是否有效。许多统计的方法已经被提出来用于分析数据，如方差分析、线性回归、判别分析、典型相关分析、因子分析、主成分分析等。
在模式识别中，数据分析和预测模型有关，给定一些训练数据，我们想预测或测试数据的特性，这个过程也称为学习。一般来说，学习过程可以分为监督学习和无监督学习两类。监督学习包含有表技术局作为训练样本，而无监督学习不包含任何表技术局。分类属于监督学习范畴，而聚类属于无监督学习范畴。与分类相比，聚类是一个更困难和更具有挑战性的问题。最近，两者的混合——半监督学习得到越来越多的关注。当人们使用数据挖掘工具对已知数据隐藏的关系和模型进行辨识的时候，聚类通常是第一个步骤。所以，聚类作为数据挖掘的主要方法之一也越来越引起人们的关注。
聚类就是按照一定的相似性要求对样本进行分组的过程，是一种应用广泛的数据分析工具。在聚类过程中没有任何关于样本类别的先验信息，也没有训练样本的集合，仅仅依靠样本间的相似性作为类属划分的准则，属于无监督学习。与监督学习的分类方法相比，聚类方法具有明显的优势：第一，收集并标记大型样本集是一个费时费力的工作，并且在很多时候我们并不能得到数据的类别属性；第二，待分类样本的性质会随着时间发生缓慢的变化，这种变化的性质在无监督学习的情况下与监督学习相比更容易得到，这时候的学习器性能能够获得大幅提升；第三，无监督的方法可以提一些基本的特征，这些特征对后续的分类会很有用，事实上很多无监督方法都可以独立于数据方式工作，为后续步骤提供预处理和特征提取等有效的前期处理；第四，聚类算法可以向我们揭示观测数据的一些内部结构和规律，如果我们能够通过这些方法得到一些有价值的信息，就可以更有针对性的设计性能更好的后续分类器。基于谱聚类理论的场景分类研究(2):http://www.youerw.com/jisuanji/lunwen_21332.html