您现在的位置：毕业论文 >> 论文 >> 正文

基于K-means的文本聚类算法研究第7页

更新时间：2012-2-12: 来源：毕业论文

   基于相似性的检索是指根据一组共同的关键字找出相似的文档。这类检索的输入应该是基于相关度，其中相关度的度量是根据与关键词的近似性，关键词的权重等等。
本设计主要对它的处理如下：
（1）对于K类中的每一类文本，先提取能代表该类的三十个关键词语。
（2）依照权重计算方法，计算每一篇文本中各类三十个关键词的权重。
（3）同一篇文本中同一类的关键词按照权重大小进行降序排列。
（4）取每一类总关键词中的top n个关键词，组合成一个特征向量。
由上可知，所有文本的向量文数降到了K*N文，如果要聚集七类文档，top n选4，那么每一篇文本用一个28文向量就可以表示出来，这样大大降低了向量的文度，方面于以后的算法聚类！当然这种方法对关键词的依赖就大了，所以关键词的数量不能太少，且一定要起到那一类的代表性作用。
2.1.3.6文本聚类过程本文来自优-文~论^文.网原文请找腾讯3249,114
    文本聚类主要依据聚类假设：同类的文本相似度较大，非同类的文本相似度较小。作为一种无监督的机器学习方法，聚类由于不需要聚类过程，以及不需要预先对文本手工标注类别，因此具有较高的灵活性和自动化处理能力，成为对文本信息进行有效组织，摘要和导航的重要手段。文本聚类的具体过程[3]如图2-1：论文网http://www.youerw.com/
图2-1 文本聚类的过程
2.2 K-means算法
关于数据挖掘中的聚类算法有很多种，作为统计学的一个分支，聚类分析己经被广泛地研究了很多年，主要集中的基于距离的聚类分析。其中最经典的就是基于K-Means(K-均值)的算法。K-Means算法在聚类方法的分类中，属于划分方法的一种。在划分方法中，首先要给定要划分的数目k，创建一个初始划分，然后才有一种迭代的重定位技术，尝试通过对象在划分间移动来改进划分。K-Means算法以k作为参数，把n个对象划分为k个簇，以使簇内具有较高的相似度，而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值(被看作簇的中心)来进行。该算法尝试找出使误差平方和函数值小的k个划分，通常都以局部最优而结束。
2.2.1 传统K-means算法介绍
输入：聚类个数k，以及包含 n个数据对象的数据库。
输出：满足方差最小标准的k个聚类。
处理流程：
1）：从 n个数据对象任意选择 k 个对象作为初始聚类中心；
2）：循环（3）到（4）直到每个聚类不再发生变化为止；
3）：根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；
4）：重新计算每个（有变化）聚类的均值（中心对象）；
k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。
2.2.2 K-means算法特点
K-Means算法的特点--采用两阶段反复循环，结束的条件是不再有数据元素被重新分配:
(l)指定聚类，即指定数据到某一个聚类，使得它与这个聚类中心的距离比它到其它聚类中心的距离要近。

上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页

基于K-means的文本聚类算法研究第7页下载如图片无法显示或论文不完整，请联系qq752018766

上一篇文章： J2EE的综合测评系统设计

下一篇文章：构建专业内容服务网站的思路及相关技术

基于K-means的文本聚类算法研究 第7页

基于K-means的文本聚类算法研究第7页