毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

基于K-means的文本聚类算法研究 第7页

更新时间:2012-2-12:  来源:毕业论文
   基于相似性的检索是指根据一组共同的关键字找出相似的文档。这类检索的输入应该是基于相关度,其中相关度的度量是根据与关键词的近似性,关键词的权重等等。
本设计主要对它的处理如下:
(1)对于K类中的每一类文本,先提取能代表该类的三十个关键词语。
(2)依照权重计算方法,计算每一篇文本中各类三十个关键词的权重。
(3)同一篇文本中同一类的关键词按照权重大小进行降序排列。
(4)取每一类总关键词中的top n个关键词,组合成一个特征向量。
由上可知,所有文本的向量文数降到了K*N文,如果要聚集七类文档,top n选4,那么每一篇文本用一个28文向量就可以表示出来,这样大大降低了向量的文度,方面于以后的算法聚类!当然这种方法对关键词的依赖就大了,所以关键词的数量不能太少,且一定要起到那一类的代表性作用。
2.1.3.6文本聚类过程本文来自优-文~论^文.网原文请找腾讯3249,114
    文本聚类主要依据聚类假设:同类的文本相似度较大,非同类的文本相似度较小。作为一种无监督的机器学习方法,聚类由于不需要聚类过程,以及不需要预先对文本手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织,摘要和导航的重要手段。文本聚类的具体过程[3]如图2-1: 论文网http://www.youerw.com/  
图2-1 文本聚类的过程
2.2 K-means算法
关于数据挖掘中的聚类算法有很多种,作为统计学的一个分支,聚类分析己经被广泛地研究了很多年,主要集中的基于距离的聚类分析。其中最经典的就是基于K-Means(K-均值)的算法。K-Means算法在聚类方法的分类中,属于划分方法的一种。在划分方法中,首先要给定要划分的数目k,创建一个初始划分,然后才有一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。K-Means算法以k作为参数,把n个对象划分为k个簇,以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值(被看作簇的中心)来进行。该算法尝试找出使误差平方和函数值小的k个划分,通常都以局部最优而结束。
2.2.1 传统K-means算法介绍
输入:聚类个数k,以及包含 n个数据对象的数据库。
输出:满足方差最小标准的k个聚类。
处理流程:      
1):  从 n个数据对象任意选择 k 个对象作为初始聚类中心;
2):  循环(3)到(4)直到每个聚类不再发生变化为止;
3):  根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
4):  重新计算每个(有变化)聚类的均值(中心对象);
k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
2.2.2 K-means算法特点
K-Means算法的特点--采用两阶段反复循环,结束的条件是不再有数据元素被重新分配:
(l)指定聚类,即指定数据 到某一个聚类,使得它与这个聚类中心的距离比它到其它聚类中心的距离要近。

上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页

基于K-means的文本聚类算法研究 第7页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©youerw.com 优文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。