基于TF/IDF特征的网络问题自动分类研究(2)

在各种纷杂的信息中，又属文字信息居多：手机应用里的新闻，电子书，甚至亲友之间短信微信都一点点的充斥着我们的生活。现代人已经越来越习惯于用在网页上浏览信息的方式去解决问题。甚至政府部门，公安机关等等都有自己专属的官方网页微博等。而百姓在网上咨询问题也已经不再少见新鲜，因为这种方式节约了人们的时间和精力，不需要专门去找相关部门去解决问题。所以，越来越多的网络上有越来越多的信息咨询专属平台。From+优尔-论+文W网www.youerw.com 加QQ752018`766

若是可以在人们提交一个问题文本之后就自动把这个问题归类，对于回答的工作人员，术业有专攻，他们可以更专业的为人们服务，也提高了他们的工作效率。对于老百姓来说，如果可以有些问题的分类，他们也便于在这些已经解决的地方查询也许就能找到问题的答案。

住房、医疗等问题是事关国家又与个人息息相关的话题。企业具有义务为在职的员工缴纳公积金，这种强制的方式可以保障每个职工的住房要求。在我国房价一直居高不下的大背景下，住房公积金对于职工具有非常重要的保障意义。

南京公积金官方网站（http://gjj。nanjing。gov。cn/）中人们对于公积金贷款等问题的非常关注，经过观察，在线咨询中每天都有新问题的咨询，所以提前对信息进行分类显得非常必要。

TF/IDF方法提出了一种建立模型的思想，运用模型确定用于分类的关键词的权重和分类的阈值，从而实现自动对文本进行分类。

1。2 主要工作及安排

本文的最终目的是对文本进行分类，并且要求分类器有较为良好的性能，让它的检测准确率尽量达到80%以上。

前期工作是阅读数据挖掘方面的关于分类的知识，先对分类的思想和基本的方法有了解，对于基本概念有掌握。

然后再对已知类别的大量样本文本（即训练样本集）做分析，运用TF/IDF的思想建立模型，对关键词赋予权重，确定阈值，思考如何能使分类模型的分类性能更优。用上述模型中确定的关键词权重阈值等数据，对重新获取的文本类别进行预测分类。论文网

如何建立模型、确定权重和阈值是本文工作中最难也是最核心的问题。这个步骤将会对整个分类器的分类性能造成直接影响。

最终将以图表、配图、matlab等形式配合展现分类的结果，这样可以使分类模型的准确率结果尽可能的直观，容易比较。

2 数据挖掘中的常见分类算法介绍

2。1 基本概念介绍

数据挖掘的过程中分类是非常关键的环节，分类的目的是运用一个分类函数或者说分类模型（也称分类器）将数据库中的元组映射到预先给定的类别中的一个类别。分类模型常常被用于预测[2]。分类的概念可用如下语言描述：

给定一个数据库和一组类，所谓分类问题就是确定一个映射，每个元组被分配到一个类中。类包含映射到该类别的所有元组，即。这些预先设定好的类是不互相包含或重叠的[16]。

一般来说，数据分类（Date Classification）有两个步骤组成：建模和使用[14]。首先建模是指，我们需要分析数据库中的元组的属性来构造模型。为了建立分类模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组被称为训练样本，训练样本是随机地从样本群中选取。这样保证了分类的客观真实。建立好模型之后，我们需要检测它的准确性，在训练样本之外随机选取样本，运用模型进行分类，将已知类标号与该样本的学习模型类预测结果进行比较，多选取一些样本就可以得到该分类模型的准确率。若使用者对该准确率满意，则可以使用该分类模型对需要分类的数据元组进行分类，如果不满意该准确率，可以对模型进行改进重复上述步骤[11]。基于TF/IDF特征的网络问题自动分类研究(2):http://www.youerw.com/tongxin/lunwen_140427.html