情感分析算法国内外研究现状

从目前国内外收集到已公布的期刊文献来看，对于情感分类的方法大体上分为两类：

(1)使用情感词典及词语的转化进行分类

从20世纪90年代开始就不断的有人关注文本中情感的挖掘。早期，Rloff和Shepheard使用大量语料数据构建了语义词典[4]。之后Hatzibassiloglau和McKeoawn对英文的词语情感倾向性提出了一种方法，考虑到了形容词的情感倾向受到句子结构，尤其是连词的影响[5]。2003年Turney等提出了十分有效的点互信息(Pointwise Mutual Information)方法对基准的褒贬促会进行扩充，通过极性语义算法分析情感倾向，在处理一般领域方向的语料时正确率达到了74%[6]。Tsou等使用了更加精确的数学方法，将词语极性元素分布和语义的强度对报刊的语义倾向进行计算，得到了大众对政治人物的评论与看法[7]。近几年Miao等为了更好的解决特征的倾向，提出了一种四元组抽取概念，对特征倾向进行了分级[8]。Narayanon等发现不同语句结构对表达情感有着不同程度的影响，对条件语句进行分析，对不同时态信息对各类预料标注种类，结合各种特征值，提出对句子结构进行划分，收到了很好的效果[9]。82919

总的来说，通过情感词典对文本的情感进行挖掘，优点是在词语级的粒度细，分析准确率较高，但是由于过分依赖词语，一方面受到自然语言的抽取技术以及自然语言基本的处理技术显示，另一方面很容易忽略文本的特殊语法结构使，得该方法在不同领域语言环境下需要人工的进行特殊处理，自身的可扩展性也受到了限制。在未来的研究中基于词典的情感分析还有不少的难点需要攻克，目前该方法已经有不错的正确率，但还有很大的发展空间。论文网

(2) 通过机器学习手段进行情感进行分类

常见的分类方法都可以作为情感分类的方法，比较著名的机器学习算法有基于概率的朴素贝叶斯（NB）、基于信息墒理论的最大熵、基于统计学的K-最临近分类（KNN）和支持向量机(SVM)等。

国外进已经有相当多的论文发表，比如Lillian Lee等人分别采用了朴素贝叶斯等算法对网络视频的影评进行情感分类，把网络上电影评论分为褒义情感与贬义情感，同时使用手工分类进行验证，发现SVM方法表现最佳，正确率可以达到80%[10]。Whilelaw同样对影评进行分类，但是提取了评价信息中形容词词组，结合了情感词典的内容，使用SVM方法正确率突破了90%[11]。Moens用对不同的语言进行测试，荷法语语的正确率达到68%，荷兰语有70%，英语有83%，体现了机器学习方法即使在不同的语言环境都能发挥不错效果，相比词典方法有着更加优秀的可移植性[12]。

中国方面夏火松等人通过TF-IDF权重计算，使用SVM分类器对旅行网站的客户反馈进行情感分类，研究了中文停用词对分类的影响[13]。张珊等发现利用微博中的表情图片，使用表情与情感词构建微博的语料库，可以更准确的挖掘用户情感，通过贝叶斯分类器进行分类，又通过信息熵对语料库进行优化，准确率可以达到85%以上[14]。

机器学习的情感分类主要优势是能正确提取文本的特征信息，对文本特征提取处理得当的话会使准确率很高，移植性也很好。但是非常依赖训练集，训练集不仅需要人工或者其他手段提取，训练周期往往也很长，目前发展与词典方法相差不大，但是随着语料集的收集方法不断优化，自然语言处理越来越成熟，机器学习方法有着比字典方法更好的发展前景。

情感分析算法国内外研究现状:http://www.youerw.com/yanjiu/lunwen_97487.html