基于最大匹配及其改进算法的中文分词技术

摘要中文分词指的就是将一段中文语料中的字符串分割成独立的、有一定序列的词语。分词就是将一串连续的汉字序列按照一定的顺序或规范重新组合成词序列的过程。相比之下，在英文的句子之中，单词与单词之间有明显的空格来作为分界符，而中文中只有句子和段落之间有相应的分界符，中文单词缺少像英语中那样的分界符，虽然英文在对短语的划分时也有一定的难度，不过在单词的层面上，中文更加的难以划分。本文讨论了两种中文分词算法，一个是最大匹配算法，一个是最大匹配扩展算法，通过对这两种算法的学习，并且实现这两种算法，由于这两种算法都是基于字典的中文分词算法，因此字典对分词效果至关重要，通过比较这两种算法，分析扩展算法在原有算法基础上的优越性。28216
关键词中文分词最大匹配算法最大匹配扩展算法   字典
毕业论文设计说明书外文摘要
Title Based on Maximum Matching Algorithm and its expansion for    Chinese Word Segmentation
Abstract
Chinese word segmentation means to pide Chinese phrases into some separate words. Word segmentation is a process that put a series of Chinese characters in order which can be constructed to some words. In contrast，there are apparent space which is used as delimiter in English sentences, while in Chinese, only sentences and segments have delimiters. Chinese words lack a delimiter. Although the problem of word segmentation also exists in English， Chinese is more complicated than English. This article discusses two algorithms for Chinese word segmentation，one is the maximum matching algorithm，and the other is its expansion. We will learn these two algorithms and code them. A good dictionary is crucial to these algorithms because they are all based on dictionaries. We will analyse these two algorithms and compare them to find that the expansion one is superior to the previous one.
Keywords Chinese word segmentation     maximum matching algorithm
          expansion of maximum matching algorithm    dictionary
目   次
1 绪论 1
1.1 引言 1
1.2 中文分词研究现状 1
1.3 中文分词技术难点 1
1.4 本文主要内容及工作安排 2
2 中文词典收集 4
2.1 词典简介 4
2.2 词典的收集与整理 4
2.3 搜狗细胞词库 5
2.4 本章小结 7
3 最大匹配算法 8
3.1 最大匹配算法原理 8
3.2 最大匹配算法实现 9
3.3 实验分析 10
3.4 本章小结 11
4 最大匹配扩展算法 12
4.1 最大匹配扩展算法原理 12
4.2 最大匹配扩展算法实现 14
4.3 实验分析 14
4.4 最大匹配算法与扩展算法的比较 15
4.5 本章小结 16
5 汉字编码 17
5.1 算法实现过程中的编码问题 17
5.2 编码介绍 17
5.3 Python实现中文分词算法中的常见问题及解决方法 18
5.4 本章小结 20
结论 21
致谢 22
参考文献23
1 绪论
1.1 引言
什么是中文分词?就是将一段中文语料中的字符串分割成独立的、有一定序列的词语[1]。中文分词，是文本挖掘技术的基础，当我们输入一段中文字符之后，可以对它进行分词，分词的结果需要能够达到电脑自动识别其语义的目的。汉语单词是一个个体，作为独立的、具有实际意义的个体，字符串的切分对计算机识别理解有重要的意义，英文中的句子是存在分界符的，单词与单词之间的空格就是分界符，而我们的汉语字与字之间不存在空格等分界符[2]，例如，有这样一个英文句子I am a teacher，用中文可以把它表示为：“我是一个老师”。根据单词之间的空格，计算机可以判断出“teacher”是一个词，但是计算机在处理中文句子的时候，无法判断“是”可以作为一个单独的个体，还是可以和其他词连用，也无法判断“老”和“师”两个字是是一个双字词。因此，在对中文进行信息处理时，基础和关键点就是要对中文词语进行分析。基于最大匹配及其改进算法的中文分词技术:http://www.youerw.com/jisuanji/lunwen_22981.html