您现在的位置：毕业论文 >> 论文 >> 正文

dsp小词汇表语音信号数字模板库的建立

更新时间：2010-6-13: 来源：毕业论文

dsp小词汇表语音信号数字模板库的建立
摘要：本文介绍了一种基于动态时间归整（DTW）方法的小词汇表非特定人语音识别通用模块。系统采用Motorola公司DSP56F805芯片为核心，应用线性预测编码（LPC）与动态时间归整（DTW）算法进行非OOV(out of vocabulary)语音识别。测试表明，有良好的实用性。
关键词：LPC，DTW，语音识别
1．引言
随着时代的发展，人们越来越注重生活的品质。便捷时尚成为当代人们的追求目标。信息家电的概念由此应运而生。越来越多的厂商投入到信息家电的本文源自优文论文网行列中来。所有人都意识到了，在目前的市场中不能再依靠单纯的降价来进行竞争。没有高新信息技术的支撑，就根本无法赢得这个有限的市场。由于受地域和语言等因素的限制，目前语音技术在该领域的运用还很少。因此，一款实用有效的语音技术产品将会有一个广阔的前景。
在此背景下，我们采用LPC和DTW作为核心算法，开发了一套度从语音采样，训练，到识别的完整语音识别开发系统。可以广泛的应用在各种小词汇表情况下的人机交互界面上。用户可以按照指导，在没有语音处理论知识的情况下，依照自己意愿，毕业论文http://www.Lwfree.cn/适当的选择适合自己要求的词汇，从而开发出一整套自己的语音识别系统。

2．系统概述
2.1 特性﹕
 以DSP56805芯片为核心运算与控制模块
 8位精确A/D采样
 模块化设计，便于系统移植与升级
 表演模块以LCD作为交互界面直观清晰；
 表演模块代码与系统其他部分相互独立，适应更广泛应用
2.2 系统概述﹕
整个设计由两个部分组成：语音采样训练系统和语音识别系统。
语音采样训练系统主要完成语音模板的建立，是语音识别系统的辅助系统。由DSP部分，PC机部分，以及相关软件实现。首先由DSP部分采样语音数据，通过串行通讯将数据传输到PC；然后在PC上进行语音数据的处理与聚类，得到语音数据模板。
语音识别系统则是建立在可靠的语音数据模板基础上，将采样得到的语音数据与模板进行匹配，从而得到可靠识别结果。
图1：系统示意图
2.3 DSP56F805简介
DSP56F805是Motorola公司的DSP芯片，与本系统相关的主要特点如下：
a. 40MIPS毕业论文http://www.Lwfree.cn/
b. 两路内置ADC
c. 31.5K-16bit程序FLASH；16位地址/数据总线，最大外接2×64K-16bitRAM/FLASH
d. 两路中断IRQA/IRQB
e. 14条专用I/O引脚，18条共用引脚
f. 3.3v供电
g. 144-pin LQFP封装
2.4 语音识别的基本原理
语音识别通常由以下两个部分组成：
1）预处理
2）特征提取
3）模式识别
图2：语音识别
2.4.1 预处理—端点检测[1]
常用的预处理有数字滤波以及端点监测，在本系统中我们使用了端点检测来确定语音数据的起始点和终点。
语音端点起点检测一般常用双门限前端检测法。由于本系统采用交流到直流变换的供电设计，无法避免的造成了50Hz左右的干扰。因此，根据多次试验的结果，我们采用的单一的短时能量作为我们检测语音标准：即，当采样得到的短时能量大于一定阈值时，我们就认定此时语音已经开始。然后以该点为基准，向前取既定帧数。这样我们认为就已经获得了语音的起点。
由于汉语的特殊性，语音的终点获得可以直接计算短时能量得到。只要短时能量低于平均能量的1/16就可以认定此时已经是语音信号的终点了。即便是丢点后续的部分信号，也不会对处理带来影响。在本系统中，为了计算上的方便，我们同样对终点也设定了一个由经验得到得阈值来判断是否到达了语音的终点。
语音短时能量计算方法：其中，x(m)为一文语音信号，w(m)为窗函数。1341