DTW算法音乐检索系统设计与实现(2)

1．2 国内外研究现状

1．3 本文的行文结构

本文首先阐述乐理学中一些相关的理论知识，然后根据音乐独有的特征进行特征提取，最后对于提取后的特征向量设计并实现匹配算法，对多种匹配算法进行比较，最后选择较优的一种实现音乐检索系统。

第一章为绪论，简要概述了本文所涉及的内容，并阐述了国内外研究现状及背景、意义等。

第二章主要从乐理学的角度介绍一些音乐上的概念，并从人耳的角度对如何识别两段乐句是否相似进行分析。

第三章主要介绍音频理论及基于音频内容的特征提取方法。

第四章主要介绍基于提取到的特征，进行匹配时的几种匹配算法的优劣性比较，分别阐明它们的适用之处。

第五章主要介绍本文主要研究进行匹配的两种常见音乐格式：Midi格式及wav格式，并介绍了基于这两种音乐格式的音乐检索系统的设计与实现。

第六章对本课题的研究进行总结，并对后续的工作进行展望。

2 音乐旋律的要素和人耳感知音乐的机理源:自/优尔-·论,文'网·www.youerw.com/

要用更“智能”的方法对音乐进行匹配和检索，首先就需要了解声音本身的要素；音乐旋律作为一类特殊的声音，其自身所带有的特征；以及人耳是如何感知声音，并进而识别出相似的音乐的。

2．1 声音的三要素：音调、响度、音色

2.1.1 音调

音调，即声音的高低，表示人分辨一个声音的高低程度。[8]音调主要取决于声音的频率，但也会受到声音的强度影响。对于纯音来说，音调和发声的频率呈正相关，即频率越高，音调越高；频率越低，音调也越低。另外，对于频率很低的音来说，音调随着声音的音强增大而变低；对于频率很高的音来说，音调随着声音的音强增大而变高。音调是旋律相似度识别的主要依据。

2.1.2 响度

响度是人的听觉判断一个声音的强弱的要素。需要注意的是它并不代表声音本身能量的强弱，而是由音强、音调、音色、音长等因素共同决定的，是人耳对这些因素进行综合分析处理后给出的结果。

在这些因素中，音强是较为主要的因素。音强是指一个声音音波的平均能流密度，它主要受到音速、频率、振幅的影响。例如，超声波频率非常高，所以它的音强很大；炸弹爆炸时发出的声音振幅很大，所以它的音强也很大。文献综述

但是我们注意到，尽管上述两个音的音强都很大，但人耳对其的判断则完全不同，人耳会认为前者“完全听不见”，而后者“震耳欲聋”。产生差别的原因是人耳能够分辨出的声音频率在20Hz~20000Hz之间，超声波的频率超过20000Hz，因此无法辨别。另外，人耳对1000Hz~5000Hz的音格外敏感，因此并不是说，其他条件不变，频率越高的声音响度越低。有实验说明，30Hz,80分贝的音，100Hz,52分贝的音，1000Hz,40分贝的音，4000Hz,37分贝的音，人耳对它们响度的感知几乎是一样的。

另外，音色，即声音的“刺耳 ”程度也会对响度造成些微的影响。一般来说，比较圆润的声音响度会比较小，而比较尖锐的声音响度则会比较大。

DTW算法音乐检索系统设计与实现(2):http://www.youerw.com/jisuanji/lunwen_67480.html