论文→[ 科技论文 ]

相角音码器及其在语音韵律调整之应用

阅读量:02021-11-11作者:王祐邦来源:电信工程学研究所
首页 - 科技论文 - 本页网址:https://www.woailunwen.com/keji/72825/

研究生: 王祐邦
研究生(外文): Yow-Bang Wang
论文名称: 相角音码器及其在语音韵律调整之应用
论文名称(外文): Phase Vocoder and its Applications in Speech Prosody Modification
指导教授: 李琳山李琳山引用关係
学位类别: 硕士
校院名称: 国立台湾大学
系所名称: 电信工程学研究所
学门: 工程学门
学类: 电资工程学类
论文种类: 学术论文
论文出版年: 2008
毕业学年度: 96
语文别: 中文
论文页数: 53
中文关键词: 相角音码器、语音韵律调整、声音转换
外文关键词: Phase Vocoder、speech prosody modification、voice conversion


在语音合成或其他各种语音系统的输出中,如果希望语音具有某种特定的韵律表现,最简便且普遍的做法就是使用音高同步叠加法或者相角音码器。然而目前国内关于韵律调整之研究,对于相角音码器的探讨仍不多;而有关相角音码器的国外期刊论文则往往偏重理论描述,而缺乏实作的细节。因此,本论文的主要目的就是希望能实现相角音码器,并以之进行语音韵律调整。
本论文主要分为两大部分:第一部分,包括第二章以及第三章,是对相角音码器原理的解说。我们试图深入频谱的物理意义,以探讨包括相角音码器最初的雏型,以及后来包括锁相相角音码器等等的各种改进方法。
第二部分,包括第四章,则是相角音码器的实作。我们参考了数篇近期的期刊论文,并整合音高与音节长度的调整,而成为一个完整的语音韵律调整系统。同时我们也对实作中会遇到的种种问题以及参数设定的细节进行处理与讨论。


口试委员会审定书 #
志谢 i
摘要 iii
目录 v
图目录 viii
第一章 导论 1
1.1 研究动机 1
1.2 相角音码器简介 1
1.3 章节大纲 2
第二章 基础背景简介 3
2.1 短时间傅立叶转换与频谱 3
2.1.1 短时间傅立叶转换 3
2.1.2 短时间傅立叶分析与窗函数 3
2.1.3 频谱 5
2.1.4 短时间傅立叶合成 7
2.2 相角与瞬时频率 7
2.3 韵律调整 10
2.3.1 时间量度调整 10
2.3.2 音高平移 13
2.4 音源—滤波器模型 15
2.5 线性预测编码 16
2.6 其他估测频谱包络线的方法 18
2.6.1 真实包络线估测 18
2.6.2 线性预测正则化 20
2.7 本章结论 21
第三章 相角音码器的改进 23
3.1 频谱峰与影响区间 23
3.2 锁相相角音码器 24
3.2.1 时间量度调整 24
3.2.2 音高平移 27
3.3 基于窗函数频率响应之音高平移 30
3.4 正弦频率平移与追踪 33
3.5 暂态侦测与保存 34
3.6 本章结论 34
第四章 相角音码器应用于语音讯号韵律调整 37
4.1 系统架构 37
4.2 音高轮廓精緻化 39
4.3 语音讯号之杂讯消除 39
4.3.1 语音端点侦测 39
4.3.2 频谱相减法 40
4.4 增益控制 41
4.5 线性预测分析 41
4.5.1 参数设定 41
4.5.2 线性预测係数内插 43
4.6 短时间傅立叶转换 43
4.7 音高平移 45
4.8 线性预测合成 47
4.9 时间量度调整 48
4.10 本章结论 50
第五章 结论与展望 51
5.1 结论 51
5.2 展望 51
参考文献 53


[1]Michael R. Portnoff, “Time-scale modification of speech based on short-time Fourier analysis,” IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol.29(3), pp. 374-390, 1981.
[2]Stephanie Seneff, “System to Independently Modify Excitation and/or Spectrum of Speech Waveform Without Explicit Pitch Extraction,” IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-24, pp. 358-365, 1982.
[3]Jean Laroche, and Mark Dolson, “Improved Phase Vocoder Time-Scale Modification of Audio” IEEE Transactions on Speech and Audio Processing, vol. 7, no. 3, May 1999.
[4]Jean Laroche, and Mark Dolson, “New phase-vocoder techniques for pitch shifting, harmonizing and other exotic effects” Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, p. 91-94, Oct. 1999.
[5]Eric Moulines, Jean Laroche, “Non parametric techniques for pitch-scale and time-scale modification of speech,” Speech Communication, vol. 16, pp.175–205, Feb. 1995.
[6]The Mathworks – Signal Processing Toolbox
http://www.mathworks.com/access/helpdesk/help/toolbox/signal/
[7]A. V. Oppenheim and R. W. Schafer, “Discrete Time Signal Processing,” 2nd ed., Prentice Hall, 1999.
[8]D. W. Griffin and J. S. Lim, “Signal estimation from modified short-time fourier transform,” IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, pp. 236–243, Apr. 1984.
[9]Jeremy Bradbury, "Linear Predictive Coding", Dec.5,2000.
[10]L. Rabiner and B. H. Juang, “Fundamentals of Speech Recognition,” Prentice Hall, 1993.
[11]A. Röbel, X. Rodet, “Efficient Spectral Envelope Estimation and its Application,” Proc. Digital Audio Effects, 2005.
[12]L. Anders Ekman, W. Bastiaan Kleijn, Manohar N. Murthi, “Spectral Envelope Estimation and Regularization,” Proc. ICASSP, 2006.
[13]A. Röbel, X. Rodet, “Improving LPC Spectral Envelope Extraction of Voiced Speech by True-envelope Estimation,” Proc. ICASSP, 2006.
[14]S. Imai and Y. Abe, “Spectral envelope extraction by improved cepstral method,” Electron. and Commun. in Japan, vol. 62-A, no. 4, pp. 10–17, 1979.
[15]M. N. Murthi and W. B. Kleijn, “Regularized linear prediction all-pole models,” Proc. IEEE Workshop on Speech Coding, pp. 96–98, September 2000.
[16]M. S. Puckette, “Phase-locked vocoder,” IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics, 1995.
[17]T. F. Quatieri, R. B. Dunn, and T. E. Hanna, “A subband approach to time-scale expansion of complex acoustic signals,” IEEE Trans. Speech Audio Processing, vol. 3, pp. 515–519, Nov. 1995.
[18]Petko N. Petkov1 and W. Bastiaan Kleijn, “Improving the Phase Vocoder Approach to Pitch-Shifting,” INTERSPEECH 2007.
[19]林婉怡,“流利国语语音之声调辨识及其在大字彙辨识上的应用”,硕士论文—国立台湾大学电信工程学研究所。(2004)
[20]鲁弘茂,“中文语音合成技术之实作与分析”,硕士论文—国立交通大学电信工程学研究所。(2001)
[21]Min Tang, Chao Wang, Stephanie Seneff, “Voice Transformations: From Speech Synthesis to Mammalian Vocalizations,” Eurospeech 2001.
[22]Olivier Derrien, “Time-scaling of Audio Signals with Multi-scale Gabor Analysis,” Proc. Digital Audio Effects, 2007.
[23]Geoff Shew, “A Continuous Wavelet Transform Based Pitch Shifting Method For Audio Signals,” ELEC 486 Term Project.
[24]J. Laroche, Y. Stylianou, and E. Moulines, “HNS: Speech modification based on a harmonic + noise model.,” Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, 1993.
[25]H. Kawahara, “Speech representation and transformation using adaptive interpolation of weighted spectrum: Vocoder revisited,” Int. Conf. Acoustics, Speech, Signal Processing, pp. 1303–1306, 1997.
[26]Kawahara, H., Masuda-Katsuse, I. & de Cheveigne, A., “Restructuring Speech Representations Using a Pitch-Adaptive Time-Frequency Smoothing and an Instantaneous-Frequency-Based F0 Extraction: Possible Role of a Repetitive Structure in Sounds,” Speech Communication, 27, vol. 3-4, 187-207, 1999.

累计有19527人觉得此论文有用

免责声明

相角音码器及其在语音韵律调整之应用
本文内容整理自网络,有修改,版权归原作者所有。如有侵权,我们将立即更正或删除相关内容。
联系邮箱 webmaster(#at)woailunwen.com [ (#at)改为@ ]
相角音码器 语音韵律调整 声音转换

网友回答

还没有人提问相角音码器及其在语音韵律调整之应用,现在提问沙发就是你的!
点击加载更多