-1

我对“帧阻塞”很好奇,这是我在网站上看到的特征提取的第一步。它说应该遵循以下步骤来提取音频的特征:

  1. 帧阻塞
  2. 开窗
  3. fft
  4. 梅尔频率翘曲
  5. 倒谱

“帧阻塞”是什么意思?任何人都可以为此提供算法或代码(c#)吗?

顺便说一句,这个步骤顺序对于特征提取是否正确?

在特征提取之前我应该​​如何“预过滤”音频?

谢谢。

4

1 回答 1

2

这是我从谷歌搜索中找到的“帧阻塞”一词 - 谷歌自动完成了“语音信号的帧阻塞”。

http://books.google.com/books?id=B9VuCBBYzJ4C&pg=PA21&lpg=PA21&dq=frame+blocking+of+speech+signal&source=bl&ots=FCzp86g8F0&sig=P5aolL4OAAyPwxZ2nMd-Ye_5M_I&hl=en&sa=X&ei=oLM3UeK3DsTfrQHyvYD4DQ&sqi=2&ved=0CC4Q6AEwAA#v= onepage&q=frame%20blocking%20of%20speech%20signal&f=false

相关文字:

语音信号处理中最常见的方法是基于短时分析。预加重的信号被分成N个样本的帧。帧持续时间通常在 10 - 30 mxec 之间。此范围内的值代表频谱变化率和系统复杂性之间的折衷。适当的帧持续时间最终取决于语音产生系统中发音器的速度。一些声音(例如,停止辅音)表现出尖锐的频谱过渡,这可能导致频谱峰值移动高达 80 Hz/msec(Mar76]。图 2.3 说明了一个单词在J帧中的阻塞。在某种程度上重叠的数量控制参数在帧之间变化的速度。

现在给您的问题是,您在帧阻塞方面尝试过什么?

于 2013-03-06T21:29:00.837 回答