1

我需要一个基于 java 的特征提取库并找到了 Sphinx,但不知道如何使用。基本上,我需要将 wav 文件转换为 MEL 系数。一旦我在 Matlab 中完成了该操作,但由于我对 Java 不太熟悉,我无法掌握如何使用他们的代码并提取特征。

顺便说一句,如果您有机会知道另一个能够快速做到这一点的开源库,那将非常有帮助。

更新:因为我打算在 Android 上使用它,我发现使用 PocketSphinx 可能是一个更好的主意。(我尝试下载他们的演示应用程序,但它没有在我的设备(Nexus 5)上运行,它试图打开一个活动但立即关闭。)我也遵循了这些步骤,但还没有收获。

如果有人可以帮助我弄清楚如何设置它,那就太好了。我需要知道:1- 应该使用哪些模块,2- 如何将库用于我自己的项目?3- 如何设置库:应该使用哪些函数以及如何使用。

提前致谢。

是否有使用分步指南

4

1 回答 1

3

当然,可以使用 sphinx4 计算 MFCC 特征。但不会说它会很快。sphinx4 中有一个前端的概念,负责处理输入数据。典型的前端如下所示:

  <component name="liveFrontEnd" type="edu.cmu.sphinx.frontend.FrontEnd">
    <propertylist name="pipeline">
      <item>dataSource </item>
      <item>dataBlocker </item>
      <item>speechClassifier </item>
      <item>speechMarker </item>
      <item>nonSpeechDataFilter </item>
      <item>preemphasizer </item>
      <item>windower </item>
      <item>fft </item>
      <item>autoCepstrum </item>
      <item>liveCMN </item>
      <item>featureExtraction </item>
      <item>featureTransform </item>
    </propertylist>
  </component>

前端的每个元素都从前一个元素读取数据,以某种方式对其进行处理,然后传递给下一个元素。这里dataSource接受原始音频输入并autoCepstrum输出 MFCC 系数。其他一切都与语音识别器的特定设置有关。现在,如果您想使用 sphinx4 来计算 MFCC,您应该自己设置类似的前端,分别实例化和调整每个组件,或者可以编写 XML 配置并使用ConfigurationManager实例化前端。

于 2014-04-25T11:18:36.140 回答