1

我想使用 CMU sphinx4 来转录给定的音频文件。它应该采用 .wav 格式的音频文件并用印度英语进行对话。我是 CMUSphinx 的新手,无法简单地逐步描述该过程。

4

1 回答 1

7

您可能想查看随 sphinx api 提供的转录器演示。

您可以只更改语言模型和声学模型,在 config.xml 文件中进行相同的配置,并使用相同的代码。

  1. 语言模型 - 根据您的应用程序的用例,您可以使用具有 5k 个单词的 WSJ 语言模型,或者您可以制作自己的模型。要制作自己的语言模型,您可以在此处阅读更多信息。一种简单的方法是使用 lmtool。谷歌“lmtool cmu”

  2. 声学模型 - 由于您想要应用印度口音,您需要拥有印度英语的音频文件和相应的转录文件。根据您的用例,您可以训练自己的声学模型,也可以调整现有的声学模型。在这里阅读更多。您还可以在线搜索数据集。

  3. 在 config.xml 文件中进行配置,以便您的应用程序使用您的语言和声学模型。

对于初学者,这些步骤可能会有所帮助-

  1. 阅读 sphinx 架构并尝试演示
  2. 研究什么是语言模型。
  3. 阅读有关如何构建语言模型的信息。(lmtool、cmuclmtk 等)
  4. 了解声学模型是什么。
  5. 阅读有关如何训练/调整声学模型的信息。
  6. 在您的 java 应用程序中配置 config.xml 文件以使用这些模型。
于 2013-05-28T13:35:35.253 回答