cmusphinx - 使用 CMU sphinx4 的简单步骤

翻译自：https://stackoverflow.com/questions/16773108 2013-05-27T12:20:52.453

1351 次

1

我想使用 CMU sphinx4 来转录给定的音频文件。它应该采用 .wav 格式的音频文件并用印度英语进行对话。我是 CMUSphinx 的新手，无法简单地逐步描述该过程。

1 回答 1

7

您可能想查看随 sphinx api 提供的转录器演示。

您可以只更改语言模型和声学模型，在 config.xml 文件中进行相同的配置，并使用相同的代码。

语言模型 - 根据您的应用程序的用例，您可以使用具有 5k 个单词的 WSJ 语言模型，或者您可以制作自己的模型。要制作自己的语言模型，您可以在此处阅读更多信息。一种简单的方法是使用 lmtool。谷歌“lmtool cmu”
声学模型 - 由于您想要应用印度口音，您需要拥有印度英语的音频文件和相应的转录文件。根据您的用例，您可以训练自己的声学模型，也可以调整现有的声学模型。在这里阅读更多。您还可以在线搜索数据集。
在 config.xml 文件中进行配置，以便您的应用程序使用您的语言和声学模型。

对于初学者，这些步骤可能会有所帮助-

阅读 sphinx 架构并尝试演示
研究什么是语言模型。
阅读有关如何构建语言模型的信息。（lmtool、cmuclmtk 等）
了解声学模型是什么。
阅读有关如何训练/调整声学模型的信息。
在您的 java 应用程序中配置 config.xml 文件以使用这些模型。

于 2013-05-28T13:35:35.253 回答