我一直在运行 Debian Squeeze 的 VM 上安装 Pocketsphinx0.7。这工作得很好,我可以尝试从文件中识别语音。有了这个我已经构建了一些 python 脚本来识别我得到的一堆文件,然后估计单词错误率。这些使用 gstreamer,如本教程中所述。
到目前为止,我使用的是pocketsphinx tarball中的原始hmm,这是一个字典,其中仅包含我的测试数据中的单词和我从教授那里获得的优化语言模型。这应该可以工作,因为它也在生产系统中运行。我现在的问题是识别性能仍然很糟糕。我的单词错误 (WER) 率约为 85%。
我想知道的是如何改进 WER。我可以采取哪些步骤?
发生并可能影响性能的另一件事是,pocketsphinx 告诉我它没有访问 hmm 的权限,尽管我让每个人都可以读取、写入和执行 hmm。
有谁知道这可能来自哪里?我很感激任何帮助。如果您需要更多信息,请告诉我。
编辑:
我创建了一个小型测试集并运行了 pocketsphinx。在这里您可以找到文件和结果。我被允许给你一些来自原始测试集的例子。你可以在这里找到它。
这些是最糟糕的例子。1-2个单词的简短表达效果很好。抱歉,到目前为止我无法创建一个大的测试集,我的时间非常有限。