如何在服务器端实现语音识别(请不要建议HTML5's x-webkit-speech
,javascript等)?该程序将音频文件作为输入,并以足够的准确性提供音频文件的文本转录。我可以使用哪些选项?
我曾尝试使用 Voxforge 模型实现 Sphin4,但准确性太差(它们可能也是我的配置中的一些问题,我仍在尝试学习它)。在一篇文章中,我读到当我们使用<input name="speech" id="speech" type="text" x-webkit-speech />
输入时,输入被发送到外部服务器,该服务器进行识别并将数据发送回浏览器。
如何设置该服务器?如果任何现有的开源服务器能够以最小的错误率识别英语句子,它也会很有用。