我的任务是将不是来自人类直接语音的音频文件转换为文本。
例如,如果我在 wav 文件中存储了“Hello there”,它会将其转录为文本并在屏幕上显示“Hello there”字符串。
首选但优先级为 C# 的任何语言代码。
我的任务是将不是来自人类直接语音的音频文件转换为文本。
例如,如果我在 wav 文件中存储了“Hello there”,它会将其转录为文本并在屏幕上显示“Hello there”字符串。
首选但优先级为 C# 的任何语言代码。
SAPI 当然可以做你想做的事。从进程内识别器开始,将音频连接为文件流,设置听写模式,然后就可以开始了。
现在令人失望的一点。你可能不会得到非常好的结果;事实上,我怀疑除非你非常幸运,否则你可能会得到完全的垃圾。
有几个问题:
Dragon Naturally speak Professional 支持转录,但仍需要培训和单一声音。(我确实相信 DNS 有一个自定义音频模型可以很好地用于录音机。)我自己没有使用过它,所以我不知道它在你的情况下效果如何。
现在,如果您正在寻找特定的关键字,其他人已经成功使用“音频挖掘” - 运行识别器在音频流上寻找特定的关键字