3

我的任务是将不是来自人类直接语音的音频文件转换为文本。

例如,如果我在 wav 文件中存储了“Hello there”,它会将其转录为文本并在屏幕上显示“Hello there”字符串。

首选但优先级为 C# 的任何语言代码。

4

1 回答 1

3

SAPI 当然可以做你想做的事。从进程内识别器开始,将音频连接为文件流,设置听写模式,然后就可以开始了。

现在令人失望的一点。你可能不会得到非常好的结果;事实上,我怀疑除非你非常幸运,否则你可能会得到完全的垃圾。

有几个问题:

  1. 听写真的只有在训练好 SR 引擎后才能正常工作。如果你很幸运(像我一样),你可以得到好的结果,但如果说话者有口音,培训是必须的。
  2. 训练只适用于单一声音。如果您在一个音频文件中有多个扬声器,则效果不佳。
  3. 听写(以及一般的语音识别)的音频模型假设您正在使用近距离通话麦克风(即,靠近您脸部的麦克风,以最大程度地减少噪音拾取)。如果您的 WAV 文件有额外的噪音,准确度会急剧下降。

Dragon Naturally speak Professional 支持转录,但仍需要培训和单一声音。(我确实相信 DNS 有一个自定义音频模型可以很好地用于录音机。)我自己没有使用过它,所以我不知道它在你的情况下效果如何。

现在,如果您正在寻找特定的关键字,其他人已经成功使用“音频挖掘” - 运行识别器在音频流上寻找特定的关键字

于 2009-11-24T19:16:54.630 回答