sapi - 使用 SAPI 将音频（wav 文件）转换为文本？

Question

我的任务是将不是来自人类直接语音的音频文件转换为文本。

例如，如果我在 wav 文件中存储了“Hello there”，它会将其转录为文本并在屏幕上显示“Hello there”字符串。

首选但优先级为 C# 的任何语言代码。

score 3 · Accepted Answer

SAPI 当然可以做你想做的事。从进程内识别器开始，将音频连接为文件流，设置听写模式，然后就可以开始了。

现在令人失望的一点。你可能不会得到非常好的结果；事实上，我怀疑除非你非常幸运，否则你可能会得到完全的垃圾。

有几个问题：

听写真的只有在训练好 SR 引擎后才能正常工作。如果你很幸运（像我一样），你可以得到好的结果，但如果说话者有口音，培训是必须的。
训练只适用于单一声音。如果您在一个音频文件中有多个扬声器，则效果不佳。
听写（以及一般的语音识别）的音频模型假设您正在使用近距离通话麦克风（即，靠近您脸部的麦克风，以最大程度地减少噪音拾取）。如果您的 WAV 文件有额外的噪音，准确度会急剧下降。

Dragon Naturally speak Professional 支持转录，但仍需要培训和单一声音。（我确实相信 DNS 有一个自定义音频模型可以很好地用于录音机。）我自己没有使用过它，所以我不知道它在你的情况下效果如何。

现在，如果您正在寻找特定的关键字，其他人已经成功使用“音频挖掘” - 运行识别器在音频流上寻找特定的关键字

1 回答 1