2

我有很多 WMA 格式的语音音频,我想用机器转录它——即使转录不是 100% 准确,我认为它可以作为一些音频的“索引”有很大帮助. 我愿意编写一些代码来实现这一点,但微软的语音 API 可以帮助我吗?是否已经有可以为我执行此操作的应用程序?

4

2 回答 2

0

SAPI 当然可以做你想做的事。从进程内识别器开始,将音频连接为文件流(您可能需要将 WMA 文件转码为 WAV 流,因为 SAPI 只接受 WAV 输入,但您可以即时进行转码),设置听写模式,然后离开。

现在令人失望的一点。你可能不会得到非常好的结果;事实上,我怀疑除非你非常幸运,否则你可能会得到完全的垃圾。

有几个问题:

  1. 听写真的只有在训练好 SR 引擎后才能正常工作。如果你很幸运(像我一样),你可以得到好的结果,但如果说话者有口音,培训是必须的。
  2. 训练只适用于单一声音。如果您在一个音频文件中有多个扬声器,则效果不佳。
  3. 听写(以及一般的语音识别)的音频模型假设您正在使用近距离通话麦克风(即,靠近您脸部的麦克风,以最大程度地减少噪音拾取)。如果您的 WMA 文件有额外的噪音,准确度会急剧下降。

我实际上建议使用 Dragon Naturally speak Professional;他们花费了时间和金钱来进行转录工作。我自己没有使用过,所以我不知道它在你的情况下效果如何。

于 2009-11-03T04:52:41.263 回答
-1

你需要一个相应的程序来实现这一点,比如听写软件。Speech API 则相反。我也不相信这有什么开源的,因为这是一个非常非常复杂的软件。

于 2009-09-30T18:38:03.183 回答