2

在 TED.com 上,他们有转录,当点击转录的一部分时,他们会转到视频的相应部分。

我想在带有 OSS 的 Linux 上完成 80 小时的音频和转录。

这是我正在考虑的方法:

  1. 从 30 分钟的样本开始
  2. 将音频分成 2 分钟的 WAV 文件格式的块,即使它打断了单词
  3. 在每个块上运行来自 CMU Sphinx 的长音频对齐器的短语检测器,并带有成绩单
  4. 获取在每个位中找到的已识别单词/短语的时间索引,并计算原始音频文件中 ngram 的实际估计时间。

这看起来是一种有效的方法吗?有没有人真的这样做过?

是否有其他值得尝试的方法,例如可能足够准确的哑字计数?

4

1 回答 1

0

您可以在一个长音频对齐器中输入所有音频和文本,它会为您提供单词的时间戳。使用此时间戳,您可以跳转到文件中的特定单词。

我不确定您为什么要拆分音频或做其他事情。

于 2012-07-04T16:05:14.983 回答