在 TED.com 上,他们有转录,当点击转录的一部分时,他们会转到视频的相应部分。
我想在带有 OSS 的 Linux 上完成 80 小时的音频和转录。
这是我正在考虑的方法:
- 从 30 分钟的样本开始
- 将音频分成 2 分钟的 WAV 文件格式的块,即使它打断了单词
- 在每个块上运行来自 CMU Sphinx 的长音频对齐器的短语检测器,并带有成绩单
- 获取在每个位中找到的已识别单词/短语的时间索引,并计算原始音频文件中 ngram 的实际估计时间。
这看起来是一种有效的方法吗?有没有人真的这样做过?
是否有其他值得尝试的方法,例如可能足够准确的哑字计数?