language-agnostic - 通过语音识别从预先存在的成绩单中生成字幕

Question

假设我有该音频的音频和纯文本副本，我如何使用语音识别以编程方式从两者生成字幕？

这与 YouTube 在编辑视频时在其字幕/字幕页面上提供的内容非常相似。

有哪些 API 可用于执行此操作？它有哪些挑战？

我最精通 Java/C#，但这与语言无关。

score 3 · Accepted Answer

这称为时间戳或对齐。CMUSphinx项目项目有一个特定的工具。您可以从 subversion 中查看它。

有关使用的一些信息，请参阅

1 回答 1