1

假设我有该音频的音频和纯文本副本,我如何使用语音识别以编程方式从两者生成字幕?

这与 YouTube 在编辑视频时在其字幕/字幕页面上提供的内容非常相似。

有哪些 API 可用于执行此操作?它有哪些挑战?

我最精通 Java/C#,但这与语言无关。

4

1 回答 1

3

这称为时间戳或对齐。CMUSphinx项目项目有一个特定的工具。您可以从 subversion 中查看它。

http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/branches/long-audio-aligner/

有关使用的一些信息,请参阅

http://cmusphinx.sourceforge.net/?s=long+audio+aligner

于 2012-07-03T17:38:47.053 回答