假设我有该音频的音频和纯文本副本,我如何使用语音识别以编程方式从两者生成字幕?
这与 YouTube 在编辑视频时在其字幕/字幕页面上提供的内容非常相似。
有哪些 API 可用于执行此操作?它有哪些挑战?
我最精通 Java/C#,但这与语言无关。
假设我有该音频的音频和纯文本副本,我如何使用语音识别以编程方式从两者生成字幕?
这与 YouTube 在编辑视频时在其字幕/字幕页面上提供的内容非常相似。
有哪些 API 可用于执行此操作?它有哪些挑战?
我最精通 Java/C#,但这与语言无关。
这称为时间戳或对齐。CMUSphinx项目项目有一个特定的工具。您可以从 subversion 中查看它。
http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/branches/long-audio-aligner/
有关使用的一些信息,请参阅