0

我正在研究自动字幕生成项目。我的方法是 1. 音频提取(使用 ffmpeg 完成) 2. 语音转文本(可以使用 sphinx 4 完成,但不准确) 3. 字幕生成。(这里我需要帮助)

考虑有一个音频文件,其中一个人阅读了一个句子。如何使用 C、C++ 或 java 程序知道演讲的开始和结束时间

我们需要字幕文件中特定行的开始和结束时间。那么在这里如何检索谈话开始和结束的时间?

有任何想法吗?

是否可以使用声学公式来做到这一点。

4

1 回答 1

0

我知道已经很晚了。但我已经使用 sphinx4 完成了这项工作。您不需要音频的开始时间。Sphinx4 将为每个识别的单词提供时间。你可以用那个。这篇研究论文很有帮助。

于 2015-08-25T13:35:58.347 回答