audio - 考虑有一个音频文件，其中一个人阅读了一个句子。如何使用 C、C++ 或 java 程序知道演讲的开始和结束时间

Question

我正在研究自动字幕生成项目。我的方法是 1. 音频提取（使用 ffmpeg 完成） 2. 语音转文本（可以使用 sphinx 4 完成，但不准确） 3. 字幕生成。（这里我需要帮助）

考虑有一个音频文件，其中一个人阅读了一个句子。如何使用 C、C++ 或 java 程序知道演讲的开始和结束时间

我们需要字幕文件中特定行的开始和结束时间。那么在这里如何检索谈话开始和结束的时间？

有任何想法吗？

是否可以使用声学公式来做到这一点。

score 0 · Accepted Answer

我知道已经很晚了。但我已经使用 sphinx4 完成了这项工作。您不需要音频的开始时间。Sphinx4 将为每个识别的单词提供时间。你可以用那个。这篇研究论文很有帮助。

1 回答 1