我正在研究自动字幕生成项目。我的方法是 1. 音频提取(使用 ffmpeg 完成) 2. 语音转文本(可以使用 sphinx 4 完成,但不准确) 3. 字幕生成。(这里我需要帮助)
考虑有一个音频文件,其中一个人阅读了一个句子。如何使用 C、C++ 或 java 程序知道演讲的开始和结束时间
我们需要字幕文件中特定行的开始和结束时间。那么在这里如何检索谈话开始和结束的时间?
有任何想法吗?
是否可以使用声学公式来做到这一点。
我正在研究自动字幕生成项目。我的方法是 1. 音频提取(使用 ffmpeg 完成) 2. 语音转文本(可以使用 sphinx 4 完成,但不准确) 3. 字幕生成。(这里我需要帮助)
考虑有一个音频文件,其中一个人阅读了一个句子。如何使用 C、C++ 或 java 程序知道演讲的开始和结束时间
我们需要字幕文件中特定行的开始和结束时间。那么在这里如何检索谈话开始和结束的时间?
有任何想法吗?
是否可以使用声学公式来做到这一点。
我知道已经很晚了。但我已经使用 sphinx4 完成了这项工作。您不需要音频的开始时间。Sphinx4 将为每个识别的单词提供时间。你可以用那个。这篇研究论文很有帮助。