1

我正在考虑使用 Google Cloud Speech 来转换长格式的旁白音频文件,我需要知道音频文件中每个短语的开始时间。有没有办法用谷歌云语音做到这一点?我目前正在与transcribe_async.py. 谢谢。

4

2 回答 2

1

这对于 Google Cloud Speech 是不可能的。如果该信息对您很重要,您可能需要查看其他 ASR 系统。我知道像KaldiCMU Sphinx这样的离线、非托管 ASR 系统会为您提供这些信息。我不知道是否或哪些托管 ASR 系统可以提供该信息。

于 2017-02-11T06:19:12.237 回答
1

您可以通过将 enableWordTimeOffsets 选项设置为 True 来获取每个单词的(近似)开始和结束时间(从音轨的开头):https ://cloud.google.com/speech/docs/async-time-offsets 。

请注意,成绩单第一个单词的开始时间始终为 0,据我所知,每个单词的开始时间都对应于前一个单词的结束时间(如果有停顿)。

于 2018-02-19T16:31:46.103 回答