speech-recognition - 如何在语音间隙或暂停期间对音频文件进行切片/标记？奥比奥？

Question

我想知道您是否可以帮助建议 aubio（或任何其他类似服务）是否适合我们的业务。可悲的是，我不是开发人员或音响工程师，所以请原谅我的无知......但任何反馈将不胜感激！

目前我们获取一个音频文件，例如一个 1 小时的会议录音，并将其切成更短的音频部分。这样做的问题是解剖音频的残酷方式。如果我们将一个 60 分钟的文件分成 5 分钟的部分，每 5 分钟就有可能将一个单词或句子切成两半，从而导致质量下降，因为听众无法破译半个单词/句子。

我可以看到 aubio 网站将其功能之一列为“在每次攻击之前对声音文件进行分段”。我想知道是否可以使用 aubio 或类似工具来帮助我们更好地分割音频文件？我们希望能够在间隙或语音暂停而不是中间词期间对音频文件进行切片/标记。

任何建议将不胜感激。

亲切的问候汤姆

score 2 · Accepted Answer

检测静音的算法称为“语音活动检测”，如果您在 Google 中搜索，您可以在许多编程语言中找到从简单到高级的许多实现。例如，您可以从http://cmusphinx.sourceforge.net下载 sphinxbase 库，并使用嵌入式工具 sphinx_cont_fileseg 在块上分割文件：

   sphinx_cont_fileseg -i file.wav -w

还有其他实现。据我所知，aubio 内部没有 VAD 实现，尽管您可以使用 aubio 类构建它。Aubio 似乎更专注于音乐分析，而不是语音，并且没有包含 VAD 实现。

一旦您检测到静音，您就可以将其切断，这是一个微不足道的实现部分。不过还是值得找个开发商。

speech-recognition - 如何在语音间隙或暂停期间对音频文件进行切片/标记？奥比奥？

1 回答 1

Related

Reference