我正在搜索有关识别音频文件中重复语音片段的最佳方法的信息。
假设有人正在录制自己说的一段文字,有时他会被一句话噎住,停下来,然后从句子的乞求重新开始。他也可能对同一部分进行两次或三次拍摄,以便在最终剪辑中保留最好的部分。
所以我的问题是:将这些片段检测为相同或围绕相同文本变体的最佳方法是什么?
我在想的是做一些语音到文本,然后对结果进行一些文本比较。我将能够识别出非常接近的字符串,然后将相应的音频片段标记为“相同”。
但我想知道是否有某种方法可以直接在音频文件上执行此操作。我听说过音频指纹,但我不确定它是否会在这里起作用,因为这个人可能不会以完全相同的方式发音这两个句子(添加静音甚至稍微改变一些单词)。
是否有人已经做过类似的事情,或者已经使用过这些工具并且可以就它们的可能性和局限性给我反馈?