我正在尝试结合语音识别和说话者分类技术来确定对话中有多少说话者以及哪个说话者说了什么。
为此,我使用CMU Sphinx和LIUM Speaker Diarization。
我可以分别运行这两个工具,即我可以运行 Sphinx 4 并从音频中获取文本输出并运行 LIUM 工具包并获取音频片段。
现在我想将这两者结合起来,得到如下输出:
s0 : this is my first sentence.
s1 : this is my reply.
s2: i do not what you are talking about
有谁知道如何结合这两个工具包?