0

我想预测演讲中“重复”一词的出现次数以及该词的大致持续时间。对于这个任务,我计划建立一个深度学习模型。我有大约 50 个正面和 50 个负面的话语(我无法收集更多)。

最初,我搜索了任何用于关键字发现的预训练模型,但我找不到一个好的模型。

然后我尝试了语音识别模型(Deep Speech),但由于我的数据遵循印度口音,它无法预测确切的重复词。此外,我认为为这项任务选择 ASR 模型将是一种过度杀伤力。

现在,我将整个音频分成 1 秒的块,重叠 50%,并尝试在每个块中进行二进制音频分类,即该块是否包含“重复”一词。为了构建分类模型,我计算了 MFCC 特征并在其之上构建了一个序列模型。似乎没有什么对我有用。

如果有人已经处理过此类任务,请为我提供正确的方法/资源来为该任务构建 DL 模型。提前致谢!

4

0 回答 0