我正在尝试同时分析音频和视觉特征。我的音频语音特征是使用隐马尔可夫模型工具包以 100fps 采样的梅尔频率倒谱系数。我的视觉特征来自我构建的唇形跟踪程序,采样率为 29.97fps。
我知道我需要插入我的视觉特征,以便采样率也是 100fps,但我找不到关于如何在线执行此操作的很好的解释或教程。我发现的大部分帮助来自语音识别社区,该社区代表读者假设了插值知识,即大多数通过简单的“插值视觉特征以使采样率等于 100fps”来涵盖该步骤。
谁能指出我正确的方向?
太感谢了
我正在尝试同时分析音频和视觉特征。我的音频语音特征是使用隐马尔可夫模型工具包以 100fps 采样的梅尔频率倒谱系数。我的视觉特征来自我构建的唇形跟踪程序,采样率为 29.97fps。
我知道我需要插入我的视觉特征,以便采样率也是 100fps,但我找不到关于如何在线执行此操作的很好的解释或教程。我发现的大部分帮助来自语音识别社区,该社区代表读者假设了插值知识,即大多数通过简单的“插值视觉特征以使采样率等于 100fps”来涵盖该步骤。
谁能指出我正确的方向?
太感谢了