signal-processing - 对视频特征进行上采样/插值的简单技术？

Question

我正在尝试同时分析音频和视觉特征。我的音频语音特征是使用隐马尔可夫模型工具包以 100fps 采样的梅尔频率倒谱系数。我的视觉特征来自我构建的唇形跟踪程序，采样率为 29.97fps。

我知道我需要插入我的视觉特征，以便采样率也是 100fps，但我找不到关于如何在线执行此操作的很好的解释或教程。我发现的大部分帮助来自语音识别社区，该社区代表读者假设了插值知识，即大多数通过简单的“插值视觉特征以使采样率等于 100fps”来涵盖该步骤。

谁能指出我正确的方向？

太感谢了

score 1 · Accepted Answer

由于面部运动在视频捕获之前没有经过低通滤波，因此大多数经典的 DSP 插值方法可能不适用。您不妨尝试对特征向量进行线性插值，以从一组时间点到另一组时间点的一组。只需选择 2 个最接近的视频帧并进行插值即可获得更多数据点。如果您的面部跟踪算法测量面部运动的加速度，您也可以尝试样条插值。

1 回答 1