python - 如何通过 parselmouth 在音频子序列上计算音频指标

Question

我正在使用parselmouth（praat 周围的包装器）通过这样做来提取强度和音高特征：

snd = parselmouth.Sound(path)

intensity = snd.to_intensity()
pitch = snd.to_pitch()

但是，音频文件包含长序列的静音，我想在计算这些音频指标之前将其删除。我可以通过处理通过 wave 包读取音频（并应用一些逻辑）返回的 numpy 数组来消除静音，但无法将新数组传递给 parselmouth。

我什至愿意为 parselmouth 提供 startTime 和 endTime 参数，但也找不到支持该参数的文档。

score 1 · Accepted Answer

有两个选项可能对这种情况有用：

您可以从样本创建一个parselmouth.Sound而不是从文件中读取。有一个构造函数采用 NumPy 数组（或可转换为 NumpyArray 的列表/可迭代）和采样频率
ParselmouthSound也有一个方法Sound.extract_part（相当于 UI 中 Praat 的“提取部分...”按钮），它允许您提取片段（甚至可以选择使用与矩形窗口不同的窗口形状进行窗口化）。

请注意，在移除静音时，您可能希望留出一点余量，因为 1) 强度和音高分析都使用一定大小的滑动窗口（因此，如果您不留余量，一些窗口将超过“不连续语音”），以及 2）音高分析使用启发式方法来保持 +- 连续音高轮廓（因此，如果您没有留下检测到静音/没有发声的余量，则相邻片段的音高估计会相互影响）。

1 回答 1