1

我是语音处理的新手。所以请原谅我的无知。我收到了一个简短的语音信号(10 秒),并被要求使用 MATLAB 或 Wavesufer 软件手动注释音高。现在如何找到语音信号的音高?是否有任何理论资源可以帮助解决这个问题?我尝试使用 Wavesurfer 绘制信号的音高轮廓。对吗?

编辑 1:我的工作是为我们的数据应用各种音高检测算法并比较它们的准确性。所以手动注释的音高作为参考。

更新 1:我通过区分 EGG (dEGG) 信号获得了 GCI (Glottal Closure Instants),而 dEGG 中的峰值是 GCI。两个连续 GCI 之间的时间间隔是音调周期 (s)。音调周期的倒数是音调(hz)。

更新 2:SIGMA 是一种著名的自动 GCI 检测算法。

感谢大家。

4

1 回答 1

1

通常在伴随 EGG 记录的信号上获得基本事实。EGG 是Electrogastrogram的缩写,它是一种记录真实音高的特殊设备。

由于我怀疑您是否可以使用此类设备,因此我建议您使用现有数据库进行为该任务精心准备的音高提取评估。你可以在这里下载。该数据由 Paul Bagshaw 在爱丁堡大学收集

我建议你也阅读他的论文。

如果您想与最先进的音高提取算法进行比较,请查看https://github.com/google/REAPER。另请注意,“真实”音高可能不是后续算法的最佳特征。有时您可能会提取错误的音调,但会获得更好的准确性,例如语音识别。查看此出版物的更多信息。

于 2016-09-06T11:55:19.680 回答