audio - google的audioset中的音频特征提取使用什么算法？

Question

我开始使用 Google 的Audioset。虽然数据集很广泛，但我发现有关音频特征提取的信息非常模糊。该网站提到

以 1Hz 提取的 128 维音频特征。使用 Hershey 等人描述的 VGG 启发声学模型提取音频特征。al.，在 YouTube-8M 的初步版本上进行了培训。这些功能经过 PCA 编辑和量化，以与 YouTube-8M 提供的音频功能兼容。它们存储为 TensorFlow Record 文件。

在论文中，作者讨论了在 960 ms 块上使用 mel 频谱图来获得 96x64 表示。然后我不清楚他们如何获得 Audioset 中使用的 1x128 格式表示。有人知道更多吗？

score 2 · Accepted Answer

他们使用96*64数据作为修改VGG网络的输入。最后一层VGG是FC-128，所以它的输出是1*128，这就是原因。

的架构VGG可以在这里找到：https ://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py

audio - google的audioset中的音频特征提取使用什么算法？

1 回答 1

Related

Reference