python - 如何在声学数据集上应用数据增强？

Question

我有一个小的人类声音声学数据集，我想对其进行扩充，然后将其传递给二进制分类器。

我熟悉图像的数据增强，但声学数据集是如何完成的？

我用 Pytorch & TorchAudio找到了 2 个关于自动编码器和SpecAugment 的相关答案，但我想听听您对特定于音频的“最佳方法”的看法。

score 0 · Accepted Answer

这实际上取决于您要实现的目标、分类器的设计目的以及它的工作方式。

根据上述情况，您可以例如以不同的方式剪切音频（如果您正在为分类器提供剪切的音频片段，这在您的特定情况下是有意义的）。您还可以使用具有不同信噪比的一些背景噪声（如白噪声或录制的人工噪声）来增强它 - 这应该另外使分类器对噪声更加鲁棒。

1 回答 1