audio - 对数据集中的 Wav 音频文件进行下采样

Question

我从 Hugging Face 中获取了 LJ Speech 数据集，用于自动语音识别训练。数据集链接：https ://huggingface.co/datasets/lj_speech 音频的采样率为 22050 Hz。我想将其转换为整个数据集的16000 Hz 。

代码和输出 lj_data['audio'][0]

音频文件描述的输出截图

score 1 · Accepted Answer

其实，我找到了答案。Hugging face 有一些神奇的功能，可以对文件进行重采样。

from datasets import load_dataset, load_metric, Audio

#loading data
data = load_dataset("lj_speech")


#resampling training data from 22050Hz to 16000Hz
data['train'] = data['train'].cast_column("audio", Audio(sampling_rate=16_000))

要查看文档：https ://huggingface.co/docs/datasets/audio_process.html

结果：

重采样前重采样前 - 22050Hz

重采样后：重采样后 - 16000Hz

audio - 对数据集中的 Wav 音频文件进行下采样

1 回答 1

Related

Reference