我从 Hugging Face 中获取了 LJ Speech 数据集,用于自动语音识别训练。数据集链接:https ://huggingface.co/datasets/lj_speech 音频的采样率为 22050 Hz。我想将其转换为整个数据集的16000 Hz 。
代码和输出
lj_data['audio'][0]
音频文件描述的输出 截图
其实,我找到了答案。Hugging face 有一些神奇的功能,可以对文件进行重采样。
from datasets import load_dataset, load_metric, Audio
#loading data
data = load_dataset("lj_speech")
#resampling training data from 22050Hz to 16000Hz
data['train'] = data['train'].cast_column("audio", Audio(sampling_rate=16_000))
要查看文档:https ://huggingface.co/docs/datasets/audio_process.html
结果:
重采样前 重采样 前 - 22050Hz
重采样后: 重采样后 - 16000Hz