1

我从 Hugging Face 中获取了 LJ Speech 数据集,用于自动语音识别训练。数据集链接:https ://huggingface.co/datasets/lj_speech 音频的采样率为 22050 Hz。我想将其转换为整个数据集的16000 Hz 。

代码和输出 lj_data['audio'][0]

音频文件描述的输出 截图

4

1 回答 1

1

其实,我找到了答案。Hugging face 有一些神奇的功能,可以对文件进行重采样。

from datasets import load_dataset, load_metric, Audio

#loading data
data = load_dataset("lj_speech")


#resampling training data from 22050Hz to 16000Hz
data['train'] = data['train'].cast_column("audio", Audio(sampling_rate=16_000))

要查看文档:https ://huggingface.co/docs/datasets/audio_process.html

结果:

重采样前 重采样 前 - 22050Hz

重采样后: 重采样后 - 16000Hz

于 2022-02-14T07:23:16.407 回答