我有多个深度/精度为 16 位的 WAV 文件。torchaudio.info(...)认识到这一点,给我:
precision = {int} 16
然而,当我使用 时torchaudio.load(...),我得到了float32结果张量的 dtype。使用名为 的张量audio,我知道我可以将audio.half()其截断为 16 位,从而减少数据集的内存使用量。但这是一个可以保持所有可能原始值精度的操作吗?我没有将 dtype 的精度降低到原始音频的精度以下,但我可能有充分的理由不知道为什么torchaudio仍然返回float32。