我有多个深度/精度为 16 位的 WAV 文件。torchaudio.info(...)
认识到这一点,给我:
precision = {int} 16
然而,当我使用 时torchaudio.load(...)
,我得到了float32
结果张量的 dtype。使用名为 的张量audio
,我知道我可以将audio.half()
其截断为 16 位,从而减少数据集的内存使用量。但这是一个可以保持所有可能原始值精度的操作吗?我没有将 dtype 的精度降低到原始音频的精度以下,但我可能有充分的理由不知道为什么torchaudio
仍然返回float32
。