问题标签 [torchaudio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 torchaudio 反转 MelSpectrogram 并获得音频波形?
我有一个MelSpectrogram
生成自:
所以eval_seq_specgram
现在有一个size
,torch.Size([1, 128, 499])
其中 499 是时间步数,128 是n_mels
。
我正在尝试反转它,所以我正在尝试使用GriffinLim
,但在此之前,我认为我需要反转melscale
,所以我有:
inverse_mel_pred
有size
一个torch.Size([1, 256, 499])
然后我尝试使用GriffinLim
:
但我收到一个错误:
不知道我做错了什么或如何解决这个问题。
python - 将torchaudio加载的16位音频从`float32`截断到`float16`是否安全?
我有多个深度/精度为 16 位的 WAV 文件。torchaudio.info(...)
认识到这一点,给我:
然而,当我使用 时torchaudio.load(...)
,我得到了float32
结果张量的 dtype。使用名为 的张量audio
,我知道我可以将audio.half()
其截断为 16 位,从而减少数据集的内存使用量。但这是一个可以保持所有可能原始值精度的操作吗?我没有将 dtype 的精度降低到原始音频的精度以下,但我可能有充分的理由不知道为什么torchaudio
仍然返回float32
。
python - Pip 无法识别 torchaudio 库
当我尝试命令时:
我收到此错误:
我用的是 Windows 10
python - 用户警告:torchaudio C++ 扩展不可用
有人可以帮我解决torchaudio中的这个UserWarning吗?
错误信息:
提前致谢!
python - Torchaudio C++ 扩展不可用 - Python
刚开始学习 Torchaudio,我得到了这个错误。我修复了第一部分,但即使经过一些深入的互联网冲浪,我也找不到修复。我使用 Windows 10。
谢谢你的帮助 !
python - ModuleNotFoundError:安装 TRT_pose 时没有名为“火炬”的模块
我正在尝试开始使用TRT_pose,但是在尝试从 安装插件时遇到了困难setup.py
,使用终端中的这一行:sudo python3 setup.py install --plugins
。我得到错误
但是我已经安装了 torch、torchvision 和 torchaudio pip3 install torch==1.9.0+cpu torchvision==0.10.0+cpu torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html
,所以我不知道为什么我仍然看到这个错误。我在虚拟机上运行 Ubuntu 20.4,并在其上安装了 Python 3.8.5。
audio - 我如何知道哪些频谱图帧属于哪些音频样本?
我一直在使用这个脚本:
获得一些立体声音乐音频的频谱图。我预计生成的频谱图的形状为 [2, 257, audio.shape[1]/32] 但是,事实并非如此。例如,大小为 [2, 199488](sr=24576)的音频剪辑会产生大小为 [2, 257, 6241] 的频谱图(请注意,199488/32=6234)。这是为什么?以及如何从帧位置转换为样本位置?
python - 无法在 kaggle 笔记本中导入 torchaudio
我收到此错误:
导入时torchaudio
重现
我正在使用一个kaggle notebook
刚刚执行了这些行:
环境
PyTorch 版本:1.9.0+cu102
是否调试构建:False
CUDA 用于构建 PyTorch:10.2
ROCM 用于构建 PyTorch:不适用
操作系统:Ubuntu 18.04.5 LTS (x86_64)
GCC版本:(Ubuntu 7.5.0-3ubuntu1~18.04)7.5.0
Clang 版本:无法收集
CMake 版本:3.10.2 版
Libc 版本:glibc-2.10
Python 版本:3.7.10 | conda-forge 打包| (默认,2021 年 2 月 19 日,16:07:37)[GCC 9.3.0](64 位运行时)
Python 平台:Linux-5.4.120+-x86_64-with-debian-buster-sid
CUDA 是否可用:真
CUDA 运行时版本:11.0.221
GPU型号及配置:GPU 0:Tesla P100-PCIE-16GB
英伟达驱动版本:450.119.04
cuDNN 版本:可能是以下之一:/usr/lib/x86_64-linux-gnu/libcudnn.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_adv_infer.so.8.0.4 /usr/lib/ x86_64-linux-gnu/libcudnn_adv_train.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_cnn_infer.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_cnn_train.so.8.0.4 / usr/lib/x86_64-linux-gnu/libcudnn_ops_infer.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_ops_train.so.8.0.4 HIP 运行时版本:不适用 MIOpen 运行时版本:不适用
pytorch - 唤醒词,数据集创建,如何在 Windows 上?
我正在开发一个唤醒词应用程序。我在 coursera 上完成了 Andrew NG 的深度学习专业化课程,并且有一个关于它的作业。因此,我尝试使用 pycharm 上的 pytorch 框架自己复制它,但是当我开始创建训练脚本时,在分配之后,我意识到训练已经完成。我最终将测试和训练文件都作为 .npy 但我不知道如何将它们传递到网络中。
问题是我不知道从哪里开始。所以我在 youtube 上查看了一个创建它但无法使他的存储库工作的人,因为似乎我(或 Windows 可能)对 beckhend 有问题:C++ 的 torchaudio 扩展不可用。
至此,2天后,我完成了想法。我只需要创建数据加载器和训练功能,但我很累。如果有人可以帮助我,或者只是给我一个学习和复制它的好方法,那就太好了,因为我以前从未使用过音频文件,而且我不能简单地用我有的 csv 注释文件创建一个数据集一列与文件路径和另一列与类标签关联,因为这不是一个直接的分类问题(只是因为在唤醒词中每个时间步都有自己的标签,而不是音频文件的标签)。
谢谢!
python - 如何使用 torchaudio 高通滤波器校正直流偏移?
我在每个瞬态分割鼓音频文件并将音频导出到单独的 wav 文件。问题是,我所有的文件都有一个我似乎无法摆脱的 dc 偏移量,这导致文件末尾出现爆音。我可以使用 Audacity 的内置高通滤波器来验证应用滤波器是否可以解决我的问题,但我还不能用代码复制这些结果。
我的偏好是使用 torchaudio 的 highpass_biquad() 方法,但我也愿意使用 scipy 过滤器。主要目标是删除偏移量,以便音频文件最后不会有爆裂声。
我如何实现高通滤波器来校正直流偏移,就像 Audacity 的高通滤波器一样,如图所示?
torchaudio 方法
scipy方法
图 1 是 torch highpass_biquad 方法的输出。scipy 方法产生类似的结果。
图2是大胆应用高通效果后的音频。这是我的代码所需的输出。
图 3 是未应用高通滤波的输出示例。大多数文件在 0dB 以下居中。