问题标签 [torchaudio]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1252 浏览

python - 如何使用 torchaudio 反转 MelSpectrogram 并获得音频波形?

我有一个MelSpectrogram生成自:

所以eval_seq_specgram现在有一个sizetorch.Size([1, 128, 499])其中 499 是时间步数,128 是n_mels

我正在尝试反转它,所以我正在尝试使用GriffinLim,但在此之前,我认为我需要反转melscale,所以我有:

inverse_mel_predsize一个torch.Size([1, 256, 499])

然后我尝试使用GriffinLim

但我收到一个错误:

不知道我做错了什么或如何解决这个问题。

0 投票
1 回答
216 浏览

python - 将torchaudio加载的16位音频从`float32`截断到`float16`是否安全?

我有多个深度/精度为 16 位的 WAV 文件。torchaudio.info(...)认识到这一点,给我:

然而,当我使用 时torchaudio.load(...),我得到了float32结果张量的 dtype。使用名为 的张量audio,我知道我可以将audio.half()其截断为 16 位,从而减少数据集的内存使用量。但这是一个可以保持所有可能原始值精度的操作吗?我没有将 dtype 的精度降低到原始音频的精度以下,但我可能有充分的理由不知道为什么torchaudio仍然返回float32

0 投票
2 回答
1772 浏览

python - Pip 无法识别 torchaudio 库

当我尝试命令时:

我收到此错误:

我用的是 Windows 10

0 投票
1 回答
3491 浏览

python - 用户警告:torchaudio C++ 扩展不可用

有人可以帮我解决torchaudio中的这个UserWarning吗?

错误信息:

提前致谢!

0 投票
1 回答
462 浏览

python - Torchaudio C++ 扩展不可用 - Python

刚开始学习 Torchaudio,我得到了这个错误。我修复了第一部分,但即使经过一些深入的互联网冲浪,我也找不到修复。我使用 Windows 10。

谢谢你的帮助 !

0 投票
1 回答
454 浏览

python - ModuleNotFoundError:安装 TRT_pose 时没有名为“火炬”的模块

我正在尝试开始使用TRT_pose,但是在尝试从 安装插件时遇到了困难setup.py,使用终端中的这一行:sudo python3 setup.py install --plugins。我得到错误

但是我已经安装了 torch、torchvision 和 torchaudio pip3 install torch==1.9.0+cpu torchvision==0.10.0+cpu torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html,所以我不知道为什么我仍然看到这个错误。我在虚拟机上运行 Ubuntu 20.4,并在其上安装了 Python 3.8.5。

0 投票
1 回答
41 浏览

audio - 我如何知道哪些频谱图帧属于哪些音频样本?

我一直在使用这个脚本:

获得一些立体声音乐音频的频谱图。我预计生成的频谱图的形状为 [2, 257, audio.shape[1]/32] 但是,事实并非如此。例如,大小为 [2, 199488](sr=24576)的音频剪辑会产生大小为 [2, 257, 6241] 的频谱图(请注意,199488/32=6234)。这是为什么?以及如何从帧位置转换为样本位置?

0 投票
0 回答
273 浏览

python - 无法在 kaggle 笔记本中导入 torchaudio

我收到此错误:

导入时torchaudio

重现

我正在使用一个kaggle notebook

刚刚执行了这些行:

环境

  • PyTorch 版本:1.9.0+cu102

  • 是否调试构建:False

  • CUDA 用于构建 PyTorch:10.2

  • ROCM 用于构建 PyTorch:不适用

  • 操作系统:Ubuntu 18.04.5 LTS (x86_64)

  • GCC版本:(Ubuntu 7.5.0-3ubuntu1~18.04)7.5.0

  • Clang 版本:无法收集

  • CMake 版本:3.10.2 版

  • Libc 版本:glibc-2.10

  • Python 版本:3.7.10 | conda-forge 打包| (默认,2021 年 2 月 19 日,16:07:37)[GCC 9.3.0](64 位运行时)

  • Python 平台:Linux-5.4.120+-x86_64-with-debian-buster-sid

  • CUDA 是否可用:真

  • CUDA 运行时版本:11.0.221

  • GPU型号及配置:GPU 0:Tesla P100-PCIE-16GB

  • 英伟达驱动版本:450.119.04

  • cuDNN 版本:可能是以下之一:/usr/lib/x86_64-linux-gnu/libcudnn.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_adv_infer.so.8.0.4 /usr/lib/ x86_64-linux-gnu/libcudnn_adv_train.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_cnn_infer.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_cnn_train.so.8.0.4 / usr/lib/x86_64-linux-gnu/libcudnn_ops_infer.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_ops_train.so.8.0.4 HIP 运行时版本:不适用 MIOpen 运行时版本:不适用

0 投票
0 回答
15 浏览

pytorch - 唤醒词,数据集创建,如何在 Windows 上?

我正在开发一个唤醒词应用程序。我在 coursera 上完成了 Andrew NG 的深度学习专业化课程,并且有一个关于它的作业。因此,我尝试使用 pycharm 上的 pytorch 框架自己复制它,但是当我开始创建训练脚本时,在分配之后,我意识到训练已经完成。我最终将测试和训练文件都作为 .npy 但我不知道如何将它们传递到网络中。

问题是我不知道从哪里开始。所以我在 youtube 上查看了一个创建它但无法使他的存储库工作的人,因为似乎我(或 Windows 可能)对 beckhend 有问题:C++ 的 torchaudio 扩展不可用。

至此,2天后,我完成了想法。我只需要创建数据加载器和训练功能,但我很累。如果有人可以帮助我,或者只是给我一个学习和复制它的好方法,那就太好了,因为我以前从未使用过音频文件,而且我不能简单地用我有的 csv 注释文件创建一个数据集一列与文件路径和另一列与类标签关联,因为这不是一个直接的分类问题(只是因为在唤醒词中每个时间步都有自己的标签,而不是音频文件的标签)。

谢谢!

0 投票
1 回答
89 浏览

python - 如何使用 torchaudio 高通滤波器校正直流偏移?

我在每个瞬态分割鼓音频文件并将音频导出到单独的 wav 文件。问题是,我所有的文件都有一个我似乎无法摆脱的 dc 偏移量,这导致文件末尾出现爆音。我可以使用 Audacity 的内置高通滤波器来验证应用滤波器是否可以解决我的问题,但我还不能用代码复制这些结果。

我的偏好是使用 torchaudio 的 highpass_biquad() 方法,但我也愿意使用 scipy 过滤器。主要目标是删除偏移量,以便音频文件最后不会有爆裂声。

我如何实现高通滤波器来校正直流偏移,就像 Audacity 的高通滤波器一样,如图所示?

torchaudio 方法

scipy方法

图 1 是 torch highpass_biquad 方法的输出。scipy 方法产生类似的结果。

图2是大胆应用高通效果后的音频。这是我的代码所需的输出。

图 3 是未应用高通滤波的输出示例。大多数文件在 0dB 以下居中。

火炬 highpass_biquad 的结果。 与 scipy 方法类似的结果。

在大胆应用高通效果后的音频。 这是我的代码所需的输出

未应用高通滤波的输出示例。 大多数文件居中低于 0dB