“torchaudio”的相关标签问题

0 投票

3 回答

1252 浏览

python - 如何使用 torchaudio 反转 MelSpectrogram 并获得音频波形？

我有一个MelSpectrogram生成自：

所以eval_seq_specgram现在有一个size，torch.Size([1, 128, 499])其中 499 是时间步数，128 是n_mels。

我正在尝试反转它，所以我正在尝试使用GriffinLim，但在此之前，我认为我需要反转melscale，所以我有：

inverse_mel_pred有size一个torch.Size([1, 256, 499])

然后我尝试使用GriffinLim：

但我收到一个错误：

不知道我做错了什么或如何解决这个问题。

2020-11-12T18:06:58.640

0 投票

1 回答

216 浏览

python - 将torchaudio加载的16位音频从`float32`截断到`float16`是否安全？

我有多个深度/精度为 16 位的 WAV 文件。torchaudio.info(...)认识到这一点，给我：

然而，当我使用时torchaudio.load(...)，我得到了float32结果张量的 dtype。使用名为的张量audio，我知道我可以将audio.half()其截断为 16 位，从而减少数据集的内存使用量。但这是一个可以保持所有可能原始值精度的操作吗？我没有将 dtype 的精度降低到原始音频的精度以下，但我可能有充分的理由不知道为什么torchaudio仍然返回float32。

python audio pytorch wav torchaudio

2020-12-10T17:14:51.093

0 投票

2 回答

1772 浏览

python - Pip 无法识别 torchaudio 库

当我尝试命令时：

我收到此错误：

我用的是 Windows 10

python pip pytorch torchaudio

2021-01-29T18:57:58.563

0 投票

1 回答

3491 浏览

python - 用户警告：torchaudio C++ 扩展不可用

有人可以帮我解决torchaudio中的这个UserWarning吗？

错误信息：

提前致谢！

python c++python-3.x pytorch torchaudio

user15309583

2021-03-04T13:19:11.520

0 投票

1 回答

462 浏览

python - Torchaudio C++ 扩展不可用 - Python

刚开始学习 Torchaudio，我得到了这个错误。我修复了第一部分，但即使经过一些深入的互联网冲浪，我也找不到修复。我使用 Windows 10。

谢谢你的帮助！

python pytorch torchaudio

2021-05-18T06:41:47.347

0 投票

1 回答

454 浏览

python - ModuleNotFoundError：安装 TRT_pose 时没有名为“火炬”的模块

我正在尝试开始使用TRT_pose，但是在尝试从安装插件时遇到了困难setup.py，使用终端中的这一行：sudo python3 setup.py install --plugins。我得到错误

但是我已经安装了 torch、torchvision 和 torchaudio pip3 install torch==1.9.0+cpu torchvision==0.10.0+cpu torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html，所以我不知道为什么我仍然看到这个错误。我在虚拟机上运行 Ubuntu 20.4，并在其上安装了 Python 3.8.5。

python torch ubuntu-20.04 torchvision torchaudio

2021-06-22T22:55:15.213

0 投票

1 回答

41 浏览

audio - 我如何知道哪些频谱图帧属于哪些音频样本？

我一直在使用这个脚本：

获得一些立体声音乐音频的频谱图。我预计生成的频谱图的形状为 [2, 257, audio.shape[1]/32] 但是，事实并非如此。例如，大小为 [2, 199488]（sr=24576）的音频剪辑会产生大小为 [2, 257, 6241] 的频谱图（请注意，199488/32=6234）。这是为什么？以及如何从帧位置转换为样本位置？

audio pytorch torchaudio

2021-07-12T22:48:31.587

0 投票

0 回答

273 浏览

python - 无法在 kaggle 笔记本中导入 torchaudio

我收到此错误：

导入时torchaudio

重现

我正在使用一个kaggle notebook

刚刚执行了这些行：

环境

PyTorch 版本：1.9.0+cu102
是否调试构建：False
CUDA 用于构建 PyTorch：10.2
ROCM 用于构建 PyTorch：不适用
操作系统：Ubuntu 18.04.5 LTS (x86_64)
GCC版本：（Ubuntu 7.5.0-3ubuntu1~18.04）7.5.0
Clang 版本：无法收集
CMake 版本：3.10.2 版
Libc 版本：glibc-2.10
Python 版本：3.7.10 | conda-forge 打包| （默认，2021 年 2 月 19 日，16:07:37）[GCC 9.3.0]（64 位运行时）
Python 平台：Linux-5.4.120+-x86_64-with-debian-buster-sid
CUDA 是否可用：真
CUDA 运行时版本：11.0.221
GPU型号及配置：GPU 0：Tesla P100-PCIE-16GB
英伟达驱动版本：450.119.04
cuDNN 版本：可能是以下之一：/usr/lib/x86_64-linux-gnu/libcudnn.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_adv_infer.so.8.0.4 /usr/lib/ x86_64-linux-gnu/libcudnn_adv_train.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_cnn_infer.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_cnn_train.so.8.0.4 / usr/lib/x86_64-linux-gnu/libcudnn_ops_infer.so.8.0.4 /usr/lib/x86_64-linux-gnu/libcudnn_ops_train.so.8.0.4 HIP 运行时版本：不适用 MIOpen 运行时版本：不适用

python pytorch kaggle torchaudio

2021-07-18T00:38:39.747

0 投票

0 回答

15 浏览

pytorch - 唤醒词，数据集创建，如何在 Windows 上？

我正在开发一个唤醒词应用程序。我在 coursera 上完成了 Andrew NG 的深度学习专业化课程，并且有一个关于它的作业。因此，我尝试使用 pycharm 上的 pytorch 框架自己复制它，但是当我开始创建训练脚本时，在分配之后，我意识到训练已经完成。我最终将测试和训练文件都作为 .npy 但我不知道如何将它们传递到网络中。

问题是我不知道从哪里开始。所以我在 youtube 上查看了一个创建它但无法使他的存储库工作的人，因为似乎我（或 Windows 可能）对 beckhend 有问题：C++ 的 torchaudio 扩展不可用。

至此，2天后，我完成了想法。我只需要创建数据加载器和训练功能，但我很累。如果有人可以帮助我，或者只是给我一个学习和复制它的好方法，那就太好了，因为我以前从未使用过音频文件，而且我不能简单地用我有的 csv 注释文件创建一个数据集一列与文件路径和另一列与类标签关联，因为这不是一个直接的分类问题（只是因为在唤醒词中每个时间步都有自己的标签，而不是音频文件的标签）。

谢谢！

pytorch torchaudio

2021-09-10T11:34:56.283

0 投票

1 回答

89 浏览

python - 如何使用 torchaudio 高通滤波器校正直流偏移？

我在每个瞬态分割鼓音频文件并将音频导出到单独的 wav 文件。问题是，我所有的文件都有一个我似乎无法摆脱的 dc 偏移量，这导致文件末尾出现爆音。我可以使用 Audacity 的内置高通滤波器来验证应用滤波器是否可以解决我的问题，但我还不能用代码复制这些结果。

我的偏好是使用 torchaudio 的 highpass_biquad() 方法，但我也愿意使用 scipy 过滤器。主要目标是删除偏移量，以便音频文件最后不会有爆裂声。

我如何实现高通滤波器来校正直流偏移，就像 Audacity 的高通滤波器一样，如图所示？

torchaudio 方法

scipy方法

图 1 是 torch highpass_biquad 方法的输出。scipy 方法产生类似的结果。

图2是大胆应用高通效果后的音频。这是我的代码所需的输出。

图 3 是未应用高通滤波的输出示例。大多数文件在 0dB 以下居中。

python audio scipy signal-processing torchaudio

2021-09-19T06:55:15.860

问题标签 [torchaudio]

重现

环境

Reference