问题标签 [torchaudio]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
382 浏览

pytorch - torchaudio:打开“_sample_data\\steam.mp3”时出错:文件包含未知格式的数据

我是手电筒音频的新手,我正在逐步遵循本教程。我在mp3使用torchaudio.info(path).

这是我的代码:

这是我得到的错误:

  • torch: v1.9.1+cpu
  • torchaudio: v0.9.1
0 投票
0 回答
360 浏览

python - 将熊猫数据框转换为火炬数据集

我有一个具有以下结构的熊猫数据框:

小路 句子 演讲 输入值 标签
音频1.mp3 这是第一个音频 [[0.0, 0.0, 0.0, ..., 0.0, 0.0]] [[0.00005, ..., 0.0003]] [23, 4, 6, 11, ..., 12
音频2.mp3 这是第二个音频 [[0.0, 0.0, 0.0, ..., 0.0, 0.0]] [[0.000044, ..., 0.00033]] [23, 4, 6, 11, ..., 12

句子是音频的转录,语音列是音频的数组表示,标签是基于定义的词汇表的句子每个字母的数字表示。

我正在微调一个预训练的 ASR 模型,但是当我尝试将 pandas df 传递给 Trainer 类并调用.train()它时,它会出错(KeyError:0)。从文档中,它只接受torch.utils.data.Datasettorch.utils.data.IterableDataset作为 train_/eval_dataset 参数。这就是我的 Trainer 定义的样子:

ds_train 和 ds_test 分别是我的训练和验证数据框。我只是拆分了我的主要数据框(80/20)。如何将我的 pandas 数据帧转换为所需的数据集类型?我尝试将data_collator类定义定制为 pandas df,但可以预见的是,这也不起作用。我假设data_collator当您调用.train()培训师时,火车和评估数据集都调用了课程?

编辑:我尝试使用Dataset.from_pandas(ds_train)但它无法转换它,因为我有带有二维数组的列,它显然只能转换一维数组值。

0 投票
0 回答
22 浏览

python - 使用 torchaudio.load(filename) 加载固定持续时间的波形

我想从 wav 文件加载一个固定持续时间的波形,以便如果持续时间低于 5 秒,则波形填充为 0,如果持续时间长于 5 秒,则仅使用前 5 秒。我该怎么做?

0 投票
0 回答
20 浏览

jupyter-notebook - 无法使用 torchaudio 更改 jupyter notebook 中的 mp3 文件采样率

我对 jupyter notebook 有点陌生,我试图改变一些 mp3 文件的采样率:

但我在尝试读取 mp3 文件时收到以下错误:

RuntimeError:打开“D:/Apps/Common/content/cv-corpus-6.1-2020-12-11/fa/clips/common_voice_fa_19399474.mp3”时出错:文件包含未知格式的数据。

有小费吗?

0 投票
0 回答
33 浏览

python - 如何在 PyTorch 中使 Mel Spectrograms 大小相同

我有可变长度的波形,但相同的通道数和采样率等等。我在 Mel Spectrograms 中需要它们,我正在尝试使用 pytorch 函数将它们填充到相同的长度,pad_sequence但由于它们之间的时间不同,它不会这样做。我不断得到non-singleton dimension 2 is not the same

任何有关如何解决此问题的想法将不胜感激。

0 投票
0 回答
17 浏览

python-3.x - 如何访问由 torchaudio.info(filepath) 返回的对象

在文件路径上实现 torchaudio.info 后,我得到的返回值与文档中指定的不同。

这里的代码返回<torchaudio.backend.common.AudioMetaData object at 0x000001908CFB3B20>

虽然我需要按照文档指定的方式返回以下表格

0 投票
0 回答
18 浏览

python - 批处理正在传递 List 而不是 Array

我正在运行一个函数,该函数将读取音频文件并将其转换为 numpy.darray 但在批量处理时,它将 numpy 数组转换为列表。

在这方面需要帮助。

0 投票
2 回答
31 浏览

python - Python音高调制(不移位)

我想为机器学习项目增加我的音频数据。我正在寻找一种方法来逐渐调制音频剪辑的音高以模拟多普勒效应。从我所见,Librosa 和 Torchaudio 仅支持基本的音高转换功能,除了在 GarageBand 或其他一些 DAW 中手动执行之外,我不知道如何处理这个问题 :) 谢谢!

0 投票
0 回答
24 浏览

python - RuntimeError: 形状 [39239, 1] 的输出与广播形状 [39239, 2] 不匹配

我正在从本地计算机加载音频文件,因此使用torchaudio. 我正在创建一个collate_fn为每个批次填充序列的方法,如下所示:

然后当我创建一个迭代器如下

当使用它运行的代码运行单元格时:

但是,当我继续运行单元时,突然随机批次出现以下错误:

我在这里可能有什么问题?

0 投票
0 回答
61 浏览

pytorch - 无法导入模块 torchaudio.prototype

我想使用 torchaudio ctc_decoder 模块制作 ctc_decoder。根据本教程使用 CTC 解码器的ASR 推理 ,它应该像往常一样容易导入,但即使在安装了 torchaudio 之后,我也无法在 google colab 中这样做。它说ModuleNotFoundError: No module named 'torchaudio.prototype' 如何导入原型模块?