问题标签 [librosa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Librosa 的采样率问题
在使用Librosa库对 16 位 44.1 khz 音频文件执行 STFT 和逆 STFT (iSTFT) 时:
输出只是一个 22 khz 的音频文件。为什么?librosa 的采样率变化在哪里?
python - 如何在 Python 中比较音频的相似性?
我正在使用基于 Python 的音频库 librosa 来分析音符开始事件的音乐音轨。有了这些信息,我将这些音轨分割成几个更小、非常短的片段/片段——所有这些都基于音符开始事件。
有了这些切片,我正在使用 librosa 内置的特征提取工具(如chromagram或MFCC )对其进行分析。输出如下所示:
正如我们所看到的,这些函数输出了一个矩阵,该矩阵保存了有关提取特征的信息。所有这些信息(特征、切片开始和结束、文件名)都将存储到(sqlite)数据库中。切片后的音频数据将被释放。
这些特征以数字方式描述了分析音频的“类型”/声音,是进行相似度计算的良好基础。
拥有所有这些信息(以及具有数百个分析轨道的大型数据库),我希望能够选择一个随机切片并将其与数据库中的所有其他切片进行比较,以找到与所选切片最相似的切片 - 基于提取的特征信息。
我需要做什么来比较上述函数的相似性结果?
python - matplotlib 运行示例 Librosa 脚本中的“分段错误”
在许多问题之后,我在 Linux Mint 18 Mate x64 上安装了 Librosa ( https://github.com/librosa/librosa )。当我想运行示例脚本时,例如:http://librosa.github.io/librosa/generated/librosa.feature.tempogram.html#librosa.feature.tempogram,它会因“Segmentation Fault”错误而崩溃:
我试图逐行调试它,结果如下:
matplotlib 库和 Qt (5.7.0) 可能存在一些问题。此外,我记得我在安装 Librosa 时遇到了很多问题,包括 matplotlib,所以可能是一些安装问题。但是,我不知道如何解决它。我希望有人能为我提供有用的线索。
python - 在python中将完整数组保存为txt
我目前正在尝试对音频文件进行采样并将采样中的信息存储到 txt 文件中。
采样是使用librosa完成的。
当我将它保存到文件时会出现问题......数组没有完全保存,我只能查看几个采样点,其余的都是点状的。
例子:
这就是我的做法:
有什么可以解释为什么我不能保存所有样本点而不是几个?
所需的输出是两个单独的文件 [sample_test,sample_train],其中每一行都包含一个列表。列表中的每个条目都应包含尽可能多的小数,这就是为什么将其存储为浮点数或双精度数会很受欢迎的原因。
python - 为什么我无法输出或存储完整列表?
我目前正在尝试对音频文件进行采样,以便我可以使用这些样本来训练神经网络。问题是我无法查看所有样本,或者将它们存储在一个文件中,这样我就不需要在每次测试程序时都进行采样。
当我打印它或将其存储在文件中时,它会将其存储为...
这似乎没有意义..我如何获得所有的价值?
我正在使用 python 库 librosa 对音频文件进行采样。
这是代码:
我究竟做错了什么?如果可以完整使用,我可以让您访问我正在采样的音频文件。
python - 为什么每个帧的长度不相等?
我目前正在采样和构建一些音频文件,以便我可以将其作为神经网络的输入。我正在使用Librosa对音频进行采样并对其进行构图,尤其是构图非常重要,因为这是作为神经网络需要的输入,这意味着长度必须一致,这似乎是我当前的问题. 帧。
我目前正在这样采样和取景:
每个音频文件都附加到一个列表中,并且对于列表中的每个条目,每个帧都有一个数组。所以 raw_sounds 中的信息是这样存储的:
我似乎对不同大小的帧有问题,每个音频文件都有不同的长度,但是由于我使用相同的设置对其进行帧处理,因此每个帧应该相同,但根据这些打印调试,情况并非如此。
输出:
我设置不正确吗?还是我在这里做错了什么?
原始样本:
python - 如何确保单独的音频文件之间的帧大小一致?
我目前正在尝试回归网络以提取 MFCC 特征。网络的输入是采样和成帧的音频文件,我似乎有一些问题,或者以我得到一致输出的方式进行 - 意味着一致的帧大小,因为它不能作为输入对于神经网络。
我目前正在对每个音频文件进行采样和构图:
这意味着每个音频都附加到一个列表中,并且每个列表中都有一个带有帧音频文件的数组。
我试着打印这个
并得到了这个结果
但为什么我会得到这个结果?我没有更改任何有关框架选项的内容,那么为什么它们会有所不同?
如果没有办法保持一致,那么在输入不一致的情况下,任何人将如何训练能够做到这一点的神经网络?
python - 将窗口函数应用于 librosa 中的框架
我目前正在研究 ASR 系统,但我忘记了对每个帧应用窗口函数。我正在提取,这可能是我收到不良结果的原因。但这可能librosa
吗?
我在 librosa 文档中找不到此选项。
我需要在每个帧上应用一个汉明窗口,这些窗口就是这样提取的。
python - mfcc 特征大小如何影响递归神经网络
所以我正在学习机器学习,想知道 mfcc 特征大小对 RNN(递归神经网络)有何影响?
使用 librosa,我提取了 mfcc,然后提取了 delta 系数,之后我得到了维度数组 [13, sound_length]
用python提取mfcc和delta系数的代码:(y - 声音文件数据,sr - y的长度)
所以理论上,如果我想用这种数据和 n_mfcc=39 的数据来训练网络。谁会更好,为什么?(忽略所有其他超参数)我只想知道这个参数如何影响 RNN 的理论。