问题标签 [source-separation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
5270 浏览

matlab - Matlab去除人声

我编写了使用 fft 从歌曲中删除人声的程序。在 C# 之前,我决定在 Matlab 中测试降低频率的算法,但无法得到示例中的结果。有噪音。我试过选择任何范围(0.7 - 1.5),但都一样......噪音。我没有什么?请帮我写正确)提前谢谢!

0 投票
1 回答
1235 浏览

algorithm - 鼓声识别算法

我正在考虑尝试制作一个程序,该程序将使用仅包含鼓声的音频文件自动生成鼓标签。

我曾考虑使用 FFT 在 xxxx ms 间隔内获得平均频谱峰值,然后将其与包含该特定架子鼓和音响装置的所有鼓部分(小鼓、墓穴、基鼓等)的表格进行比较。

但我有一种感觉,这不会那么容易。你们对我可以使用哪些方法来解决我的问题有什么建议吗?

//埃里克

0 投票
1 回答
3692 浏览

audio - 用神经网络分离音频信号源

我正在尝试做的是分离音频源并从原始信号中提取其音高。我自己对这个过程进行了建模,如下所示: 分解原始信号的模型 每个源都以正常模式振荡,通常使其分量峰值的频率整数倍增。它被称为谐波。然后共振,最后线性组合。

如上所示,我对音频信号的频率响应模式有很多提示,但几乎不知道如何“分离”它。我已经尝试了无数自己的模型。这是其中之一:

  1. FFT PCM
  2. 获取峰值频率区间和幅度。
  3. 计算音高候选频率区间。
  4. 对于每个音高候选,使用循环神经网络分析所有峰值并找到合适的峰值组合。
  5. 分离分析的音高候选。

不幸的是,到目前为止,我还没有成功地分离信号。我想要任何建议来解决这类问题。尤其是像我上面的源分离建模。

0 投票
2 回答
986 浏览

matlab - 试图在 Matlab 中重新创建鸡尾酒会算法,结果错误?

使用这个声音文件:http ://www.ism.ac.jp/~shiro/research/sounds/RSM/X_rsm2.wav

我正在尝试从 matlab 中的 coursera重新创建 Andrew Ng 的机器学习演示文稿( https://class.coursera.org/ml-005/lecture )

我所做的是读取 .wav 文件(16khz,7 秒,2 个通道)

现在我转置 x

现在我继续在鸡尾酒会算法上使用 x

MATLAB 返回:

分离的音频在哪里?

编辑:通过进一步的研究,我发现 W 只是分解矩阵。这意味着如果我的目标是让两个输出分离的声源,这个算法是不完整的。我该如何处理这个分解矩阵?

0 投票
3 回答
24230 浏览

image-processing - 在这种情况下,熵是什么意思?

我正在阅读一篇图像分割论文,其中使用范式“信号分离”来解决问题,即信号(在本例中为图像)由多个信号(图像中的对象)以及噪声组成,任务是分离出信号(分割图像)。

该算法的输出是一个矩阵, S \in R^{MxT}它表示将图像分割成 M 个分量。T 是图像中的像素总数,s_{ij} 是源分量(/信号/对象)i 在像素 j 处的值

在我正在阅读的论文中,作者希望选择一个m \in [1,M] 与某些平滑度和熵标准匹配的组件 m。但我无法理解在这种情况下熵是什么。

熵定义如下:

H(s_m) = - \sum_{n=1}^{256} p_n (s_m) \cdot log_2 (p_n (s_m)), m= 1,..., M

他们说''是与''{p_n(s_m)}_​{n=1}^{256}的直方图的箱相关联的概率s_m

目标成分是肿瘤,论文中写道:“s_m具有“几乎”恒定值的肿瘤相关成分预计具有最低的熵值。”

但是在这种情况下,低熵意味着什么?每个 bin 代表什么?低熵向量是什么样的?

链接到纸

0 投票
1 回答
63 浏览

python - 在 python 中导入 txt 文件时分隔标题

正如标题所述,我在将标题与具有以下结构的 txt 文件分开时遇到了一些麻烦:

现在这种情况下的标题是“AstraZeneca”。我一直在使用的代码是:

问题是,当我尝试打印第一个标题“namnrad”时,一切正常,但是当我尝试打印第二个标题“namnrad_2”时,我得到“0x109c38270 处文件对象的内置方法读取行”。我应该怎么做才能解决这个问题?先感谢您!

0 投票
0 回答
48 浏览

python - 将音乐与广告分开

我正在对如何将音乐与广告区分开来进行大量研究,以便仅获得广告中提到的单词。我遇到了几种使用 librosa 和 pyaudio 的方法,其中讨论了设置高通/低通滤波器。我试过了,但音乐仍然在广告中。

我要研究的另一种方法是扬声器分类。但是,我还不知道如何解决这个问题。有一些可用的深度学习架构,但它们可能无法区分音乐和非音乐。

有人对此有更好的主意吗?

干杯,安迪

0 投票
0 回答
81 浏览

python - Python 与 Matlab 中的 FastICA 性能

我正在尝试从 Python 中的 Matlab 移植以下 ICA 实现。据我了解,它使用带有双曲余弦作为对比函数的紧缩正交化。

通过 sklearn使用FastICA 可以获得令人满意的结果,但与 Matlab 相比执行时间非常慢。

作为比较,以下示例数据的执行时间如下:

  • Python(deflation算法):4.97 秒
  • Python(parallel算法):0.04 秒
  • Matlab:0.04 秒

奇怪的deflation是,Python 中的 FastICA 算法比 Matlab 实现或 Python 中的 FastICA 算法慢 100 倍以上paralell

为什么会有这种巨大的差异,尤其是 Matlab 和 Python 版本之间的差异?我不是 ICA 专家,因此可能缺少我的配置。

这是用于生成示例数据和分析执行时间的 Python 代码:

这是用于在 Matlab 中分析的代码(使用coshFpDeIca.m):