问题标签 [pyaudioanalysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
26326 浏览

speech-recognition - 语音检测和辨别的开源代码

我有 15 盘录音带,我相信其中的一盘是我祖母和我谈话的旧录音。快速尝试找到合适的地方并没有成功。我不想听 20 个小时的磁带才能找到它。该位置可能不在其中一个磁带的开头。大多数内容似乎分为三类——按总长度、最长的顺序排列:静音、语音广播和音乐。

我打算把所有的磁带都转换成数字格式,然后再找录音。显而易见的方法是在我做其他事情时在后台播放它们。这对我来说太简单了,所以:是否有任何开源库或其他代码可以让我找到,以增加复杂性和实用性:

  1. 非静音区域
  2. 包含人类语音的区域
  3. 包含我自己的演讲(和我祖母的演讲)的区域

我的偏好是 Python、Java 或 C。

失败的答案,关于搜索词的提示将不胜感激,因为我对该领域一无所知。

我知道我可以轻松地在这上面花费 20 多个小时。

0 投票
3 回答
1074 浏览

python - python - 等长样本的音频分类/'vocoder'thingy

任何人都可以为以下内容提供链接、建议或其他形式的帮助?

目标 - 使用 python 对 10 秒的音频样本进行分类,以便之后我可以对着麦克风说话,让 python 从 db 中挑选并播放最接近匹配的片段(一起淡出)。

我的目标不是获得最接近的匹配,我不在乎音频样本的来源是什么。所以结果可能除了在噪音中说话(有趣)之外没有任何用处。

我希望 python 应用程序能够找到 FFT 的特定匹配,例如在 db 中的 10 秒样本内。我猜麦克风的实时采样会有 100 毫秒的缓冲采样。

有任何想法吗?快速傅里叶变换?什么分贝?其他?

0 投票
3 回答
2106 浏览

python - Pip 未正确安装软件包

所以我试图让 hmmlearn 在 Jupyter 中工作,我在使用pip. 我已经尝试过这个解决方案,但没有奏效。

在我看来,pip确实安装了 _hmmc 文件,但这样做不正确。相反,它有名字

_hmmc.cp35-win_amd64

并且文件扩展名是.PYD, 而不是.c

当我运行代码来导入它时,我得到了这个错误:

我不知道为什么pip只是没有正确安装它,即使我尝试使用--no-cache-dir

编辑:所以我想出了问题所在。我的活动 python 环境是 python 3.5,因为我手动将安装的文件传输到我的环境,它失败了,因为我有错误的版本。我不得不更改我的活动 python 环境:使用activate <my_enviroment name> 之后我可以pip再次使用它来安装它,这次它可以工作了。

0 投票
1 回答
154 浏览

python-2.7 - 使用 pyAudioAnalysis 时出现“行包含 NULL 字节”错误

我正在尝试使用 pyAudioAnalysis 对一些音频数据进行回归,而不是此处的说明。但是,当我运行时aT.featureAndTrainRegression(args)Error: line contains NULL byte它会扫描我的 csv 文件。

我已经在网上进行了一些挖掘,并且有很多关于如何从 csv 中删除或忽略空字节的建议,但是我对这些方法没有太多的运气;遍历并删除所有空字节给我留下了一个与原始文件没有相似之处的纯 gobbledygook csv,我犹豫是否尝试另一面:修改audioTrainTestpyAudioAnalysis 中的代码。我的意思是,有足够多的人使用它,我无法相信每个人都会遇到错误,所以必须有一种方法来解决它,而无需修补库的胆量。

我正在使用 OS10.9 运行 Mac,并在 PyCharm 上使用 Python 2.7。任何建议将不胜感激。提前致谢!

0 投票
2 回答
958 浏览

python - pyAudioAnalysis,元组索引超出范围

所以我正在尝试使用pyAudioAnalysis 库制作一个基本的情感分类器,并且我收集了一个小数据样本来测试它是否有效。我的代码如下:

如果我执行此操作,则会出现此错误:

我知道 shape[1]应该返回数组维度的列。但是为什么它在这里返回错误

0 投票
0 回答
267 浏览

python - Python 音频分析 - wavfile.read()

对于我的音频分析项目,我下载了几个 .wav 文件,同时将一些 .mp3 文件转换为 .wav 文件。但是当使用 wavfile.read() 函数读取这些 .wav 文件时。返回数据的维度因文件而异。考虑我的代码来读取 .wav 文件 -

读取 B128.wav 时的输出是 -

在此处输入图像描述

读取文件 song.wav 时的输出 -

在此处输入图像描述

文件 B128.wav 是从网站下载的,而 song.wav 是使用在线转换器工具将 .mp3 文件转换为 .wav 的。

我的问题是为什么数据部分对于相同的文件格式具有不同的维度以及如何将它们转换为 (1xN) 维度

0 投票
1 回答
2064 浏览

python - pyAudioAnalysis 库错误:无法将大小为 4400 的数组重塑为形状 (220,10)

我正在尝试提取 wav 文件的一些功能,我有这个:

https://s3-us-west-2.amazonaws.com/music-emotions/ambient/13+Clock+in+the+Morning+-+Waiters+the+Free+Music+Archive+(No+Copyright+Music) .wav

我正在使用 pyAudioAnalysis 库的特征提取工具:

https://github.com/tyiannak/pyAudioAnalysis/wiki/3.-Feature-Extraction

问题是我收到了reshape()numpy 函数的错误。我正在遵循如何在 wiki 中使用特征提取器的指南,如下所示:

这是我得到的错误:

谁能告诉我如何解决重塑的问题以及我做错了什么?

0 投票
1 回答
70 浏览

python - 使用 python 进行音频分析时出现 Numpy 内存错误

我在测试超过 100 mb 的音频文件时收到以下错误。我是python新手,所以找不到解决方案:

0 投票
0 回答
196 浏览

python - 如何在 python 2 或 python 3 中读取 1GB 的音频文件?

我想用 Python 读取一个大的音频文件。并将其分割成许多波形文件并保存。我下载了一个名为 pyAudioAnalysis 的库,并编写如下代码:

但是,这不能处理超过 1 GB 的文件。有没有办法解决这个问题?谢谢你。

0 投票
1 回答
767 浏览

python - Jupyter Notebook 无法识别 Eyed3

我正在尝试使用pyAudioAnalysis库从 mp3 文件中提取功能。我遇到的问题是我无法让我的 Jupyter Notebook 找到 eyed3,这对于图书馆来说是必不可少的。这是我的代码:

当我运行时,我收到此错误:

当我尝试“sudo pip install eyed3”时,我得到以下输出:

当我尝试“brew install eyed3”时,我得到了这个:

看起来好像 eyed3 已经安装了,但我不知道如何让我的笔记本找到它。