问题标签 [pyaudioanalysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-recognition - 语音检测和辨别的开源代码
我有 15 盘录音带,我相信其中的一盘是我祖母和我谈话的旧录音。快速尝试找到合适的地方并没有成功。我不想听 20 个小时的磁带才能找到它。该位置可能不在其中一个磁带的开头。大多数内容似乎分为三类——按总长度、最长的顺序排列:静音、语音广播和音乐。
我打算把所有的磁带都转换成数字格式,然后再找录音。显而易见的方法是在我做其他事情时在后台播放它们。这对我来说太简单了,所以:是否有任何开源库或其他代码可以让我找到,以增加复杂性和实用性:
- 非静音区域
- 包含人类语音的区域
- 包含我自己的演讲(和我祖母的演讲)的区域
我的偏好是 Python、Java 或 C。
失败的答案,关于搜索词的提示将不胜感激,因为我对该领域一无所知。
我知道我可以轻松地在这上面花费 20 多个小时。
python - python - 等长样本的音频分类/'vocoder'thingy
任何人都可以为以下内容提供链接、建议或其他形式的帮助?
目标 - 使用 python 对 10 秒的音频样本进行分类,以便之后我可以对着麦克风说话,让 python 从 db 中挑选并播放最接近匹配的片段(一起淡出)。
我的目标不是获得最接近的匹配,我不在乎音频样本的来源是什么。所以结果可能除了在噪音中说话(有趣)之外没有任何用处。
我希望 python 应用程序能够找到 FFT 的特定匹配,例如在 db 中的 10 秒样本内。我猜麦克风的实时采样会有 100 毫秒的缓冲采样。
有任何想法吗?快速傅里叶变换?什么分贝?其他?
python - Pip 未正确安装软件包
所以我试图让 hmmlearn 在 Jupyter 中工作,我在使用pip
. 我已经尝试过这个解决方案,但没有奏效。
在我看来,pip
确实安装了 _hmmc 文件,但这样做不正确。相反,它有名字
_hmmc.cp35-win_amd64
并且文件扩展名是.PYD
, 而不是.c
当我运行代码来导入它时,我得到了这个错误:
我不知道为什么pip
只是没有正确安装它,即使我尝试使用--no-cache-dir
编辑:所以我想出了问题所在。我的活动 python 环境是 python 3.5,因为我手动将安装的文件传输到我的环境,它失败了,因为我有错误的版本。我不得不更改我的活动 python 环境:使用activate <my_enviroment name>
之后我可以pip
再次使用它来安装它,这次它可以工作了。
python-2.7 - 使用 pyAudioAnalysis 时出现“行包含 NULL 字节”错误
我正在尝试使用 pyAudioAnalysis 对一些音频数据进行回归,而不是此处的说明。但是,当我运行时aT.featureAndTrainRegression(args)
,Error: line contains NULL byte
它会扫描我的 csv 文件。
我已经在网上进行了一些挖掘,并且有很多关于如何从 csv 中删除或忽略空字节的建议,但是我对这些方法没有太多的运气;遍历并删除所有空字节给我留下了一个与原始文件没有相似之处的纯 gobbledygook csv,我犹豫是否尝试另一面:修改audioTrainTest
pyAudioAnalysis 中的代码。我的意思是,有足够多的人使用它,我无法相信每个人都会遇到错误,所以必须有一种方法来解决它,而无需修补库的胆量。
我正在使用 OS10.9 运行 Mac,并在 PyCharm 上使用 Python 2.7。任何建议将不胜感激。提前致谢!
python - pyAudioAnalysis,元组索引超出范围
所以我正在尝试使用pyAudioAnalysis 库制作一个基本的情感分类器,并且我收集了一个小数据样本来测试它是否有效。我的代码如下:
如果我执行此操作,则会出现此错误:
我知道 shape[1]
应该返回数组维度的列。但是为什么它在这里返回错误
python - pyAudioAnalysis 库错误:无法将大小为 4400 的数组重塑为形状 (220,10)
我正在尝试提取 wav 文件的一些功能,我有这个:
我正在使用 pyAudioAnalysis 库的特征提取工具:
https://github.com/tyiannak/pyAudioAnalysis/wiki/3.-Feature-Extraction
问题是我收到了reshape()
numpy 函数的错误。我正在遵循如何在 wiki 中使用特征提取器的指南,如下所示:
这是我得到的错误:
谁能告诉我如何解决重塑的问题以及我做错了什么?
python - 使用 python 进行音频分析时出现 Numpy 内存错误
我在测试超过 100 mb 的音频文件时收到以下错误。我是python新手,所以找不到解决方案:
python - 如何在 python 2 或 python 3 中读取 1GB 的音频文件?
我想用 Python 读取一个大的音频文件。并将其分割成许多波形文件并保存。我下载了一个名为 pyAudioAnalysis 的库,并编写如下代码:
但是,这不能处理超过 1 GB 的文件。有没有办法解决这个问题?谢谢你。
python - Jupyter Notebook 无法识别 Eyed3
我正在尝试使用pyAudioAnalysis库从 mp3 文件中提取功能。我遇到的问题是我无法让我的 Jupyter Notebook 找到 eyed3,这对于图书馆来说是必不可少的。这是我的代码:
当我运行时,我收到此错误:
当我尝试“sudo pip install eyed3”时,我得到以下输出:
当我尝试“brew install eyed3”时,我得到了这个:
看起来好像 eyed3 已经安装了,但我不知道如何让我的笔记本找到它。