问题标签 [audio-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Marf 音频分析:我在哪里可以找到 SpeakerIdent 应用程序的数据?
我正在使用 marf 的 SpeakerIdentApp 进行音频分析。我想用比 speakerIdentApp 提供的更多数据来探索它。我尝试使用以下位置的一些波形文件:http : //www.wavsource.com/ 但这些文件不受 marf 支持。
然后尝试 SOX 将文件转换为 16 位。但是文件是 MP3 编码的,它不支持 mp3 编码 wav 文件。
所以我的问题是找到 marf 16-bit wave files 支持的数据。
python-2.7 - Python 中的音频分析
我正在使用具有 4 个麦克风输入的外部声卡设备,它通过 USB 连接到我的笔记本电脑。所以我需要对来自麦克风的音频进行采样,并制作一个条形图或任何图形,显示哪个麦克风捕获了第一、第二、第三和第四个声音!我曾想过在 csv 文件中捕获该信息,然后制作图表?请问有什么帮助吗?
Thank you!!
audio - 如何检测时间格式声波中的平均音高?
对于像 OpenAL 麦克风捕获产生的声波输入,如何检测波中的“平均”音高?(例如,如果它是 440 赫兹的小提琴录音,我想返回 ~440 赫兹)。什么是最基本/最直观的方式?有理由使用不同的方法吗?
谢谢
java - 检测音频文件中的特定声音
我有带有录制节拍器的 PCM 文件。我想以编程方式检测文件中的节拍器节拍。我怎样才能做到这一点?你能推荐一些算法或声音分析库吗?
html5-audio - 使用 Web Audio API 分析未来 x 秒的音频
我正在使用 aAnalyserNode
来分析 a 提供的音频MediaElementAudioSourceNode
。有没有办法对未来播放 x 秒的音频进行采样和分析?
python - 如何理解音频分析中的傅立叶变换结果
我正在用 Python 进行音频分析。我的最终目标是获取频率列表及其各自的音量,例如{ frequency : volume (0.0 - 1.0) }
.
我将音频数据作为帧列表,其值介于-1.0
和之间+1.0
。我在这个列表中使用了 numpy 的傅立叶变换—— numpy.fftpack.fft()
。但结果数据对我来说毫无意义。
我确实了解傅立叶变换从时域转换到频域,但在数学上并不完全是这样。这就是为什么我不太了解结果的原因。
- 返回的列表中的值
numpy.fftpack.fft()
是什么意思?我如何使用它/解释它? - 如上所述对列表执行的傅立叶变换的最大/最小值是多少?
- 如何以表格形式实现字典的最终目标
{ frequency : volume (0.0 - 1.0) }
?
谢谢你。抱歉,如果我对傅立叶变换的理解不足让您大吃一惊。
ios - iOS 中的音频处理以获取音量和音高
我正在尝试在 iOS7 上创建一个实时音频分析器。我希望得到的是来自 iPod Touch Gen 5 上的本地麦克风的音量和音高,并连同时间戳一起写入 CSV。我想把它分成 7 个通道,并以 8Hz 采样。我查看了一堆文档和代码示例,但无法正常工作。
我现在正试图从头开始做一些简单的事情,但在我看来,没有什么可以概述我如何实现我上面提到的。
最近,我尝试AVAudioSessionCategoryAudioProcessing
希望能够将其用于信号处理,但音频会话文档建议只能进行自动信号处理......并且只能在语音或视频聊天模式下进行。
音频会话是否有一种简单的方法来获得我正在寻找的东西?
python - 使用 Twilio 进行应答机检测 (AMD) .. 但事后
问题
想要检测来电是由人还是机器应答。
细节
我正在使用 Twilio。Twilio 确实有这个功能。但是,在他们的系统中实现它的方式似乎不适合我的用例。
Twilio 使用应答机检测来控制呼叫流程。因此,Twilio 会在呼叫连接后等待几秒钟,以分析呼叫中的音频以查看它是否是应答机。在延迟呼叫并执行此分析之前,它不会继续连接呼叫。
对于我的用例。电话由人或机器接听的天气不会影响通话流程……因此无需延迟。它只影响以后需要的统计信息。即在这种情况下“我付钱接听电话的人实际上接听电话的频率是多少,而不是错过电话并让它转到语音邮件?”
所有来电都转接到电话。一般是手机。
问题
有没有办法在事后检测呼叫是否由人或机器接听,但使用 Twilio 不会延迟?
如果没有,是否有另一种我没有想到的模式可以用来实现相同的目标?(检测员工接听电话的频率,而不是未接电话的频率)
我考虑过的其他事情
- 延长手机响铃次数,然后让 Twilio 接收语音邮件,而不是手机提供商的语音邮件。
- 此解决方案的问题在于,许多手机提供商不允许您更改在语音邮件接听之前电话响铃的次数。更难的是不设置响铃次数。手机供应商可能需要或多或少的时间来定位电话,这将计入电话在进入语音邮件之前响铃的时间。
- 在我自己的应用程序中实现应答机检测 (Python)
- 这可能是一个可行的替代方案。这里的问题是,我对如何使用 Python 来分析音频文件以查看它听起来像是人还是机器拾起的知之甚少。
audio - 在文件描述符上连续运行 aubiopitch
我想aubiopitch
用来连续输出来自输入源的信号频率。因为aubiopitch
喜欢让它的输入是一个文件,而不是一个流,所以我尝试使用进程替换:
我希望这能输出从我的默认音频输入设备读取的信号频率。相反,我得到了这个:
问题似乎不在于sox
,因为此命令工作正常:
它创建了一个output.wav
似乎没有什么问题的文件,aubiopitch
当然除了:
这里发生了什么?RIFF 标头的长度设置是否错误?
如果重要的话,我正在运行 OSX 10.7.5 并且我重新编译了 aubio 以使用我的旧 OSX 版本。
android - AudioRecord:连续记录音频数据并同时进行分析
我正在尝试使用 android 中的 AudioRecord 对象将音频数据记录到字节数组中,同时对记录的数据进行一些分析。但我不确定该怎么做。如果我直接使用字节数组,应用程序就会崩溃。我需要一个字节数组作为分析线程的输入我对 android 开发相对较新,我将不胜感激有关此主题的任何帮助。谢谢