问题标签 [audio-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 如何在c#中获取音频文件的频率数组
当我在 C# 中输入音频文件时,我想获得一个频率数组。我从来没有做过任何与这个话题相关的事情,所以我是个菜鸟。如果问题太宽泛,请帮我缩小范围。
python - 如何计算wav文件的瞬时频率
我有一个包含人声录音的 wav 文件。我想计算所说单词的平均频率。通常男性声音高达200hz,女性声音略高。例如。我想要像 170 赫兹这样的答案,但我不知道该怎么做。请帮我。
python - 使用 Librosa 检测节拍能量,找到每个小节的第一个节拍
我需要使用 Librosa 找到峰值的能量,以便检测每个小节的第一个节拍。
我正在使用 Librosa 来检测点击轨道中的音频节拍。这运行良好,但我现在希望检测每个小节的第一个节拍。我相信最好的方法是检测每个节拍的能量或音高。
目前我正在将所有节拍记录到一个数组中。如何检测每个小节的第一个节拍?
python - 如何分析扬声器音频输出以进行频率分析?蟒蛇 3.6
Python 3.6 Ubuntu 18.04
使用 pyaudio 模块,我已经成功录制了从扬声器发出的音频,并且为了测试,我已经能够正确地将其保存到 WAV 文件中。这是一个更大的多线程应用程序的一部分,所以我很高兴看到协调按计划进行。不过,现在我想对数据进行一些音频分析,以收集音频中存在的主要频率。所以,我有几个问题,一个更笼统,因为我很好奇,另一个更具体到我的问题:
1.) 这是我用来捕获音频帧的代码片段:
我的第一个问题是:audio_frame
变量中代表了什么样的数据?我为每个读取操作返回一个 4096 字节的列表(即使AUDIO_FRAME_SIZE_BYTES
设置为 1024),这实际上描述了什么?难道都是纯粹的音频数据,通道数和格式等东西需要以后再提供来重新解释?或者4096字节中是否包含类似的信息?
2.) 对此数据执行频率分析的最佳方法是什么?我看到很多关于对 WAV 文件内容执行 FFT 的最佳方法的信息,但我想实时执行此操作,或者接近它。我看不到同时打开一个 WAV 文件进行读写的方法,所以我基本上无法通过那里传递它。我可以对 中的原始数据执行此分析audio_frame
吗?我想这就是为什么我问我的第一个问题,看看我是否能够遵循这个 SO 答案中的一般逻辑,而不必实际写入 WAV 文件。
先感谢您!
javascript - 我可以使用 webAudio API 从 Chrome 访问本地音频输出流吗?
我正在尝试对在我的计算机上运行的可视化器进行一些音频分析。
是否可以直接从浏览器访问输出音频数据流?
当前使用three.js 和meyda 库运行JavaScript。
我已经弄清楚如何使用 webAudio API 来分析来自麦克风的输入,但似乎无法访问我计算机上的音频输出。
我尝试使用将源连接到目标
但这似乎无济于事。
这是我们当前的监听器配置:
c# - Azure 媒体服务 V3 音频分析器脚本 10 分钟限制
我有一个使用Azure 媒体服务广播视频流的项目,当广播结束时,它会将生成的资产提供给作业以从中提取见解。
问题在于它完美地生成了所有洞察数据,但转录(语音转文本)仅能运行 10 分钟。
我可以看到视频在 30 分钟时分析的缩略图:
但成绩单总是在 10 分钟标记处停止生成数据
广播在我嵌入网站的 AMS 播放器中正确显示,如果我下载广播文件并使用试用帐户将其上传到videoindexer.ai,它会为整个视频生成脚本 OK。
视频索引器选项在那里,但我想避免将另一个服务和 API 链接到应用程序中,因此欢迎任何克服 10 分钟限制的帮助。
rest - 视频中的音频识别
我需要使用一小部分音频从视频中知道确切的时间范围位置。我更喜欢使用外部 api,使用 google、amazon 或 Microsoft 语音/音频解决方案。任何人都知道我可以使用什么?谢谢。
python-3.x - 文件夹的形成冗余
我有以下结构。我想遍历子文件夹(机器、枪击)并处理 .wav 文件并在每个类别中构建 mfccresult 文件夹和其中的 .csv 文件。我有以下代码,并且 MFCC 文件夹在已经形成的 MFCC 文件夹中不断形成。
python-3.x - 元组索引超出范围 - 训练音频模型
我正在尝试分析音频文件并根据提取的特征训练系统,但在拟合模型时出现错误,提示“元组索引超出范围”。我在打印语句旁边的注释中提供了我正在使用的所有数组的形状。你能帮我理解在定义模型时如何定义尺寸吗?
如果需要更多详细信息,请告诉我。
- - - - - - - - - -错误 - - - - - - - - - - - - - - - ----------------------