问题标签 [sound-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - Phonegap 的声音识别
我正在使用 Phonegap 创建一个 Android 应用程序。我想录制声音(例如,门铃),并检测是否再次听到该声音。Phonegap 有声音识别插件吗?
如果没有,我如何访问录制的声音的频率(例如,在一个数组中),以便我可以手动编写一个算法来比较两个音频文件?是否有任何音频格式以这种形式存储数据?
谢谢
audio - google的audioset中的音频特征提取使用什么算法?
我开始使用 Google 的Audioset。虽然数据集很广泛,但我发现有关音频特征提取的信息非常模糊。该网站提到
以 1Hz 提取的 128 维音频特征。使用 Hershey 等人描述的 VGG 启发声学模型提取音频特征。al.,在 YouTube-8M 的初步版本上进行了培训。这些功能经过 PCA 编辑和量化,以与 YouTube-8M 提供的音频功能兼容。它们存储为 TensorFlow Record 文件。
在论文中,作者讨论了在 960 ms 块上使用 mel 频谱图来获得 96x64 表示。然后我不清楚他们如何获得 Audioset 中使用的 1x128 格式表示。有人知道更多吗?
java - 在与 Windows Azure 服务的对话中识别特定声音
我想知道是否可以使用 Windows Azure 的认知服务创建一个服务,让我能够识别对话中的一种特定声音(由互联网上的实时流提供)以及如何制作它。我已经知道机器学习的基本技术,但是我从来没有实现过这样的东西,无论如何我想使用认知服务以一种简单有效的方式来实现它。该任务将与事件链等其他任务相关联,因此我应该使用为 Java 或 Python 提供 SKD 的东西。有人知道我该怎么做吗?谢谢!
python-3.x - 音位分类
我正在尝试做的在概念上类似于臭名昭著的 NMIST 分类示例。除了每个数字都是计算机生成的声波。
我将在数据中添加一些背景噪音,以提高现实世界的准确性。
我的问题是;考虑到顺序数据什么模型最适合这个?我是否正确假设卷积网络会起作用?
我倾向于使用更简单的模型来换取几个百分比的性能点,并且最好可以使用 Scikit Learn 库编写它。
sound-recognition - 我希望我的 android 应用程序能够识别手指弹响,有什么办法吗?
我正在创建一个 android 应用程序,我希望我的应用程序能够识别声音并找出它是否是手指弹响的声音,如何做到这一点。是否有任何可用的 API 帮助我。
python - TensorFlow 声音识别教程给出错误:op_def = op_dict[node.op] KeyError: 'DecodeWav'
我正在尝试导入预训练的 tensorflow 模型(教程中的默认声音识别模型),但我不断收到此错误。
我尝试使用检查点文件和 .pb 文件进行导入,作为初学者,我不知道这个错误。任何帮助,将不胜感激!
我已经在 Debian 和 Windows 10、python3.5 和 python 3.6 上使用多个版本的 tensorflow 进行了尝试。
这是我用来导入的代码:
algorithm - Shazam 如何避免误报?
简而言之,Shazam 会记录您正在听的歌曲的指纹,并将其发送到其后端服务器以将其与指纹数据库进行匹配。然后,查找过程会为索引中的每首歌曲生成一个偏移量直方图,并声明在单个偏移量处匹配最多的歌曲为获胜者。有关该算法的详细信息,请参见此处的原始论文。
根据这篇博文,Shazam 将其索引分成几层,以加快查找过程。最流行歌曲的指纹存储在第一层,首先被查询。如果在第一层中没有找到匹配的歌曲,则搜索继续到第二层,依此类推。
我不明白 Shazam 如何通过这样的架构避免误报?例如,当较低级别中存在匹配分数较高的不太受欢迎的曲目时,如何避免匹配具有较高匹配分数的热门曲目?它是否使用评分函数和阈值?如果是,评分函数会是什么样子?
python - 如何将 linux 包正确安装到谷歌云平台项目中?
我正在 Google Cloud Platform 上部署一个 webapp,以使用 Fast.ai 测试一些训练有素的模型。其中之一是用于声音识别,我需要使用 librosa 创建用户提供的声音的频谱图。但是 librosa 需要ffmpeg才能正常工作。
我将ffmpeg添加到我的Dockerfile中。当我部署应用程序时它工作正常,但是在几个请求之后我得到这个错误(好像没有安装ffmpeg):
文件“/usr/local/lib/python3.6/site-packages/audioread/init .py”,第 116 行,在audio_open中:在加载时引发 NoBackendError() (/usr/local/lib/python3.6/site-包/librosa/core/audio.py:119)
有时,它会再次起作用。看起来这取决于应用程序在哪个实例上运行。
这是我的 Dockefile :
python - 基于 FFT 的音频分类
在 python 中,我只通过检查频率和幅度来执行警报识别。我的代码采用 1s 声音的 FFT,然后将其与预定频率及其幅度进行比较。由于警报包含更高的频率(6k-9kHz 等)和一个长数组(44100 个不同的元素),我可以在没有 ML 的情况下成功。由于高分辨率的 FFT,即使在 7010Hz 和 7016Hz 等近距离频率下,我也可以区分幅度变化,并且由于这些频率在录制环境中没有任何外部噪声,因此我可以猜出正确的警报。但是,我想用 ML 来实现它,因为用很多警报来执行它是很困难的。有很多音频分类源/工作示例等,但我找不到最适合我的。他们通常使用特征提取,MFCC,但我不 我不想通过使用 MFCC 来失去我的分辨率,因为它结合了接近的频率。所以我只想构建一个机器学习算法,它只检查每个类中的两个数组;频率和幅度(都有 44100 个元素)你能推荐任何资源来构建这个算法吗?我检查了下面的源代码,没问题,但我不想使用 MFCC 类型的方法。如果您发表评论,我可以通过示例来提出我的问题。 pyAudioClassification