-2

有大量关于声音分类的文献,其中可能的匹配项是现代世界中发现的任何声音(例如:http ://projects.csail.mit.edu/soundnet/ )。这个问题的不同之处在于它仅限于搜索少数特定的声音,在本地录制和训练。这个问题是关于编写一个移动应用程序的可行性,该应用程序将记录和转换一小组声音(例如,少于 10 个),然后能够“收听”并识别这些声音。

在这个类似的、未回答的 SO question中,作者以门铃的声音为例。我的示例会有所不同,因为我想对狗的发声进行分类。我可能会定义“fido bark”、“rover bark”、“fido whine”、“rover whine”,所以当应用程序处于训练模式时有四个按钮。然后狗会发出声音,人类用户会对每种声音进行分类。然后应用程序将切换到聆听模式,如果某只狗发出某种声音,应用程序将匹配声音并显示哪只狗,以及发生了哪种声音。

在没有外部处理的情况下,在典型的移动设备上编写应用程序(例如上述应用程序)是否可行?如果是这样,怎么做?

4

2 回答 2

1

这是可行的。我发现一篇使用 Core ML 和 Skafos 库将基于声音的鸟类分类模型部署到 iOS 的文章:Detecting Bird Sounds with Create ML, CoreML3, and Skafos

所以它也可以用狗来完成,假设你有数据,然后是一个训练有素的模型。

于 2020-10-01T20:57:43.793 回答
0

为了使用移动设备对音频执行分析,需要与离线分析相同的技术(通常发现:频谱图、频移、CNN 分类器、集成),但在移动设备的资源和时间限制更多的限制下。

训练模型的过程可能最好离线完成,然后才能将模型部署到移动设备上。在移动设备上,通常有允许图像匹配/比较的有效方法(库)。通过将音频转换为光谱仪,可以利用这些相同的比较技术。

更具体地说,此处描述了使用 TensorFlow 进行离线训练并部署到 Android:Net Guru 博客文章:使用机器学习进行音频分类 - 在移动设备上实现。那篇文章还描述了将模型部署到 iOS 所需的更复杂的步骤。此外,jlibrosa是一个开源库,可帮助实现音频处理的一些步骤。

Vasanthkumar Velayudham 写了几篇文章,这将是开始了解该领域应用程序前景的好地方,例如heartbeat.fritz.aimedium.com

于 2020-10-10T20:32:12.597 回答