有大量关于声音分类的文献,其中可能的匹配项是现代世界中发现的任何声音(例如:http ://projects.csail.mit.edu/soundnet/ )。这个问题的不同之处在于它仅限于搜索少数特定的声音,在本地录制和训练。这个问题是关于编写一个移动应用程序的可行性,该应用程序将记录和转换一小组声音(例如,少于 10 个),然后能够“收听”并识别这些声音。
在这个类似的、未回答的 SO question中,作者以门铃的声音为例。我的示例会有所不同,因为我想对狗的发声进行分类。我可能会定义“fido bark”、“rover bark”、“fido whine”、“rover whine”,所以当应用程序处于训练模式时有四个按钮。然后狗会发出声音,人类用户会对每种声音进行分类。然后应用程序将切换到聆听模式,如果某只狗发出某种声音,应用程序将匹配声音并显示哪只狗,以及发生了哪种声音。
在没有外部处理的情况下,在典型的移动设备上编写应用程序(例如上述应用程序)是否可行?如果是这样,怎么做?