我正在编写一个 android 应用程序,让用户通过麦克风录制他的声音并将其保存在存储中并将其链接到特定内容(如联系人)。稍后,用户再次调用该语音,应用程序应将其与保存的音频文件进行比较,并找到与该语音匹配的那个。
我搜索了很多并找到了一些在线执行此操作的库,例如EchoPrint,它从录制的音频中生成指纹并将其发送到开源服务器并返回结果。但我需要离线执行此操作。
有人知道这样的图书馆吗?
我正在编写一个 android 应用程序,让用户通过麦克风录制他的声音并将其保存在存储中并将其链接到特定内容(如联系人)。稍后,用户再次调用该语音,应用程序应将其与保存的音频文件进行比较,并找到与该语音匹配的那个。
我搜索了很多并找到了一些在线执行此操作的库,例如EchoPrint,它从录制的音频中生成指纹并将其发送到开源服务器并返回结果。但我需要离线执行此操作。
有人知道这样的图书馆吗?
如果您打算将用户的旧录音与新来电进行比较,那么音频指纹识别解决方案(如服务器上 Python 中的Dejavu或 C++ 中的Echoprint)对您没有帮助。它们用于对录制的音频片段和噪声进行识别和检索。他们无法处理人声中的可变性。在这里查看解释。
如果是这种情况,您所指的是说话人识别,这要困难得多,并且涉及相当多的机器学习。对于大量用户(尤其是在手机上离线)来说,这样做会很困难,但对于在几个用户之间进行确定,它可能是可行的。
下面是一个很好的图书馆。这很容易使用。但您需要在此之前将音频文件转换为 Wave 格式。