我想开发应用程序,只要它识别出一个关键字,它就会做一些事情。它需要一直处于聆听模式,也需要在后台。我接触过这个和这个。我在运行它,但是当我说话时它不起作用。实际上我读它仍然不支持我的母语。是这个原因吗?我想知道它是如何工作的?它是否正在对文本进行语音并将其保存在资产文件中?它在后台运行吗?是用AI模型吗?当两个应用程序需要并行麦克风资源时它的行为如何?噪音?它可以与神经网络 API 一起使用吗?我怎样才能开始开发这样的东西?
谢谢!
很高兴您在 Android 上尝试了 Vosk 离线语音识别,以下是您问题的一些答案:
实际上我读它仍然不支持我的母语。
如果你是关于希伯来语的,我们将来可能会支持它,你可以自己构建它。
是这个原因吗?
您没有提供足够的信息来回答这个问题,请多解释一下什么是“它不起作用”
我想知道它是如何工作的?
讲座、课程和书籍中提供了有关语音识别的大量文档。您可以在这里找到一些介绍,例如:https ://www.youtube.com/watch?v=q67z7PTGRi8
它是否正在对文本进行语音并将其保存在资产文件中?
它对文本进行语音转换,但它不会将结果保存到资产中,它只是显示它们。您不能修改资产,它们是静态的。
它在后台运行吗?
是的
是用AI模型吗?
当然
当两个应用程序需要并行麦克风资源时它的行为如何?
在 android 中,无法同时录制来自两个应用程序的音频,第二个应用程序将被阻止。
噪音?
它对噪声具有鲁棒性。
它可以与神经网络 API 一起使用吗?
不,它是便携式的
我怎样才能开始开发这样的东西?
获得一些基本的了解并开始编写代码。如果您还有其他问题,可以在Telegram 聊天中提问