我已经使用 HTK(隐藏马尔可夫模型工具包)来识别用于控制我的 Android 应用程序的特定命令,但在这种情况下,我需要将一些语音数据传递到服务器,这可能会花费更多时间。
为了防止这种延迟,我正在考虑使用pocketsphinx通过 Android 应用程序在本地识别语音数据,这样我就不需要将该音频传递给服务器。
如果这是个好主意,从头开始学习pocketsphinx 容易吗?此外,这两种技术(基于服务器和本地语音识别)的优缺点是什么,哪一种更好?
我已经使用 HTK(隐藏马尔可夫模型工具包)来识别用于控制我的 Android 应用程序的特定命令,但在这种情况下,我需要将一些语音数据传递到服务器,这可能会花费更多时间。
为了防止这种延迟,我正在考虑使用pocketsphinx通过 Android 应用程序在本地识别语音数据,这样我就不需要将该音频传递给服务器。
如果这是个好主意,从头开始学习pocketsphinx 容易吗?此外,这两种技术(基于服务器和本地语音识别)的优缺点是什么,哪一种更好?
CMUSphinx 绝对是一个好主意,它比 HTK 有很多优点:
您绝对应该尝试 Pocketsphinx,有关更多信息,请参阅
http://cmusphinx.sourceforge.net/2011/05/building-pocketsphinx-on-android/