0

我在 Android 上运行 PocketSphinx(版本 5prealpha)。我正在使用文件定义的关键字识别器,由以下代码段指定(kwfile是关键字定义文件,并且mRecognizer是 SpeechRecognizer 的一个实例):

mRecognizer.addKeywordSearch(DESCRIPTOR, kwfile);

总体而言,在优化了关键词阈值后,识别性能还是不错的。但是,如果我在一个关键字话语和下一个关键字话语之间等待任意时间(5 秒到几分钟),则第二个话语的识别性能会受到影响。例如,我会说“关键字”,它会被识别。如果我等待不到 5 秒并再次说出“关键字”,则可能会识别第二个话语(识别率超过 95%)。但是,如果我等待 15 秒,识别率会急剧下降,低于 50%。

我的假设是,当我第二次说出关键字时,识别器处于刷新的中间——也就是说它在一个Stop Recognition事件和一个Start Recognition事件之间,并且我的讲话超越了那个事件。这是我的 logcat 的典型视图。请注意,5 秒后,识别器“刷新”。在大多数情况下,这种情况大约每 5 秒发生一次。有时“刷新”之间可能长达 30 秒,但通常在 5 秒左右。

09-26 07:11:06.800  20397-20397/...﹕ Start recognition "kwfile"
09-26 07:11:06.815  20397-23642/...﹕ Starting decoding
09-26 07:11:11.310  20397-20397/...﹕ Stop recognition
09-26 07:11:11.315  20397-20397/...﹕ Start recognition "kwfile"
09-26 07:11:11.360  20397-23645/...﹕ Starting decoding
09-26 07:11:17.405  20397-20397/...﹕ Stop recognition

所以,我的问题是:我能做些什么来控制这个“刷新率”吗?这是由于我在RecognitionListener实现中做错了什么引起的(见下文,但请注意 - 我通常不会在话语之间得到任何部分结果。)?或者是否有一个我不知道的 PocketSphinx API 调用来设置这个刷新率?或者,我可以在 PocketSphinx 源中进行更改以改善这种行为吗?

class VoiceListener implements RecognitionListener{

        private boolean isCommand = false;

        @Override
        public void onBeginningOfSpeech() {
            Log.d(TAG,"Beginning of Speech");
            // do nothing
        }

        @Override
        public void onEndOfSpeech() {
            Log.d(TAG,"End of Speech");
            // do nothing
        }

        @Override
        public void onPartialResult(Hypothesis arg0) {
            if( arg0 != null){
                Log.d(TAG, "Partial results list: " + arg0.getHypstr());

                isCommand = false;

                // handle recognition results for keywords
                for( String command : this.getCurrentCommands() ) {
                    if (arg0.getHypstr().contains(command)) {
                        this.onRecognition(arg0.getHypStr());
                        isCommand = true;
                        mRecognizer.stop();
                    }
                }

                // call stop, and let onResults() handle grammar results
                if( arg0.getHypstr().contains(Command.STOP_WORD))
                    mRecognizer.stop();

            }
        }

        @Override
        public void onResult(Hypothesis results) {

            String data;
            if( results == null ){
                data = null;
            }else{
                data = results.getHypstr();
            }

            Log.d(TAG,"Final results: " + data );

            // handle grammar recognition results
            if( !isCommand ){
                this.onRecognition(data);
            }
            return;

        }
4

1 回答 1

0

没有“刷新率”之类的东西。识别准确率下降可能是因为背景中有一些噪音并且没有正确过滤掉。您可以研究原始转储以调查是否将沉默计为语音。您可以共享原始音频转储以获得有关此问题的帮助。

在您的代码中有些事情不是很合理。如果您只使用关键字定位,则无需像现在这样在 onEndOfSpeech 中停止并重新启动识别器,您可以跳过它。在定位模式下,您无需等待语音结束即可获得结果,您只需使用部分结果来调用操作并重新启动识别器。

于 2015-09-26T21:10:29.990 回答