1

我在 C++/CX 中创建了一个语音控制的 UWP 应用程序(对于 Hololens,如果重要的话)。一个非常简单的,主要根据一些示例,这是语音识别事件处理程序:

void MyAppMain::HasSpoken(SpeechContinuousRecognitionSession ^sender, SpeechContinuousRecognitionResultGeneratedEventArgs ^args)
{
    if (args->Result->Confidence == SpeechRecognitionConfidence::Medium
        || args->Result->Confidence == SpeechRecognitionConfidence::High)
    {
        process_voice_command(args->Result->Text);
    }
}

到目前为止一切正常,识别结果是args->Result->Text可变的。现在,我只需要支持一组非常有限的语音命令并忽略其他所有内容,但在这组有限的命令中我想要一些可变性。看来,此页面上的最后一个示例正是关于此的。所以我基于此制作了以下语法文件:

<grammar version="1.0" xml:lang="en-US" root="nextCommands" xmlns="http://www.w3.org/2001/06/grammar" tag-format="semantics/1.0">

  <rule id="nextCommands">
    <item>
      <one-of>
        <item>next</item>
        <item>go</item>        
        <item>advance</item>
      </one-of>
      <tag>out="next";</tag>
    </item>
  </rule>

</grammar>

我想要的是,当我说“下一个”、“开始”或“前进”时,识别引擎只返回“下一个”,所以它在args->Result->Text上面。它现在对我的实际作用是将识别的单词集限制为这三个,但它只是返回我说的单词,而不将其转换为“下一个”。看起来它要么忽略了<tag>元素,要么我必须在我的 C++/CX 程序中以不同的方式检索它的内容。或者<tag>不像我认为的那样工作。我应该改变什么才能让它工作?

4

2 回答 2

1

我找到了一种使用 SRGS 做我想做的事情的方法(至少对于问题中描述的非常简单的情况)。因此,它似乎<tag>并没有直接改变识别结果(至少,不是 with tag-format="semantics/1.0",还有其他tag-format的,如描述的,例如,here,他们可能会做其他事情)。相反,它填充了一些额外的属性集合。所以这就是我现在更改代码的方式:

<grammar version="1.0" xml:lang="en-US" 
root="nextCommands" xmlns="http://www.w3.org/2001/06/grammar" 
tag-format="semantics/1.0">

  <rule id="nextCommands">
    <item>
      <one-of>
        <item>next</item>
        <item>go</item>        
        <item>advance</item>
      </one-of>
      <tag>out.HONEY="bunny";</tag>
    </item>
  </rule>

</grammar>

现在,当“next”、“go”或“advance”被识别时,它仍然保持不变,但在key 和valueargs->Result->Text中也会有一个新的对。我可以检查是否是这种情况args->Result->SemanticInterpretation->PropertiesHONEYbunny

args->Result->SemanticInterpretation->Properties->HasKey("HONEY");

如果是这样,检索它的值

args->Result->SemanticInterpretation->Properties->Lookup("HONEY")->GetAt(0); //returns "bunny"
于 2017-11-14T07:22:45.833 回答
0

或者不像我认为的那样工作

标签是一种法律规则扩展,标签不影响由语法定义的合法词模式或识别语音或给定语法的其他输入的过程。详情请查看语音识别语法规范的标签部分

我想要的是,当我说“下一个”、“开始”或“前进”时,识别引擎只返回“下一个”

语音识别将用户说出的单词转换为文本以供表单输入。 约束或语法定义了语音识别器可以匹配的口语单词和短语。您使用的语法用于定义匹配世界。如果您希望“next”、“go”或“advance”执行相同的命令,您可以在处理文本结果时处理它们。例如,

// Start recognition.
Windows.Media.SpeechRecognition.SpeechRecognitionResult speechRecognitionResult = await speechRecognizer.RecognizeWithUIAsync();
// Do something with the recognition result.
if (speechRecognitionResult.Text == "go" || speechRecognitionResult.Text == "next" || speechRecognitionResult.Text == "advance")
{

}

详情请参考官方示例的Scenario_SRGSConstraint,其中包含该方法HandleRecognitionResult

于 2017-11-13T07:21:59.640 回答